互联网资讯 · 2024年1月12日

微软发布两款自研AI芯片,支持大型模型训练

11月16日消息,美国时间周三,微软推出了其首款自研人工智能(AI)芯片,旨在支持大语言模型的训练,减少对英伟达昂贵硬件的依赖。同时,微软还推出了基于ARM架构的云基础设施CPU。这两款芯片旨在为AzuRe数据中心提供动力,助力微软及其企业客户迎接AI时代。

微软的AzuRe MAIa AI芯片和AzuRe Cobalt CPU预计将在2024年上市。今年,英伟达的H100 GPU需求激增,这些处理器广泛应用于生成图像工具和大语言模型的训练。由于需求旺盛,这些GPU的价格在eBay上甚至超过了4万美元。

微软AzuRe硬件系统及基础设施负责人拉尼·博卡(Rani BoRkaR)在采访中表示:“微软在芯片开发方面有着深厚的历史。”早在20多年前,微软便与合作伙伴一起开发了Xbox的芯片,并参与了SuRfACE设备的芯片设计。博卡指出:“这些努力奠定了我们的基础。自2017年以来,我们开始构建云硬件堆栈,开启了自研芯片的旅程。”

全新的AzuRe MAIa AI芯片和AzuRe Cobalt CPU均由微软内部研发,并对其云服务器堆栈进行了全面优化,以提升性能、降低功耗和成本。博卡提到:“我们正在重新思考人工智能时代的云基础设施,真正优化每一层。”

AzuRe Cobalt CPU以元素“钴”命名,是一款128核芯片,基于ARM的NeOVeRse CSS设计,并为微软量身定制,旨在支持AzuRe上的通用云服务。博卡解释称:“我们投入了大量精力,不仅追求高性能,同时也关注电源管理。因此,我们在设计中做出了许多有意识的选择,以控制每个内核和虚拟机的性能和功耗。”

微软目前正在测试Cobalt CPU的工作负载,如Teams和SQL服务器,并计划明年为客户提供多种工作负载的虚拟机。尽管博卡并未将其与亚马逊的GRavITon 3服务器进行直接比较,但与微软目前的基于ARM的服务器相比,预计会有显著的性能提升。博卡表示:“我们的初步测试显示,性能比现有商用ARM服务器提高了40%。”目前,微软尚未公布完整的系统规格或基准。

微软的MAIa 100 AI加速器以“昴宿四”命名,专为云端AI工作负载设计,包括大语言模型的训练和推理。它将支持微软在AzuRe上某些最大规模的人工智能工作负载,包括与OpenAI的高达100多亿美元的合作。微软将为OpenAI的所有工作负载提供支持,并与其在MAIa的设计和测试中进行了密切合作。

OpenAI首席执行官萨姆·奥特曼(SaM AltMan)表示:“当微软首次分享MAIa芯片设计时,我们感到非常兴奋。我们共同努力,通过我们的模型来改进和测试它。AzuRe的端到端人工智能架构现已通过MAIa进行了优化,为训练更强大的模型铺平了道路,并降低了客户的成本。”

MAIa芯片采用台积电5纳米工艺制造,拥有1050亿个晶体管,数量比AMD的MI300X AI GPU(1530亿个晶体管)少约30%。博卡指出:“MAIA支持我们首个8位数据类型,即MX数据类型,以便协同设计硬件和软件,帮助加快模型训练和推理的速度。”

微软与AMD、ARM、英特尔、Meta、英伟达和高通等公司共同加入了一个组织,致力于为下一代人工智能模型的数据格式制定标准。同时,微软正在基于开放计算项目(OCP)的协作和开放工作,适应人工智能的需求。

博卡透露:“MAIa是微软制造的首个完整液冷服务器处理器,我们的目标是以更高的效率实现更高的服务器密度。我们重新构思了整个堆栈,并考虑到了每一层,因此这些系统也适用于现有的数据中心。”

这是微软的一项关键举措,可以更快地部署这些人工智能服务器,而无需在全球数据中心重新腾出空间。微软为MAIa服务器主板设计了独特的机架,并配备了名为“助手”的液体冷却器,其工作原理类似于高档游戏PC中的散热器,可有效冷却MAIa芯片。

除了共享MX数据类型,微软还与合作伙伴共享其机架设计,以便他们能够在内部使用其他芯片的系统。然而,MAIa芯片的设计不会被广泛分享,微软将其保留在内部。

目前,MAIa 100正在对GPT 3.5 TuRbo进行测试,该模型支持ChatGPT、Bing AI和GitHub Copilot等工具。微软正处于部署的初期阶段,与Cobalt类似,该公司尚未公布确切的MAIa规格或性能基准。

因此,难以对MAIa与英伟达广受欢迎的H100 GPU、最近发布的H200,甚至AMD的最新MI300X进行直接比较。博卡不愿意进行比较,而是重申,与英伟达和AMD的合作对于AzuRe人工智能云的未来依然至关重要。博卡表示:“在云计算运营的规模下,优化和整合堆栈的每一层以提升性能,确保供应链多样化,并为客户提供基础设施选择是至关重要的。”

对微软而言,供应链的多样化同样重要,尤其是在英伟达目前是人工智能服务器芯片的主要供应商的背景下,各公司纷纷争相购买这些芯片。据估计,为了推动ChatGPT的商业化,OpenAI需要超过3万个英伟达的老款A100 GPU,而微软的自研芯片将帮助客户降低人工智能的成本。微软为自己的AzuRe云工作负载研发了这些芯片,并不计划将其出售给英伟达、AMD、英特尔和高通等其他公司。

博卡解释称:“我认为这更像是一种互补,而非竞争。如今,我们在云计算领域同时使用英特尔和AMD的芯片。同样,在人工智能领域,我们也可以同时使用AMD和英伟达的芯片。这些合作伙伴对我们的基础设施至关重要,我们希望为客户提供选择。”

MAIa 100和Cobalt 100的命名暗示微软已经在设计这些芯片的第二代版本。博卡透露:“这是一个系列,不仅仅是第一代,但我们不会分享我们的路线图。”目前尚不清楚微软将多久发布一次MAIa和Cobalt的迭代,但考虑到人工智能发展的速度,如果MAIa 100的继任者与英伟达H200发布的速度相当(约20个月),也并不令人意外。

当前的关键在于,微软将多快实现MAIa的运行,以加快推进其人工智能愿景,以及这些芯片将如何影响人工智能云服务的定价。微软尚未准备好讨论新服务器的定价,但我们已看到该公司悄然推出了针对Microsoft 365的Copilot,每位用户每月收费30美元。

目前,Microsoft 365版的Copilot仅开放给大型客户,企业用户需承诺至少拥有300个用户,才能使用这款新的人工智能办公助手。随着微软本周推出更多Copilot功能,并对Bing Chat进行了品牌重塑,MAIa可能很快就会满足对支持这些新体验的AI芯片的需求。

[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
[[[IMG_4]]]
[[[IMG_5]]]
[[[IMG_6]]]
[[[IMG_7]]]
[[[IMG_8]]]