查看原文
其他

微软发布新的AI基础设施

常华Andy Andy730
2025-01-01

当前,微软正致力于进行人类有史以来规模最大的基础设施建设。尽管这种说法可能显得夸张,但我们只需看一看像全国性铁路网络、大坝,甚至是阿波罗登月计划等大型项目的年度支出,都无法与微软在2024年及以后计划超过500亿美元的数据中心年度支出相媲美。这一基础设施建设的目标是加速通向AGI之路,并将生成式AI的智能引入到从生产力应用到休闲娱乐的生活的方方面面。

虽然在中期,AI基础设施的主体将依赖于Nvidia的GPU,但微软正积极推动向其它芯片供应商和内部开发的芯片进行多元化。我们在一月份详细介绍了微软与AMD MI300的雄心勃勃计划,而最近也公布了明年MI300X的订单量。除了加速器之外,对于800G PAM4光通信、相干光通信、布线、制冷、CPU、存储、DRAM以及各种其它服务器组件也存在着巨大需求。

我们将深入探讨微软在内部芯片研发领域的最新动态。在今天的Azure Ignite大会上,微软发布了两个重要的芯片产品,分别是Cobalt 100 CPU和Maia 100 AI加速器,也被称为Athena或M100。这些产品的推出体现了微软在系统级设计方面的突出能力。在此,我们将详细分析Maia 100的机柜级设计、网络架构(包括Azure Boost和Hollow Core Fiber)以及安全性。此外,我们还将对Maia 100的生产规模、与AMD MI300X的竞争力、Nvidia H100/H200/B100、Google TPUv5、Amazon Trainium/Inferentia2等芯片产品的对比,以及微软在AI芯片领域的长远规划进行深入研究。同时,我们还将分享关于GPT-3.5和GPT-4模型在Maia 100上的性能表现的信息。

值得注意的是,尽管微软在部署定制芯片方面相对于谷歌和亚马逊稍显滞后,但其在芯片项目领域拥有丰富的历史。举例而言,您是否了解微软曾开发过一款名为E2的定制CPU,采用了一套利用EDGE(显式数据图执行,Explicit Data Graph Execution)的自定义指令集?值得一提的是,为了适应这一指令集,他们甚至专门为这一ISA移植了Windows!在半定制游戏主机芯片领域,微软一直与AMD保持合作关系,而如今他们还将这一伙伴关系拓展到基于定制Arm的Windows PC芯片。

此外,微软还内部开发了多代信任根(Root of Trust),这些信任根被部署在他们数据中心中安装的每台服务器上。

长期以来,微软一直致力于Project Catapult项目(https://www.microsoft.com/en-us/research/project/project-catapult/),该项目面向搜索、人工智能和网络。最初,Project Catapult完全基于标准的FPGA,但随后微软最终选择与英特尔合作,开发了一款自定义的FPGA。尽管该FPGA最初的主要用途是为Bing提供支持,但由于英特尔在执行该计划时遇到了问题,最终不得不放弃使用。与谷歌搜索主要使用TPU加速不同,Bing仍然高度依赖于FPGA。

作为今天公告的一部分,微软还宣布了Azure Boost网络适配器,这是一款基于外部FPGA和内部设计的ASIC的200G DPU。该产品卸载了许多与虚拟化程序、主机、网络和存储相关的任务。但由于某种原因,仍需在搭载Azure Boost的Azure实例中为基础设施相关任务放弃主机CPU核心。与亚马逊的Nitro不同,后者将所有主机CPU核心释放供虚拟机使用。

Azure Cobalt 100 CPU

Azure Cobalt 100 CPU是微软在其云平台中引入的第二款基于Arm架构的中央处理器。该处理器已成功应用于内部微软产品,如Azure SQL服务器和Microsoft Teams。微软首次部署的Arm架构CPU是基于Ampere Computing购得的Neoverse N1 CPU。Cobalt 100 CPU在Neoverse N1的基础上演进,搭载了基于Armv9的128个Neoverse N2核心和12个DDR5通道,相较于Neoverse N1,性能提升了40%。

Cobalt 100主要基于Arm的Neoverse Genesis CSS(计算子系统)平台。这种提供方式与Arm传统的IP授权业务模式有所不同,使得基于Arm架构的CPU开发变得更为迅速、简便,且成本更低。

Arm为供应商提供了经验证、已布局的“blob”(一种二进制大型对象),其中包含了设计过程中众多方面的完成情况。

在Cobalt 100的实现中,微软通过将两个Genesis计算子系统互连,形成了一个完整的CPU。

这与阿里巴巴的Yitan 710 CPU相似,后者同样基于Neoverse N2。Chips and Cheese在这里对其进行了详细介绍。

Arm此前曾夸耀说,从项目启动到为超大规模计算中心提供可工作的芯片芯片只需13个月。鉴于阿里巴巴和微软是我们所知道的仅有的两个Genesis CSS客户,而阿里巴巴是首个上市的客户,很有可能Arm在下面的幻灯片中所提到的正是微软。同时,谷歌的基于Arm的CPU也有可能采用了Genesis CSS。

Azure Maia 100(Athena)

微软期待已久的人工智能加速器终于推出。作为美国四大超级规模计算中心(亚马逊、谷歌、Meta、微软)中最后一个揭开产品面纱的厂商,尽管如此,Maia 100并非寻常之物。我们将对其性能/TCO与AMD MI300X、Nvidia H100/H200/B100、Google TPUv5、亚马逊Trainium/Inferentia2进行详细比较。

-----
Source: DYLAN PATEL, MYRON XIE; Microsoft Infrastructure - AI & CPU Custom Silicon Maia 100, Athena, Cobalt 100, 11/16/2023


---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存