查看原文
其他

为AI从InfiniBand转向以太网铺路

常华Andy Andy730
2025-01-01

几乎所有公司,包括NVIDIA在内,都认为从长远来看,大多数运行大规模AI训练和推理工作负载的用户,将需要比InfiniBand成本效益更高AI加速器网络解决方案。

尽管NVIDIA宣称InfiniBand仅占AI集群总成本的20%,且能将AI训练性能提升20%,足以抵消其成本。但用户仍需为这20%的成本买单。这远高于基于以太网的集群中通常仅占10%或更低的成本。后者在数据传输速率和性能上,无论是在理论上还是在实际应用中,通常被认为是一个略逊一筹的技术选择。

然而,得益于超以太网联盟(UEC)的努力,以太网在运行AI工作负载时遇到的几个问题将得以解决,我们认为这也将有助于推动以太网在传统HPC工作负载中的更广泛应用。这远远超出了应用Cray设计的“Rosetta”以太网交换机和“Cassini”网卡所构成的HPE的Slingshot互连技术的应用范围。这些中间的“超级计算机”在双年Top500排名中并不真正从事HPC或AI工作,只是供应商和机构的一种宣传噱头。

关于以太网正在如何演变的讨论,是最近与华尔街进行的最重要的讨论之一。这是在Arista Networks最近一次电话会议中讨论的,该会议是为了审议其截至2024年3月的第一季度财务业绩。

正如我们之前报道的(《Meta大规模AI集群内部揭秘:构建60万个H100的强大算力》),Meta Platforms正在建设两个集群,每个都拥有24576个GPU,一个基于NVIDIA的400Gb/s Quantum 2 InfiniBand(我们的推测),另一个则使用Arista Networks旗舰的400Gb/s 7800R3 AI Spine(我们确定),这是一个支持460Tb/s聚合带宽的多ASIC模块化交换机,支持“数据包喷洒”(packet spraying)——这是使以太网在AI和HPC的集体网络操作中性能更好的关键技术。7830R3脊柱交换机基于Broadcom的Jericho 2c+ ASIC,而非更适合AI的Jericho 3AI芯片。Broadcom更直接地针对NVIDIA的InfiniBand,据我们所知,这种芯片在产品中仍然未大量出货。

Arista Networks为Meta Platforms的以太网集群所构建的互连技术还包括符合Meta Platforms青睐的Open Compute Projects的Wedge 400C和Minipack2网络机箱。(原始的Wedge 400基于Broadcom的3.2 Tb/s“Tomahawk 3” StrataXGS ASIC,而在AI集群中用作顶部机架的Wedge 400C则基于思科的12.8 Tb/s Silicon One ASIC。Minipack2基于Broadcom的25.6 Tb/s“Tomahawk 4” ASIC。)Wedge 400C和Minipack2似乎用于对服务器主机进行集群,而7800R AI Spine则用于对GPU进行集群,但Meta Platforms尚未透露具体细节。

Meta Platforms是以太网在AI领域的旗舰客户,微软也将紧随其后。但其它公司也在领先。Arista Networks在2月份透露,它已在相当大规模的AI集群中取得了设计上的胜利。该公司的联合创始人兼首席执行官Jayshree Ullal分享了这些胜利如何转化为收入的洞察,并表示这将使Arista Networks有望在2025年实现其声称的7.5亿美元的AI网络收入目标。

Ullal在电话会议上表示:“这个集群”,她指的是Meta Platforms的集群,“处理涉及数千个处理器的模型和数据并行化的复杂AI训练任务,以太网正在证明其至少能在所有数据包大小上提供至少10%的作业完成性能改善。我们正在见证AI网络的拐点,并预计这种趋势将持续到今年和未来十年。以太网正在成为前端和后端AI数据中心的关键基础设施。AI应用程序无法孤立工作,而是需要在由后端GPU和AI加速器组成的计算节点以及像CPU和存储等前端节点之间实现无缝通信。”

这种10%的完成时间提升是通过使用当前的Jericho 2c+ ASIC作为网络中的核心脊柱实现的,而不是Jericho 3AI。

在电话会议的尾声,Ullal对InfiniBand和以太网之间的优劣进行了更详细的描述,这为我们提供了一个有价值的视角。

她进一步阐述道:“从历史角度看,InfiniBand和以太网各有优势。传统上,InfiniBand被认为是零丢包的,而以太网则被认为具有一定的丢包风险。然而,当实际将完整的GPU集群与光学设备及其它组件结合,并观察各种数据包大小下作业完成时间的一致性时,数据已经显示——这是我们从包括Broadcom在内的第三方获取的数据——在实际环境中,以太网的作业完成时间大约快了10%。可以从单一角度看待此事,也可以从一个实际运行的集群角度来考虑。在实际集群中,我们已经见证了以太网的性能提升。但请注意,这仅仅是我们目前所了解的以太网性能。一旦我们拥有超以太网联盟的技术支持,以及数据包喷洒、动态负载平衡和拥塞控制等方面的改进,我相信这些数字将会更加亮眼。”

Ullal随后提及Arista Networks在五个重要交易中赢得了四笔AI集群交易,而非InfiniBand。(可以推测InfiniBand赢得了另一笔交易。)

Ullal补充说:“在这四个案例中,我们现在正由试验阶段转入试点阶段,今年将连接数千个GPU,并预计在2025年生产规模达到一万至十万个GPU。”“大规模以太网正成为扩展型AI训练工作负载的首选网络和事实标准。一个优秀的AI网络需要一个良好的数据策略,这由高度差异化的EOS和网络数据湖架构提供。因此,我们越来越有信心实现2025年达到7.5亿美元的AI目标。”

如果以太网的成本仅为InfiniBand的一半到三分之一,从端到端涵盖了光学设备、线缆、交换机和网络接口——并且其工作速度更快,从长远来看,对于相同数量的网络层来说,以太网更具韧性和可扩展性,那么InfiniBand将面临不小的压力。如果Arista Networks在五个重要GPU集群的交易中赢得了其中四个,那么InfiniBand确实已经感受到了市场的压力。显然,这些数字的引用旨在体现其代表性,但市场的最终选择将由市场本身来作出。

我们在二月份就曾说过,现在再次重申:我们认为Arista Networks低估了其预期,而华尔街似乎也持相同观点。该公司将其2024年的收入增长预期提高了两个百分点,至12%至14%,我们认为这在一定程度上得益于以太网在AI集群中的应用,以及未来可能也会在HPC集群中受到青睐。

但这里有一个值得关注的数字:Arista Networks在AI集群互连网络设备销售中每赚得7.5亿美元,NVIDIA可能会损失15亿美元至22.5亿美元。在过去的十二个月中,我们估计NVIDIA的InfiniBand网络销售额为64.7亿美元,而数据中心的GPU计算销售额为397.8亿美元。按照四比一的换算比例和稳定市场状态,NVIDIA可能保留大约13亿美元,而UEC联盟则可能保留17亿至26亿美元,具体取决于以太网成本的变化。如果我们用大约1.8倍的系数乘以我们预计NVIDIA在2028年数据中心收入中可能获得的860亿美元左右,你会发现,如果一切保持不变,InfiniBand的销售目标将更接近120亿美元。

UEC联盟成员有足够的市场份额可以争夺,但他们将通过从整体中移除收入来争夺市场份额,就像Linux对Unix所做的那样,而不是将收入从一种技术转移到另一种技术。这些节省下来的资金将被重新投入到GPU中。

与此同时,Arista Networks取得了相当不错的季度业绩,没有出乎意料的亮点。产品销售额增长了13.4%,达到13.3亿美元;服务收入增长了35.3%,达到2.425亿美元。软件订阅服务(包含在产品中)贡献了2300万美元,因此总的“类似年金”的服务占据了2.656亿美元,同比增长了45.6%。总收入增长了16.3%,达到了15.7亿美元。净收入增长了46.1%,达到6.38亿美元。Arista Networks季末现金储备为54.5亿美元,我们估计其客户数量大约在1万左右。我们认为Arista在数据中心业务上的收入约为14.8亿美元,该业务的运营收入约为6.23亿美元。这是我们关注的重点。当然,园区和边缘网络业务也很有值得关注,我们希望它们也能为Arista Networks和其它公司带来增长和盈利。



--【本文完】---

近期受欢迎的文章:

  1. 构建高效AI基础设施:网络性能优化

  2. Meta的AI网络演进

  3. AI时代的网络:网络定义数据中心(白皮书)

  4. 利用超级以太网,加速AI应用的连接性

  5. 超级以太网联盟规范概述及动机



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存