以太网引领AI浪潮：向企业推广AI的首选

Original 常华Andy Andy730

2025-01-01

Dell、HPE和Lenovo，这三家全球最大的系统制造商，按照这个顺序排名，正在向其企业客户提供更多的网络解决方案。谈及此事时，我们指的是Spectrum，尤其是Nvidia所称之为Spectrum-X的Spectrum-4以太网交换机和BlueField-3 DPU的组合。

Nvidia一直以来都在向那些构建庞大的AI训练集群以及运行高性能计算仿真和建模工作负载的客户销售InfiniBand网络设备，这使得其网络业务在其历史中首次突破了100亿美元的大关，也创下了其Mellanox Technologies收购和Nvidia母公司的记录。在最新的季度中，Nvidia的网络业务首次达到了100亿美元的年收入水平，我们认为其中21.4亿美元来自InfiniBand，而以太网/其它部分则为4.35亿美元（其它可能是NVSwitch）。这是一个非常显著的比例，InfiniBand的销售超过以太网5:1，并且同比增长了5倍，而以太网在2024财年第三季度下降了25.2%。（最好基于年度数据进行评估，尽管我们的数据不完整，但随着季度的推移，我们的模型将逐渐完善。）

将其与更广泛的数据中心交换机市场进行比较。如果InfiniBand交换机驱动了InfiniBand收入的一半（适配器卡和线缆占另一半），那么交换机部分每年大约在40亿美元左右。根据IDC的数据，截至2023年6月的过去十二个月里，以太网数据中心交换机带动了181亿美元的销售。这几乎是一个完美的反比例关系，是1:5的InfiniBand与以太网。

诚然，AI集群属于高性能计算（HPC）范畴，而且是一种极具强度的HPC形式。然而，从另一种思维方式出发，生成式AI训练和推断成为可广泛应用于所有组织的首个HPC工作负载。因此，或许在绘制InfiniBand和以太网之间网络市场份额的饼图时，更应该倾向于类似数据中心中使用的“通用”交换机，而非HPC系统间的互连分布。即使在Nvidia收购Mellanox之前的Mellanox初期，InfiniBand也只贡献了其收入的一半。

时间将为我们揭晓一切，预算将决定成败。然而，在Nvidia于2019年3月以69亿美元收购Mellanox之前，Mellanox早已在HPC、超大规模和云计算领域为自己在InfiniBand和以太网市场的定位做好准备。公正地说，自被Nvidia收购以来，Mellanox从Nvidia团队那里获取了用于Ethernet和InfiniBand设备的SerDes电路，并确保了一些适用于HPC和AI工作负载的InfiniBand技术已经整合到当前的Spectrum-4 Ethernet堆栈中。

这一直是既定的意图，即使在Nvidia使用Spectrum-X的名称为其以太网产品组建“Ultra Ethernet Consortium”之前。这个联盟得到了交换ASIC制造商Broadcom、HPE、Cisco以及超大规模运算的Microsoft和Meta Platforms的支持，挑战了InfiniBand在AI训练中的主导地位。随着Broadcom的Jericho3-AI、Cisco的G200以及HPE的Rosetta（用于Slingshot交换机）开始竞争InfiniBand，Nvidia主导的InfiniBand面临着来自具有AI专用交换ASIC的公司的竞争。Spectrum-X这个市场推广的名称可能是个噱头，但Spectrum-X技术却是实实在在的，它经过精心设计，旨在填补标准数据中心以太网和InfiniBand之间的差距。

“Spectrum-4与Spectrum-1、Spectrum-2和Spectrum-3不同，并且表现也不同，”Nvidia网络营销高级副总裁Gilad Shainer表示“当构建用于AI的网络，即用于分布式计算的网络时，你需要将网络视为端到端的整体。因为在网卡端有一些需要处理的事情，在交换机端也有一些需要处理的事情，因为网络需要尽可能低的延迟和最低的抖动来减小尾延迟。传统的以太网数据中心网络需要抖动，需要丢包来处理拥塞，但基于以太网的AI网络不能这样做。”

Nvidia声称Spectrum-X系列在运行分布式AI工作负载时，其性能大约是传统数据中心以太网的1.6倍，并表示InfiniBand在此基础上还能提供额外20%的性能提升。

Spectrum-4交换机拥有两个型号。SN5600拥有64个端口，速度为800 Gb/s；128个端口，速度为400 Gb/s；或256个端口，速度为200 Gb/s。如有需要，这256个端口可以以传统的100 Gb/s或50 Gb/s的速度运行。此外，设备还配置有一个独立的1 Gb/s管理端口。Spectrum-4 ASIC的聚合交换容量为51.2 Tb/s，每秒可处理33.3亿个数据包。相对而言，SN5400基于Spectrum-4 ASIC，其聚合带宽为一半（25.6 Tb/s），不支持800 Gb/s端口。该型号仅能在400 Gb/s速度下运行64个端口、在200 Gb/s速度下运行128个端口，以及在100 Gb/s及更低速度下运行256个端口。SN5400设备之所以配置有两个1 Gb/s的管理端口，原因尚不明确。

Spectrum-X的特殊之处在于RoCE协议的适配器路由和拥塞控制。RoCE是从InfiniBand借鉴的一种直接内存访问技术，虽然有人认为它不及InfiniBand（而实际证据也确实如此），但至少使得以太网的延迟较之前更低。对于自适应路由，BlueField-3 DPU负责重新排列以太网数据包的顺序，并通过RoCE将其正确有序地放入服务器内存。在Spectrum-4交换机中，带内遥测驱动拥塞控制，通过在BlueField-3 DPU上实时运行的深度学习算法，这些算法能够优化基础设施的设置，以适应用户和条件的变化。

然而，Spectrum-4交换机唯一不具备的功能是Quantum和Quantum 2 InfiniBand交换机以及已添加到NVSwitch 3 GPU内存结构的SHARP交换机的处理能力。这一点有些令人惊讶，但或许在Spectrum-5中将会实现。与InfiniBand类似，Spectrum-4支持Nvidia的MPI协议的NCCL实现，这是在分布式系统中广泛使用的一种协议。NCCL已经经过调整，以在Spectrum-4交换机和BlueField-3 DPU上实现良好的运行。这是实现端到端性能提升、更低延迟以及比运行常规以太网更少抖动的方法之一。

我们非常期待看到InfiniBand与Spectrum-X、Jericho3-AI和G200之间的性能对比。希望有人能够在AI集群竞标的过程中进行一些比较基准测试，并与全球分享，请求分享。

Nvidia本身可能有能力执行此项任务，因为他们正在与Dell进行合作，搭建一个包含2000个节点的GPU集群，基于PowerEdge XE9690服务器，搭载“Hopper” H100 GPU和BlueField-3 DPU。该集群名为Israel-1，是专门用于进行此类测试的参考架构。据Shainer所说，最终Israel-1将成为DGX Cloud的一部分，该平台允许Nvidia的客户在全球各种基础设施上测试应用程序的工作负载。

Dell、HPE和Lenovo计划在2024年第一季度推出基于Spectrum-X参考架构的集群。

---【本文完】---

近期受欢迎的文章：

我们正处于数十年未见之大机遇中

新技术爆发式发展，催生新产品

然而，颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个

Andy730

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

以太网引领AI浪潮：向企业推广AI的首选

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

生成图片，分享到微信朋友圈

以太网引领AI浪潮：向企业推广AI的首选

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡