以太网引领AI浪潮:向企业推广AI的首选
Dell、HPE和Lenovo,这三家全球最大的系统制造商,按照这个顺序排名,正在向其企业客户提供更多的网络解决方案。谈及此事时,我们指的是Spectrum,尤其是Nvidia所称之为Spectrum-X的Spectrum-4以太网交换机和BlueField-3 DPU的组合。
Nvidia一直以来都在向那些构建庞大的AI训练集群以及运行高性能计算仿真和建模工作负载的客户销售InfiniBand网络设备,这使得其网络业务在其历史中首次突破了100亿美元的大关,也创下了其Mellanox Technologies收购和Nvidia母公司的记录。在最新的季度中,Nvidia的网络业务首次达到了100亿美元的年收入水平,我们认为其中21.4亿美元来自InfiniBand,而以太网/其它部分则为4.35亿美元(其它可能是NVSwitch)。这是一个非常显著的比例,InfiniBand的销售超过以太网5:1,并且同比增长了5倍,而以太网在2024财年第三季度下降了25.2%。(最好基于年度数据进行评估,尽管我们的数据不完整,但随着季度的推移,我们的模型将逐渐完善。)
将其与更广泛的数据中心交换机市场进行比较。如果InfiniBand交换机驱动了InfiniBand收入的一半(适配器卡和线缆占另一半),那么交换机部分每年大约在40亿美元左右。根据IDC的数据,截至2023年6月的过去十二个月里,以太网数据中心交换机带动了181亿美元的销售。这几乎是一个完美的反比例关系,是1:5的InfiniBand与以太网。
诚然,AI集群属于高性能计算(HPC)范畴,而且是一种极具强度的HPC形式。然而,从另一种思维方式出发,生成式AI训练和推断成为可广泛应用于所有组织的首个HPC工作负载。因此,或许在绘制InfiniBand和以太网之间网络市场份额的饼图时,更应该倾向于类似数据中心中使用的“通用”交换机,而非HPC系统间的互连分布。即使在Nvidia收购Mellanox之前的Mellanox初期,InfiniBand也只贡献了其收入的一半。
时间将为我们揭晓一切,预算将决定成败。然而,在Nvidia于2019年3月以69亿美元收购Mellanox之前,Mellanox早已在HPC、超大规模和云计算领域为自己在InfiniBand和以太网市场的定位做好准备。公正地说,自被Nvidia收购以来,Mellanox从Nvidia团队那里获取了用于Ethernet和InfiniBand设备的SerDes电路,并确保了一些适用于HPC和AI工作负载的InfiniBand技术已经整合到当前的Spectrum-4 Ethernet堆栈中。
这一直是既定的意图,即使在Nvidia使用Spectrum-X的名称为其以太网产品组建“Ultra Ethernet Consortium”之前。这个联盟得到了交换ASIC制造商Broadcom、HPE、Cisco以及超大规模运算的Microsoft和Meta Platforms的支持,挑战了InfiniBand在AI训练中的主导地位。随着Broadcom的Jericho3-AI、Cisco的G200以及HPE的Rosetta(用于Slingshot交换机)开始竞争InfiniBand,Nvidia主导的InfiniBand面临着来自具有AI专用交换ASIC的公司的竞争。Spectrum-X这个市场推广的名称可能是个噱头,但Spectrum-X技术却是实实在在的,它经过精心设计,旨在填补标准数据中心以太网和InfiniBand之间的差距。
“Spectrum-4与Spectrum-1、Spectrum-2和Spectrum-3不同,并且表现也不同,”Nvidia网络营销高级副总裁Gilad Shainer表示“当构建用于AI的网络,即用于分布式计算的网络时,你需要将网络视为端到端的整体。因为在网卡端有一些需要处理的事情,在交换机端也有一些需要处理的事情,因为网络需要尽可能低的延迟和最低的抖动来减小尾延迟。传统的以太网数据中心网络需要抖动,需要丢包来处理拥塞,但基于以太网的AI网络不能这样做。”
Nvidia声称Spectrum-X系列在运行分布式AI工作负载时,其性能大约是传统数据中心以太网的1.6倍,并表示InfiniBand在此基础上还能提供额外20%的性能提升。
Spectrum-4交换机拥有两个型号。SN5600拥有64个端口,速度为800 Gb/s;128个端口,速度为400 Gb/s;或256个端口,速度为200 Gb/s。如有需要,这256个端口可以以传统的100 Gb/s或50 Gb/s的速度运行。此外,设备还配置有一个独立的1 Gb/s管理端口。Spectrum-4 ASIC的聚合交换容量为51.2 Tb/s,每秒可处理33.3亿个数据包。相对而言,SN5400基于Spectrum-4 ASIC,其聚合带宽为一半(25.6 Tb/s),不支持800 Gb/s端口。该型号仅能在400 Gb/s速度下运行64个端口、在200 Gb/s速度下运行128个端口,以及在100 Gb/s及更低速度下运行256个端口。SN5400设备之所以配置有两个1 Gb/s的管理端口,原因尚不明确。
Spectrum-X的特殊之处在于RoCE协议的适配器路由和拥塞控制。RoCE是从InfiniBand借鉴的一种直接内存访问技术,虽然有人认为它不及InfiniBand(而实际证据也确实如此),但至少使得以太网的延迟较之前更低。对于自适应路由,BlueField-3 DPU负责重新排列以太网数据包的顺序,并通过RoCE将其正确有序地放入服务器内存。在Spectrum-4交换机中,带内遥测驱动拥塞控制,通过在BlueField-3 DPU上实时运行的深度学习算法,这些算法能够优化基础设施的设置,以适应用户和条件的变化。
然而,Spectrum-4交换机唯一不具备的功能是Quantum和Quantum 2 InfiniBand交换机以及已添加到NVSwitch 3 GPU内存结构的SHARP交换机的处理能力。这一点有些令人惊讶,但或许在Spectrum-5中将会实现。与InfiniBand类似,Spectrum-4支持Nvidia的MPI协议的NCCL实现,这是在分布式系统中广泛使用的一种协议。NCCL已经经过调整,以在Spectrum-4交换机和BlueField-3 DPU上实现良好的运行。这是实现端到端性能提升、更低延迟以及比运行常规以太网更少抖动的方法之一。
我们非常期待看到InfiniBand与Spectrum-X、Jericho3-AI和G200之间的性能对比。希望有人能够在AI集群竞标的过程中进行一些比较基准测试,并与全球分享,请求分享。
Nvidia本身可能有能力执行此项任务,因为他们正在与Dell进行合作,搭建一个包含2000个节点的GPU集群,基于PowerEdge XE9690服务器,搭载“Hopper” H100 GPU和BlueField-3 DPU。该集群名为Israel-1,是专门用于进行此类测试的参考架构。据Shainer所说,最终Israel-1将成为DGX Cloud的一部分,该平台允许Nvidia的客户在全球各种基础设施上测试应用程序的工作负载。
Dell、HPE和Lenovo计划在2024年第一季度推出基于Spectrum-X参考架构的集群。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解