查看原文
其他

NVlink:突破AI与HPC的数据传输瓶颈

常华Andy Andy730
2025-01-01

在最近于加利福尼亚州圣何塞举办的GPU技术大会上,NVIDIA的新Blackwell架构成为了瞩目的焦点。然而,网络层的新瓶颈问题对提供更强大的处理器以支持人工智能(AI)、高性能计算(HPC)和大数据分析工作负载构成了挑战。幸运的是,NVIDIA正通过其最新的互连和交换技术来解决这一问题,这包括NVLink 5.0系统骨干以及800Gb的InfiniBand和以太网交换机,用于存储连接。

NVLink技术的最新版本——NVLink 5.0,在系统层面上实现了重大进步。该技术的第五代将GPU到GPU再到CPU的总线数据传输速度提升至每秒100GB。每块GPU拥有18个NVLink连接,Blackwell GPU的总带宽可达到1.8TB/秒,这是用于GPU间或与Hopper CPU间数据传输的,带宽是NVLink 4.0的两倍,也是行业标准PCIe Gen5总线带宽的14倍。NVLink是基于NVIDIA的高速信号互连协议NVHS开发的。

NVIDIA利用NVLink 5.0作为构建其基于GB200 NVL72框架的超大规模GPU超级计算机的基础。每个NVL72托盘包含两个GB200 Grace Blackwell Superchip,每个Superchip内含一个Grace CPU和两个Blackwell GPU。一个完整的NVL72框架将配备36个Grace CPU和72个Blackwell GPU,占据两个48-U机架(还有一个减半配置的NVL36,放置在一个机架内)。通过堆叠足够数量的NVL72框架,可以构建一个DGX SuperPOD。

根据NVIDIA发布的一篇博客文章,为了连接液冷NVL72框架中的所有Grace Blackwell Superchip,需要9个NVLink交换机。文章中提到,“NVIDIA GB200 NVL72引入了第五代NVLink,能够在单个NVLink域中连接多达576个GPU,总带宽超过1PB/s,配备240TB的快速内存。”

NVIDIA首席执行官黄仁勋在其GTC主题演讲中对这种互连速度表示惊叹,他说:“我们可以让每个GPU都以全速与其他GPU通信。这简直太疯狂了。这相当于一个拥有艾克赛弗洛普AI系统的单个机架。”

NVIDIA还发布了新的NVLink交换机,用于将多个NVL72框架连接到一个命名空间中,以便训练大型语言模型(LLMs)和其他GPU密集型工作负载。这些NVLink交换机采用了由Mellanox开发的可扩展分层聚合和减少协议(SHARP协议),每个交换机可提供高达130TB/s的GPU带宽。

这些网络和计算带宽将用于训练LLMs,这些模型因其数万亿个参数而需要大量的计算和内存带宽。例如,训练一个拥有1.8万亿参数的LLM,如果使用8000个Hopper GPU,需要90天,而使用2000个Maxwell GPU则可以在相同时间内完成。

与上一代HGX H100套件相比,新的GB200 NVL72系统带宽提升了30倍,每个GPU每秒最多可生成116个令牌。这种计算能力对于大数据分析等领域也非常有用,因为数据库连接时间将减少18倍,NVIDIA表示。对于基于物理的仿真和计算流体动力学,性能分别提升了13倍和22倍。

除了通过NVLink 5.0加速GPU集群内部的数据流动,NVIDIA还推出了新的交换机,旨在将GPU集群与大容量存储阵列连接起来,以便存储用于AI训练、HPC模拟或分析工作负载的大数据。公司推出了X800系列交换机,提供以太网和InfiniBand两种版本,吞吐量达到每秒800Gb。

X800系列产品包括新的InfiniBand Quantum Q3400交换机和NVIDIA ConnectX-8 SuperNIC。与之前的400Gb/s交换机相比,Q3400交换机根据NVIDIA的SHARP协议v4,带宽容量和总计算能力分别提升了5倍和9倍。同时,ConnectX-8 SuperNIC利用PCI Express(PCIe)Gen6技术,支持高达48个通道。这些交换机和网卡旨在训练拥有万亿参数的AI模型。

对于非InfiniBand用户,NVIDIA的新Spectrum-X800以太网交换机和BlueField-3 SuperNIC提供了行业标准网络连接的最新技术。当配备800GbE功能时,Spectrum-X SN5600交换机(已经投产400GbE)将提供比400GbE版本4倍的容量,并提供每秒51.2太比特的交换机容量,NVIDIA称这是生产中速度最快的单个ASIC交换机。同时,BlueField-3 SuperNIC通过使用远程直接内存访问(RDMA)技术,帮助保持低延迟数据流进入GPU。

NVIDIA预计新的X800技术将于2025年推出。云服务提供商如Microsoft Azure、Oracle Cloud和Coreweave已经承诺支持这项技术。其他存储供应商,包括Aivres、DDN、Dell Technologies、Eviden、Hitachi Vantara、Hewlett Packard Enterprise、Lenovo、Supermicro和VAST Data也已承诺提供基于X800系列的存储系统。



---【本文完】---

近期受欢迎的文章:

  1. 在AI时代,CXL已死

  2. AMD携手Broadcom,PCIe Gen7交换机与AFL技术,剑指NVIDIA NVLink

  3. 存储为何对AI至关重要 - Solidigm

  4. AI浪潮终于开始惠及戴尔和HPE

  5. AI的未来需要以太网(超级以太网)



更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存