NVlink：突破AI与HPC的数据传输瓶颈

Original 常华Andy Andy730

2025-01-01

在最近于加利福尼亚州圣何塞举办的GPU技术大会上，NVIDIA的新Blackwell架构成为了瞩目的焦点。然而，网络层的新瓶颈问题对提供更强大的处理器以支持人工智能（AI）、高性能计算（HPC）和大数据分析工作负载构成了挑战。幸运的是，NVIDIA正通过其最新的互连和交换技术来解决这一问题，这包括NVLink 5.0系统骨干以及800Gb的InfiniBand和以太网交换机，用于存储连接。

NVLink技术的最新版本——NVLink 5.0，在系统层面上实现了重大进步。该技术的第五代将GPU到GPU再到CPU的总线数据传输速度提升至每秒100GB。每块GPU拥有18个NVLink连接，Blackwell GPU的总带宽可达到1.8TB/秒，这是用于GPU间或与Hopper CPU间数据传输的，带宽是NVLink 4.0的两倍，也是行业标准PCIe Gen5总线带宽的14倍。NVLink是基于NVIDIA的高速信号互连协议NVHS开发的。

NVIDIA利用NVLink 5.0作为构建其基于GB200 NVL72框架的超大规模GPU超级计算机的基础。每个NVL72托盘包含两个GB200 Grace Blackwell Superchip，每个Superchip内含一个Grace CPU和两个Blackwell GPU。一个完整的NVL72框架将配备36个Grace CPU和72个Blackwell GPU，占据两个48-U机架（还有一个减半配置的NVL36，放置在一个机架内）。通过堆叠足够数量的NVL72框架，可以构建一个DGX SuperPOD。

根据NVIDIA发布的一篇博客文章，为了连接液冷NVL72框架中的所有Grace Blackwell Superchip，需要9个NVLink交换机。文章中提到，“NVIDIA GB200 NVL72引入了第五代NVLink，能够在单个NVLink域中连接多达576个GPU，总带宽超过1PB/s，配备240TB的快速内存。”

NVIDIA首席执行官黄仁勋在其GTC主题演讲中对这种互连速度表示惊叹，他说：“我们可以让每个GPU都以全速与其他GPU通信。这简直太疯狂了。这相当于一个拥有艾克赛弗洛普AI系统的单个机架。”

NVIDIA还发布了新的NVLink交换机，用于将多个NVL72框架连接到一个命名空间中，以便训练大型语言模型（LLMs）和其他GPU密集型工作负载。这些NVLink交换机采用了由Mellanox开发的可扩展分层聚合和减少协议（SHARP协议），每个交换机可提供高达130TB/s的GPU带宽。

这些网络和计算带宽将用于训练LLMs，这些模型因其数万亿个参数而需要大量的计算和内存带宽。例如，训练一个拥有1.8万亿参数的LLM，如果使用8000个Hopper GPU，需要90天，而使用2000个Maxwell GPU则可以在相同时间内完成。

与上一代HGX H100套件相比，新的GB200 NVL72系统带宽提升了30倍，每个GPU每秒最多可生成116个令牌。这种计算能力对于大数据分析等领域也非常有用，因为数据库连接时间将减少18倍，NVIDIA表示。对于基于物理的仿真和计算流体动力学，性能分别提升了13倍和22倍。

除了通过NVLink 5.0加速GPU集群内部的数据流动，NVIDIA还推出了新的交换机，旨在将GPU集群与大容量存储阵列连接起来，以便存储用于AI训练、HPC模拟或分析工作负载的大数据。公司推出了X800系列交换机，提供以太网和InfiniBand两种版本，吞吐量达到每秒800Gb。

X800系列产品包括新的InfiniBand Quantum Q3400交换机和NVIDIA ConnectX-8 SuperNIC。与之前的400Gb/s交换机相比，Q3400交换机根据NVIDIA的SHARP协议v4，带宽容量和总计算能力分别提升了5倍和9倍。同时，ConnectX-8 SuperNIC利用PCI Express（PCIe）Gen6技术，支持高达48个通道。这些交换机和网卡旨在训练拥有万亿参数的AI模型。

对于非InfiniBand用户，NVIDIA的新Spectrum-X800以太网交换机和BlueField-3 SuperNIC提供了行业标准网络连接的最新技术。当配备800GbE功能时，Spectrum-X SN5600交换机（已经投产400GbE）将提供比400GbE版本4倍的容量，并提供每秒51.2太比特的交换机容量，NVIDIA称这是生产中速度最快的单个ASIC交换机。同时，BlueField-3 SuperNIC通过使用远程直接内存访问（RDMA）技术，帮助保持低延迟数据流进入GPU。

NVIDIA预计新的X800技术将于2025年推出。云服务提供商如Microsoft Azure、Oracle Cloud和Coreweave已经承诺支持这项技术。其他存储供应商，包括Aivres、DDN、Dell Technologies、Eviden、Hitachi Vantara、Hewlett Packard Enterprise、Lenovo、Supermicro和VAST Data也已承诺提供基于X800系列的存储系统。

---【本文完】---

近期受欢迎的文章：

更多交流，可添加本人微信

（请附姓名/关注领域）

继续滑动看下一个

Andy730

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

NVlink：突破AI与HPC的数据传输瓶颈

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

NVlink：突破AI与HPC的数据传输瓶颈

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡