AI专题报告:Scale up与Scaleout组网变化趋势如何看?(附下载)
(精选报告来源:报告研究所)
1、Scale up:带宽升级压力更大,铜连接等核心受益
1.1、超节点内部:Scale Up 带动带宽持续提升
超节点指的是多个 GPU 互联的节点,例如英伟达的DGX POD。在云计算阶段,服务器主要为 CPU 服务器,每台服务器配置 1-2 颗CPU 芯片,单服务器配置几乎没有发生过变化。AI 时代,AI 大模型的训练需要更大规模的并行计算,单颗GPU 无法满足模型训练或者推理需求,因此不仅单服务器内部部署GPU数量提升至 4 颗、8 颗甚至更多,并通过 Scale Up 的方式实现更多GPU互联,最终对这样一个靠 Scale Up 方式互联的形态定义为一个超节点。以英伟达为例,超节点定义为 DGX Pod,A 和 H 普通系列每台服务器内部配有8颗 GPU 芯片,到 B 系列,该节点下单台服务 GPU 规模从8 颗升至最多72颗,Scale Up 互联的极限则升至 576 颗 GPU。
AI 训练模型特质决定 Scale UP 内部带宽要求更高。随着AI 模型规模不断增加,在训练角度上,单 GPU 显存很难满足模型需求,同时随着训练量提升,本身对于GPU 的总数需求也需要快速提升,因此大规模分布式并行训练成为更好的选择。
分布式训练常见有三种策略,分别是数据并行(Data Parallelism,DP)、流水线并行(Pipeline Parallelism,PP)和张量并行(Tensor Parallelism,TP),大模型训练时,会混合采用三种并行策略。1)数据并行:每个 GPU 拥有同样的模型副本,数据集拆分成多份给到不同的GPU进行训练,每一次迭代训练完成,各个 GPU 需要把计算得到的梯度进行全局同步,并计算出下一轮迭代需要用到的参数。数据并行中,网络上需要对各个GPU的梯度做一次 AllReduce(AllReduce 是一种特殊的通信协议,要将所有节点上的数据进行规约操作,并将结果返回到根节点,通过 AllReduce 算法,可以实现节点间的数据同步,从而加速模型的收敛速度)。2)流水线并行:将模型按照神经元的层次进行拆分,不同层放在不同的GPU上,这种并行不需要不同 GPU 之间做层间点到点数据传递,只是传输正向计算的激活值和反向计算的梯度值,这种通信量较小,对网络性能要求较低。3)张量并行:联合多个 GPU 同时做张量计算,这种策略需要多个GPU对局部的张量计算结果做全局的 AllReduce 同步。张量并行通常计算规模较大且在一次迭代里会发生多次 AllReduce,因此张量计算对网络带宽需求最大。
实际训练过程,机柜内部进行张量并行,如果采用英伟达GPU 方案,利用NVLINK带宽,机柜间进行流水线并行,同时为了加速模型训练,加入数据并行,一般来说一个数据并行单元成为一个 DP 组,每个 DP 组内张量并行和流水线并行共存。以百度智能云提供的案例为例,如果存在 8 路张量并行,4 路流水线并行,以及3路数据并行,则每次迭代,张量并行需要 100GB 级别的AllReduce,流水线并行需要 100MB 级别的点到点传输,数据并行需要 10GB 级别AllReduce。因此对于带宽的需求更多停留在服务器内部,服务器之外的带宽需求相对较低。随着模型的规模不断增加,对于服务器内带宽的需求会呈现快速提升,为了适应更大的模型训练,建立更大带宽的超节点成为趋势。
1.2、超节点规模:由 GPU 或者云厂商设计决定
(一)英伟达:超节点规模从 GH200 的 256 升级至576 张卡
2024 年 3 月英伟达发布了发布新一代 AI 超级计算机——搭载NVIDIAGB200Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD。和之前的8 卡方案不同,每个 DGX GB200 系统共包含 36 个 CPU 和 72 个GPU。如果完全采用 NVLINK 互联生成超级点,在 GH200 阶段,互联的上限是256张卡,到 GB200 部分,可升级到 576 张卡。内部互联的带宽部分,单卡拥有18个NVLink 100 GB/s 连接,总带宽可达 1.8TB/s,相较于H 系列,带宽翻倍,若采用NVL72 版本,互联总带宽可达到 130TB/s。
(二)谷歌:超结点规模为 8096 张卡
2023 年 1 月谷歌发表了文章《How to scale AI training to up to tens of thousandsofCloud TPU chips with Multislice》,此前大模型训练如果采用谷歌TPU的方案,只能局限在单个切片中,该报告提出 Multislice 技术,可通过芯片间互联及多个TPU pod 互联,使得将训练集群工作扩展到万颗芯片以上互联规模。
在该文中谷歌提出观点为:通过做大超节点 Pod 的规模,可降低对于DCN互联带宽的要求。具体表现为:如果我们增加 pod 内部算力卡个数,对于pod 之间DCN带宽就可以降低,同样可以达到理想的训练效果,并不会受制于通信带宽迭代的限制。(本质原因在于如果将 TP 留在超节点内部完成,PP 和DP 本身对通信要求较低,通过机柜外互联带宽完成,对应 DCN 带宽要求也可以降低)
(三)UALink:1.0 阶段超节点规模为 1024
2024 年 5 月 AMD、英特尔、谷歌、微软、博通、思科、Meta 和惠普企业等八家科技巨头联合组建了 UALink 联盟,旨在推出一项新的技术标准——UltraAccelerator Link(UALink),对标英伟达的 NVLINK。UALink 联盟预计会在 2024 年第三季度成立,并提供UALink 1.0 规范给加入到联盟内的公司。UALink 1.0 规范支持连接多达 1024 个AI 芯片,并允许在一个计算集群(Pod)内,让接入的 GPU 等加速器附带的内存之间实现直接加载和存储。
1.3、带宽提升驱动内部互联密度提升
结合上述分析,Scale up 后续升级的趋势为做大超节点规模,其中谷歌采用TPU为定制化方案,当前市场仍是使用英伟达方案为为主流。英伟达的方案是通过NVL GB200 方案设计,叠加使用 NVLINK 协议,明显提升机柜内部互联带宽提升,并采用铜互联方式,打开铜互连市场需求。
展望:英伟达公布下一代 Rubin 系列规划,NVLINK 带宽持续升级,推动铜互连带宽升级。目前英伟达公布将在 2026 年推出第一代Rubin 产品,2027 年将推出Rubin Ultra。Rubin 平台将搭载新一代 NVLink 6 Switch,提供高达3600GB/s的连接速度,以及高达 1600 GB/s 的 CX9 SuperNIC 组件,确保数据传输的高效性。如果在 Rubin 系列,英伟达继续采用类似机柜方案设计扩大节点内带宽,NVLINK6.0 支持柜内带宽翻倍提升,有望铜互带宽和互联密度提升。
长期视角:长期来看伴随带宽升级,铜互联传输距离限制或推动光互联方案替代。铜缆在传输电信号过程中存在信号衰减问题,且传输距离越远损耗越大,因此铜缆能实现稳定传输的距离较短。此外随着网络带宽升级,铜缆传输的单链路信号速率也从 56Gbps 升级到 112Gbps,并继续向 224Gbps 方向升级,而信号速率的升级将直接导致链路损耗加速增加,从而进一步缩短铜缆连接距离。基于现实的物理限制条件,IEEE 制定 112G 规范的 802.3CK 小组在56G 速率最长3 米的铜缆IO 基础上,将铜缆链路的最大长度缩减为 2 米。如果不做任何更改,2 米的距离可能不足以将未来架顶式(TOR)交换机与机柜内部较低位置服务器连接起来。因此在当下 112G 甚至 224G 信号速率阶段,通过更改交换机位置,紧凑服务器结构设计减少对于铜缆距离的要求,同时设计上将铜缆从无源铜缆DAC向有源铜缆(AEC、ACC)变化增加铜缆互联距离适应当下需求。但考虑到本身铜缆的物理限制,以及后续带宽持续升级的背景下,铜缆做优化的难度会持续增加,在此背景下,光互联(高带宽高速率长传输距离优势)有望替代铜互联方案。
2、Scale out:集群规模升级,以太网和硅光化加速
2.1、AI 集群规模走向 10 万卡阶段
本报告文件将分享到报告研究所知识星球,扫描下方图片中二维码即可查阅
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
欢迎加入报告研究所知识星球社群,入圈后您可以享受以下服务:
1、报告持续更新,分享最新、最专业、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。公众号发布的报告可同步下载;
2、海量研究报告均可下载PDF高清版,无限制;
3、会员可以提问方式获取具体报告需求;
温馨提示
应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!
这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”
入群方式:添加助理微信touzireport666,发送「个人纸质名片」或「电子名片」审核后即可入群