查看原文
其他

AMD发布业界首款UEC就绪AI NIC

常华Andy Andy730
2025-01-01

核心内容

  1. 网络的重要性:AI系统依赖集群工作负载,随着其复杂性增加,网络在性能中的作用愈发关键。为应对不断演变的需求,亟需适应性强的网络解决方案。
  2. 前端网络:连接数据中心基础设施和外部网络,需确保安全和存储加速能力,同时通过DPU卸载CPU负担,提供高效、安全的服务。
  3. 后端网络:直接连接GPU,以便共享查询和激活结果,支持大规模训练和推理。当前面临的挑战包括高效扩展、故障恢复、网络拥塞和数据丢失风险。尽管以太网在可扩展性和总拥有成本方面占优,但后端AI网络需达到95%以上的利用率,这要求以太网进一步演进以实现智能负载均衡和先进的拥塞管理。
  4. 第三代P4引擎:高性能数据通路引擎。具有200多个可编程的MPUs,能够在多个高级服务并发运行的同时提供400Gbps的线速性能。这种架构使得服务可以像软件一样快速编码和更新,同时保持硬件级别的性能,满足AI网络的未来需求。
  5. Salina 400:第三代DPU,在运行SDN安全加密服务的同时可提供400Gbps吞吐量,性能比上一代产品提高了两倍以上,且完全向后兼容,支持完全可编程的管道持续为客户带来创新功能。
  6. Pollara 400:同样采用第三代P4引擎,业界首个符合UEC标准的AI NIC,支持UEC就绪RDMA,在关键AI模型参数上性能比传统RoCEv2高5-6倍。

----------

关联文章:

----------

在过去十年中,AMD在数据中心芯片领域建立了最全面的产品组合领先地位。Lisa已经向大家介绍了EPYC CPU和GPU的进展和领先路线图。现在,我要谈谈我们的网络技术,并展示这些组件如何协同工作,帮助我们的合作伙伴打造卓越的数据中心解决方案。

首先,让我展示CPU和GPU如何协作以提升AI工作负载的性能。人们常常忽视的是,选择适当的CPU可以显著提升GPU的性能。

以深度学习工作负载为例,CPU负责为GPU提供数据并执行编排任务,如内核启动、数据迁移和结果汇总。这个过程的延迟和响应能力对推动整体性能至关重要。Lisa提到的高频Turin 9575F CPU能够加速工作负载,更快地处理编排任务,从而为客户的GPU提供更优异的性能。

以Llama 3.1推理为例,在整个GPU集群的工作负载中,性能提升约10%。在集群层面,这是相当可观的——在拥有1000个GPU的集群中,仅使用5GHz的Turin CPU就能每秒增加70万个tokens的处理量。在Stable Diffusion等训练工作负载中,选择合适的CPU作为GPU主机可使训练时间缩短20%之多。而且这一原则不仅适用于CPU。

训练通常是一个集群工作负载,网络在性能中扮演着关键角色。

过去,大多数数据中心的网络相对简单,但随着AI的发展,这种情况正在改变。如今的AI系统连接到多个网络,每个网络都有不同的角色、要求和需求。这些需求在不断演变,因此需要适应性强的解决方案,以保持在这个新AI时代的创新前沿。

AI系统首先具有一个前端网络(front-end network),它与数据中心基础设施的其他部分相连,包括存储和与外部世界的广域网(WAN)连接。该网络用于用户访问和向CPU输入数据,设置AI引擎、启动查询并传递结果。它需要存储加速能力以供给GPU,但最关键的是,它必须保证安全,以保护数据、模型和用户隐私。这一不断演进的服务集合需要在不增加CPU负担的情况下交付,正如我们刚才讨论的那样。AMD Pensando DPU能够将基础设施、存储和安全服务从CPU中卸载,并提供安全的线速连接,支持丰富的软件定义网络(SDN)功能。

在AI系统中,还存在另一个网络:后端网络(backend network)。它直接互连GPU,使它们能够共享查询和激活结果,以统一实体的形式进行大规模训练和推理。对于包含数十到数百个GPU的小型集群,这可能是Ultra Accelerator Link(UALink)或NVLink。在集群层面,网络现在必须能够高效扩展到数万甚至数十万GPU。它们必须具备故障恢复能力,保持高利用率,并能够检测和避免网络拥塞。拥塞可能会阻碍众多GPU的工作进度,在最坏的情况下,甚至会导致数据丢失,迫使任务或应用重新启动。

网络协议正在不断演进,以确保我们能够优化AI集群的正常运行时间和性能。这一点至关重要,因为数据显示网络是性能的关键组成部分。Meta的研究表明,后端网络在训练周期中占用了30%的时间。AMD的研究则显示,在某些训练和分布式推理工作负载中,通信占用了40%到75%的时间。

AI网络必须应对AI工作负载的独特挑战和特性,才能充分发挥其性能潜力。

当然,在过去30年中,每当我们谈论网络时,无论面对什么问题,答案始终是以太网。为什么?因为它提供了更优的TCO,在可扩展性方面远超任何竞争技术,并且拥有极其广泛的生态系统。简而言之,从云计算到企业,以太网都是首选方案。许多客户已经成功地将以太网部署为前端和后端AI网络的生产解决方案。尽管以太网在规模和总拥有成本方面明显占优,但最大化利用其可用带宽——尤其是对于后端网络——仍然至关重要。这正是以太网需要继续演进的方向。

通用以太网网络的利用率通常约为50%,而后端AI网络则期望能够在95%以上的利用率下运行。只有当以太网发展到支持智能负载均衡以充分利用带宽、提供先进的拥塞管理以避免性能下降,并在丢包或延迟情况下具备快速故障恢复能力时,这一目标才能实现。

幸运的是,以太网一直在演进,并将继续这样做。包括AMD在内的一群杰出团队成立了超以太网联盟(Ultra Ethernet Consortium, UEC),旨在标准化改善AI网络利用率和性能的方法。UEC的目标是确保开放性、互操作性和良好的TCO。

我们很欣喜地看到社区快速壮大,现已包括行业内的主要供应商和客户。

UEC引入的关键创新确保了AI后端网络能够高效打包和传输数据,充分利用所有可用的数据传输路径,最大化吞吐量并最小化网络拥塞。同时,它避免了网络中的热点,保持高负载GPU之间的最大吞吐量。更重要的是,它还将包括快速检测和恢复网络故障及数据包丢失的功能。

好消息是,UEC就绪(UEC-ready)的RDMA即将问世,它在关键AI模型参数上的性能已比传统RoCEv2高出5到6倍。因此,网络正以开放的方式演进以满足AI的需求,但这种创新速度也给行业带来了压力,迫使我们提供符合新标准的优化芯片。

AMD相信我们已经攻克了高性能、可演进网络芯片的交付难题,这些芯片能够跟上AI的发展步伐。秘诀何在?AMD Pensando团队已推出第三代P4引擎,配备了200多个完全可编程的匹配处理单元(Match Processing Units,MPUs)和匹配-动作引擎(Match-Action engine)等。这意味着我们拥有了一个超高性能、完全可编程的数据通路引擎,能够在多个高级服务并发运行的同时,提供400Gbps的线速性能。这些服务可以以软件的速度进行编码和更新,同时匹配硬件解决方案的性能。这一架构使AMD独特地能够满足AI网络的未来需求,也是我们将Pensando团队纳入AMD的主要动因。借助这一第三代引擎,我们在DPU产品线中继续保持领先地位。

今天,我很高兴地宣布Salina 400发布,这是一款面向SmartNIC和智能基础设施的第三代DPU,以及Pollara 400,我们的首款AI NIC产品。Salina在同时运行SDN安全加密服务的情况下,提供400Gbps的吞吐量,其性能超过上一代产品两倍以上,同时完全向后兼容。

这一完全可编程的管道意味着我们可以不断为客户交付创新和功能,使他们能够在其上实现自己的愿景。Salina将为AI系统提供高性能网络,并满足通用计算云日益增长的需求。这些系统由Turin CPU驱动,需要输入一些数据。

同时,我也很高兴地宣布Pollara 400发布。它使用相同的第三代P4引擎,有望成为业界首款符合UEC标准的AI NIC。它将提供UEC就绪RDMA的性能优势,确保AMD的客户能够持续快速创新并实现最短的生产周期。

我很高兴地宣布Salina和Pollara将于明年初上市。

将各个角色作为相辅相成的组件组合在一起,形成了卓越的解决方案。我们的OEM和云客户设计完整的解决方案,打造出超越其部分总和的平台,即使这些部分本身已经非常出色。与合作伙伴携手,我们已交付超过350个服务器平台和950多个基于AMD数据中心技术的云实例。

----------

AMD Pensando DSC3-400 Distributed Services Card (DSC) 

  • 规格尺寸:全高8英寸长度的PCIe

  • 主机接口:单主机:16通道PCIe Gen 5.0,多主机最多支持两个

  • 网络端口:2个QSFP112端口(NRZ/PAM4)

  • 端口配置:

    • 2 x 400 GE

    • 4 x 200 GE

    • 4 x 100 GE

    • 4 x 50 GE

    • 4 x 25 GE

    • NRZ(10/25G)

    • PAM4(50/100/200/400G)

    • Quad 200/100/50/25 GE

  • RoCE支持:在L2/L3网络上支持V1/V2

  • 管理:通过SMBus的MCTP

  • 增强可观察性:

    • 基于流的包传输遥测

    • 状态连接统计

    • 延迟度量、丢包统计

    • 会话阈值警报

    • ERSPAN(双向)

    • NetFlow/IPFIX

  • 高级安全性:

    • 状态防火墙

    • 连接跟踪(L4)

    • 安全组、无状态和反射ACL

    • VPN终止(IPsec)

    • NAT、PAT

    • TLS/DTLS加密、TLS代理

  • 加密:

    • 批量加密

    • 公钥加密(PKE)

    • 认证

    • 压缩和解压缩(LZRW1-A)

    • 在线IPsec和DTLS

    • 安全哈希和CRC块可以可编程方式链接

  • 云网络:

    • 路由(BGP)、ECMP、VPN叠加

    • 灵活封装(VxLAN、NVGRE、Geneve、IP-in-IP、GRE)

    • 负载均衡

    • 多租户

  • 存储加速:

    • RDMA、RoCEv2、UEC就绪RDMA

    • NVMe虚拟化

    • NVMe-oF(RDMA或TCP)

    • 静态数据加密(AES-CTS)

    • 压缩

    • 去重:SHA2 128/256/512,CRC32,Azure CRC64,Adler32和M-Adler32

    • 校验和加速(CRC64/32)

AMD Pensando Pollara 400 NIC

关键特性

  • P4可编程性(P4 Programmability):采用P4可编程架构,支持网络行为自定义和RDMA传输定制,能够适应新协议和标准,如UEC制定的规范。P4编程能力使芯片可针对特定AI工作负载进行优化,同时保持与未来行业标准的兼容性。
  • 多路径传输与智能数据包喷洒(Multipathing & Intelligent Packet Spraying):支持高级分组喷洒,满足AI模型高带宽低延迟需求,尤其在CLOS架构中,实现快速消息处理和低尾延迟。与AMD Instinct加速器和EPYC CPU基础设施无缝集成,优化GPU间RDMA通信。智能分配QP数据包至多路径,降低AI网络热点和拥堵,确保最佳性能。支持自选以太网交换供应商,无需无损网络,大幅降低配置和操作复杂度。
  • 有序消息传递(In-Order Message Delivery):具备处理乱序数据包到达的能力,适用于多路径和分组喷洒技术。该功能高效处理以不同顺序到达的数据包,直接放入GPU内存,避免延迟。通过在NIC层面管理复杂性,系统保持高性能和数据完整性,无需增加GPU负担,从而降低延迟,提高整体系统效率。
  • 快速丢失恢复与选择性重传(Fast Loss Recovery with Selective Retransmission):通过有序消息传递和选择性确认(SACK)重传,显著提升网络性能。与RoCEv2的Go-back-N机制不同,SACK仅识别和重传丢失或损坏的数据包,优化带宽利用率,减少数据包丢失恢复的延迟,最小化冗余数据传输。结合高效的有序传递和SACK重传,确保平滑的数据流和资源的最佳利用。
  • 路径感知拥塞控制(Path Aware Congestion Control):采用实时遥测和网络感知算法,有效管理网络拥塞,包括汇聚场景。与依赖PFC和ECN的RoCEv2不同,可维护每条路径的拥塞状态,通过自适应分组喷洒动态避免拥塞路径,瞬时拥塞期间保持接近线速性能,优化多个路径的数据包流,无需PFC,并实施每流的拥塞控制。
  • 快速故障检测(Rapid Fault Detection in High-Performance AI Networks):通过先进的快速故障检测方法,确保高性能网络在AI GPU集群中的数据同步。其故障检测机制包括基于发送方的ACK监控,通过发送方跟踪多个网络路径的确认,和接收方的包监控,从接收方角度监测传入的数据包流,若某路径在指定时间内未接收到数据包则识别为潜在故障。此外,当怀疑存在故障时,采用探测机制向可疑路径发送探测包,若未收到响应则确认路径故障。这些机制能够在毫秒级识别问题,实现几乎即时的故障切换,最小化GPU空闲时间,并优化网络资源分配。

技术规格:

  • 最大带宽:400 Gbps

  • 规格尺寸:半高半长 (HHHL)

  • 主机接口:PCIe Gen5.0 x16

  • 以太网接口:QSFP112 (NRZ/PAM4 Serdes)

  • 以太网速度:25/50/100/200/400 Gbps

  • 以太网配置:

    • 支持最多4个端口:

      • 1 x 400G

      • 2 x 200G

      • 4 x 100G

      • 4 x 50G

      • 4 x 25G

  • 管理:MCTP over SMBus


  • 增强可观测性:

    • 延迟指标,丢包统计

    • 遥测阈值告警

    • 在线硬件IPsec加密和解密

    • AES-GCM 128/256位密钥

  • 存储加速:

    • RDMA

    • RoCEv2

    • UEC就绪RDMA

  • 管理和控制:

    • MCTP/SMBus

    • SPDM over MCTP

    • MCTP over PCIe VDM

    • PLDM固件

  • 云网络:

    • UEC就绪

    • 灵活传输

    • 多租户

  • 优化AI网络:

    • 可编程拥塞控制

    • GPUDirect

    • 路径感知拥塞避免

    • 智能数据包分散

    • 有序交付和丢失重传
----------
参考资料:
  1. AMD. (2024, October 10). Advancing AI 2024 [Video]. YouTube. https://www.youtube.com/watch?v=vJ8aEO6ggOs

  2. Gmitter, J. (2024, October 10). Transforming AI Networks with AMD Pensando™ Pollara 400. AMD Community. https://community.amd.com/t5/corporate/transforming-ai-networks-with-amd-pensando-pollara-400/ba-p/716566

  3. AMD. (2024, October 5). AMD Pensando™ Pollara 400 product brief [PDF]. AMD. https://www.amd.com/content/dam/amd/en/documents/pensando-technical-docs/product-briefs/pensando-pollara-400-product-brief.pdf

  4. AMD. (2024, October 5). AMD Pensando™ DSC3-400 product brief [PDF]. AMD. https://www.amd.com/content/dam/amd/en/documents/pensando-technical-docs/product-briefs/pensando-dsc3-product-brief.pdf



---【本文完】---

近期受欢迎的文章:

  1. 我的发言:AI时代的DPU应用趋势
  2. 下一代生成式AI基础设施:存储与网络
  3. 构建未来:AI驱动下的网络与存储技术革新
  4. 构建高效AI基础设施:网络性能优化
  5. 利用DPU加速HPC和AI:策略与获益



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存