查看原文
其他

利用超级以太网,加速AI应用的连接性

常华Andy Andy730
2025-01-01
主持人:
  • Stephen Foskett,Tech Field Day
  • Frederic Van Haren,HighFens
嘉宾:
  • J Metz,超级以太网联盟和SNIA主席,AMD技术总监

-----

超级以太网承诺调整以太网以满足专用工作负载的需求,包括从最底层硬件到软件栈的HPC和AI。调整以太网的过程始于研究要服务的配置文件和工作负载,以确定支持它所需的特征。专注于大规模应用如AI和HPC的规模化网络。考虑因素包括安全性、延迟、排序和可扩展性。其目标不是取代PCIe、CXL或类似NVLink的布局,而是通过开放标准化的方式扩展以太网,以解决连接性和性能需求。但超级以太网不仅仅是硬件;该团队还在构建软件功能,包括一个Libfabric接口,并与OCP、DMTF、SNIA和其它行业团体合作。

超级以太网——为AI和HPC工作负载调整

AI部署正在各个行业迅速导入。在不久的将来,医生将通过AI机器人从世界各地进行手术,而由AI驱动的农业将扭转不可预测的气候模式所带来的破坏性影响。

但在此之前,世界需要一个将所有这些联系起来的网络。最近,互联网上充满了有关超级以太网的传言,大家相信这将在AI时代具有变革性。

高速网络用于HPC和AI

以太网可以说是最持久的网络技术之一。在竞争激烈的环境中,其无处不在证明了它不断演变的能力。超级以太网将传统以太网推向了一个新的高度,使其准备好迎接需要超低延迟高速度的新一代HPC和AI工作负载。

Metz将超级以太网描述为“一个雄心勃勃的项目,试图调整以太网的不同堆栈,使其具有特定于工作负载的性能行为。”

这种调整发生在所有层面,从最底层的硬件水平到软件栈。“物理层、链路层、传输层、软件API等,所有这些都被调整为针对设计用于解决AI和HPC的不同网络考虑因素的特定配置文件。正是这种层次的对齐是我们正在专门努力的方向,”他解释道。

Metz解释了配置文件的方式,以适应特定的网络类型。总体上,网络可以分为三类——传统的、通用的LAN和WAN,这是您典型的基于互联网的网络,规模化网络,以及大规模加速器为基础的网络。

就特征而言,后两种与第一种不同,特别是因为它们具有前所未有的延迟和带宽要求。超级以太网致力于纵向和横向对齐网络需求。

“您通常认为是企业级网络的网络不是我们所关注的。我们不会改变以太网的通用性质,如今天系统中通常应用的那样。”相反,UEC将目光投向了中间类别。

在这个网络中,有不同的HPC和AI工作负载配置文件,它们具有自己独特的网络需求。“例如,AI将具有不同于HPC的安全性要求,不同的延迟要求,带宽要求,排序要求等。”

一个性能不佳的网络是这些工作负载的软肋。

为什么现有的互连技术不够用?

在服务器内部,不同的组件通过互连技术实现点对点的连接。市场上已经出现了多种多样的这类互连技术,其中包括:PCIe,作为主要的一种互连方式;InfiniBand,作为行业标准已经持续二十年;基于PCIe的CXL,以其可组合性特性如内存共享而著称;NVLink,一种双向的、直接的GPU互连技术;以及AMD Infinity Fabric,专为AMD产品设计的互连层。这些互连技术的发展和应用,不仅丰富了服务器的内部结构,也为提升数据处理能力和系统性能提供了多样化的解决方案。

然而,当涉及到跨越单个服务器或机箱的远程网络扩展时,这些互连技术就显得力不从心了。Metz指出:“这些技术并不擅长处理远程网络的连接。它们主要应用于核心技术内部。”他还提醒说,尽管市场上将出现PCIe和CXL交换机,但从以太网标准扩展的角度来看,它们更像是小型解决方案。

AI和HPC工作负载的高速连接需求

随着企业不断推进新的AI部署,对减少网络延迟的需求日益增长。在AI训练过程中,尾部延迟或者说组件间的通信速度,直接影响GPU的利用率。尾部延迟越低,计算资源的工作效率就越高。然而,将尾部延迟降至200纳秒以下——对这些应用程序和工作负载来说的理想水平——并非PCIe和CXL等互连技术所能实现的。Metz表示:“扩展PCIe并不总是理想的选择,对于这些情况来说,它是一种不太实用的总线级技术。”

为了降低尾部延迟,必须解决低利用率链路的问题。超级以太网尝试构建一种称为“数据包喷洒”(packet spraying)的技术。数据包喷洒是指一个数据流同时通过网络中的每条路径到达目的地。相比将过多流映射到单一路径的多路径方法,数据包喷洒被认为是一种更均衡且高效的方法,它能够充分利用所有可用的网络路径。

Metz解释说:“我们的目标是扩展每个可用链路上进行数据包喷洒的能力。RDMA作为一种负载平衡方法,在大规模应用时会面临问题,并且存在一定的限制。距离越远,就越容易达到极限。”

为了避免这种情况,UEC提出了一个替代方案。Metz说:“我们希望创建一种传输层,能够在传输层本身处理语义重排。这意味着您可以通过基于以太网的开放式方法进行数据包喷洒,而不必担心在线路另一端重新组装数据包的能力。”

超级以太网:一个补充方案,而非竞争对手

尽管超级以太网具备增强的功能,但它并不是要与InfiniBand等行业水平解决方案直接竞争。

Metz表示:“对于希望将InfiniBand作为其生态系统一部分的公司和客户来说,它肯定是有用的。这只是一个选择,我坚信这对最终用户来说是一个巨大的优势。我们采取开放的方式,与众多贡献者合作,帮助公司和客户找到满足他们未来AI和HPC需求的方案。”

超级以太网的最终目标是在训练集群中扩展到大量的端点。Metz认为,虽然最初的接受可能会比较缓慢,但随着更多人加入社区,这项技术将得到必要的支持,从而实现飞跃。

以太网的一个优势在于其广泛的互操作性和兼容性。超级以太网是否为客户提供了同样的灵活性?Metz保证,超级以太网可以部署在现有的交换机上。“您不一定需要超级精密的超级以太网网络设备来实现这一点,它专门设计为能够让您逐步采用超级以太网方法。”超级以太网联盟由十家主导成员创立和运营,包括AMD、英特尔、Meta、微软、甲骨文、博通、思科、HPE、阿里斯塔和Eviden,同时,越来越多的科技公司正在支持它,推动创新的发展。

-----

Stephen Foskett:我想分享一下多年前我在一家名为US Robotics的公司工作时的经历,后来该公司被3COM收购。当时,3COM邀请了以太网的发明者Bob Metcalfe先生来与我们交流。我还记得我当时半开玩笑地对他说,“自从您发明了以太网之后,这项技术肯定经历了翻天覆地的变化。”Metcalfe先生的回答至今仍让我印象深刻。他说,“虽然我不确定网络技术未来会如何发展,但我相信它仍将被称作以太网。”他继续解释了以太网在保持向前和向后兼容性方面的历史,以及这一基础技术不断创新的过程。

Frederic,你在职业生涯中肯定多次接触过以太网吧?

Frederic Van Haren:没错,确实如此。当我开始探索AI领域时,InfiniBand被视为技术的巅峰,但其高昂的价格令人望而却步。即便如此,我们依然以以太网作为所有技术的基础。我确信,以太网的持续创新极大地推动了AI的发展。即便到了今天,一些人仍然认为InfiniBand更为出色,但以太网仍在不断进步和演变。

Stephen Foskett:完全同意。多年来,曾有许多尝试取代以太网的技术。我还记得FDDI、令牌环、ATM、光纤通道——它们都曾被誉为以太网的终结者。然而,正如你所提到的,以太网的故事还在继续,现在有人声称InfiniBand、NVLink、PCI Express和CXL将取代以太网。尽管如此,以太网的主导地位仍然稳固。这也是我们今天邀请到一位长期深入参与超级以太网领域的嘉宾,J Metz先生。欢迎J先生加入我们的讨论。

J Metz:感谢邀请,很高兴参加这次会议。

Stephen Foskett:您可以和我们分享一下您的经历,特别是您在以太网方面的贡献吗?

J Metz:当然可以。正如你所见,我拥有多个头衔。我在AMD担任技术总监,负责高性能网络和存储的战略规划。同时,我还是SNIA和超级以太网联盟的主席。超级以太网联盟是一个由大约55家公司组成的新团体,我们致力于针对特定工作负载为以太网开发增强功能,尤其是针对AI和HPC领域。

Stephen Foskett:我们认识已经有一段时间了,您在推动以太网发展方面发挥了重要作用,并推出了多项增强功能。我记得我们曾讨论过数据中心以太网和NVMe over Ethernet的兴起。这些发展要求对以太网进行重大改进,以保持其高度的相关性。您能详细解释一下超级以太网的具体内容吗?

J Metz:超级以太网是一个宏伟的项目,旨在根据不同工作负载的性能需求优化以太网的各个层级。从网络层面来看,我们专注于AI和HPC领域。与其它以太网相关技术一样,超级以太网涉及对堆栈的多个层级进行调整。例如,过去我们在研究光纤通道时,需要调整链路层,然后在L2以太网的基础上调整光纤通道的堆栈。现在,我们采取了一种更为全面的方法,从硬件到软件,包括物理层、链路层、传输层和软件API,进行全面优化。每个层级都针对特定的配置文件进行定制,以满足AI和HPC的独特网络需求,这些需求是不同的。我们的重点是调整这些层级,这是一个涉及多家公司和致力于解决这些挑战的成员的复杂而宏伟的任务。

Frederic Van Haren:你提到的配置文件概念非常有趣。不同的应用场景并不一定需要相同的配置文件。你们是否在探索定义和选择网络配置文件的方法,以便为特定的应用场景提供最优的网络环境?你们是如何管理这些不同的配置文件的呢?

J Metz:这个问题提得很好。我们通过分类和细化来解决这个问题。基本上,我们的目标是针对AI或HPC的需求,专注于传输顺序、可靠性、传输顺序(有序或灵活)以及安全性等方面,来满足这些领域所需的特定特性。

我们从协商阶段开始,提前确定这些特性是至关重要的。值得注意的是,在超级以太网的框架下,我们设想了三种不同类型的网络,每种网络都有其独特的配置文件集合。让我们来具体分析一下:

第一个网络是我们熟悉的传统局域网(LAN)或基于互联网的网络,我们并不打算对其进行改变。这种网络通常是企业级设置中的标准网络环境,我们的重点不是改变以太网现有的通用特性。

我们的主要关注点是第二个网络,即面向大规模数据处理的扩展网络。这类网络需要考虑的因素与通用网络有很大的不同。

至于第三种网络类型,目前它还处于探索阶段,主要涉及到基于加速器的网络扩展,例如GPU。如果您正在部署GPU等加速器,并采用机架级或行级的方法,那么您需要考虑与延迟、带宽和数据吞吐量相关的独特因素。

目前,我们主要关注扩展性问题的解决。我们的目标是将网络规模从典型的大规模网络(大约一万到四万个节点)扩展到高达一百万个节点。这代表了一个数量级的增长,对我们未来网络的可扩展性设计至关重要。

至于第三种网络,我们计划在未来的时间里处理,因为我们的目标是融合扩展性和扩展方法的原则,避免创建硬性的切换。这将是我们未来面临的一个挑战。

在第二种网络中,我们为AI和HPC设计了不同的配置文件,每个配置文件都有其独特的需求。例如,AI与HPC在安全性、延迟、带宽和排序等方面有着不同的要求。这些要求必须在网络中得到垂直和水平的对齐。这种对齐对于解决这些不同工作负载的配置文件至关重要。

Stephen Foskett:在过去的十年中,以太网的许多工作都集中在如何将各种流量类型与数据中心进行融合,例如在网格或叶脊拓扑结构中设备间的互联。此外,还有大量工作集中在通过以太网传输不同工作负载,如基于以太网的NVMe over Fabrics,以及构建以太网。你的工作与这些努力紧密相关吗,还是与以太网世界近期关注的内容有所不同?

J Metz:我们的工作与这些努力有所区别。例如,考虑NVMe over Fabrics。在基于以太网的实现中,有两个主要组成部分:TCP和RDMA。但在我们的讨论中,我们可以将它们视为一个整体。RDMA和TCP都是基于NVMe over Fabrics规范,绑定到传输层或链路层的上层协议。在这些情况下,以太网本身的改变相对较小,因为我们实际上是在利用基于TCP或RDMA的以太网网络。

而在基于RDMA的实现中,优先流控制是在链路层进行管理的,而TCP则处理更高层的内容。一个绑定的shim层位于这两者之上,使得NVMe over Fabrics能够正常运作。相比之下,我们的方法涉及更深层次的改变。我们正在修改链路层,以实现基于信用的流控制,这提供了比优先流控制更精细的控制粒度。这种改变确保了链路层和传输层的有序可靠性,这是超级以太网的一个关键特性。

此外,我们引入了额外的语义,以实现有序和无序传递,包括可靠和不可靠的传递,以满足不同的需求。与简单地将基于RDMA或软件/API的方法作为上层协议堆叠不同,我们正在对以太网规范进行更改,以解决这些关于排序和语义理解的要求。

这是一个根本不同的方法,超级以太网正在采取的措施一直延伸到物理层,用于比特误码率的前向纠错。我们甚至正在探索未来可能涉及的不同材料和硅光子学技术。虽然这些都是未来努力的方向,但我们目前的重点是尽可能减少以太网协议栈中的每一纳秒延迟。这种方法与为FCoE、NVMe over RDMA或TCP所做的工作有明显的不同,因为我们深入到协议的核心,对其进行优化,以适应这些工作负载。

Frederic Van Haren:关于以太网规范的这些变化,它们对最终用户来说意味着什么呢?这是否意味着他们目前的网络设置将不再适用?人们应该如何适应这些变化?

J Metz:不,情况并非如此。我们选择以太网的原因之一就是它的向后兼容性,能够与现有环境相兼容。虽然开发这些新型网络通常涉及到从头开始构建的绿地部署,但你依然可以将超级以太网集成到现有的网络设置中。你可以通过更新端点设备来使用这些传输层的更新,即使在现有的棕地交换环境中也可以实现。然而,重要的是要遵循最佳实践,并努力实现一个普遍的、同质化的网络环境,这通常在相对绿地的情况下更容易实现。但你并不一定需要复杂的网络设备才能全面采用超级以太网。它的设计允许你逐步实施,只要你的端点设备具备必要的传输层功能,比如DPU和专用NI。

Stephen Foskett:谈到超级以太网在整个系统中的角色定位,让我们考虑一个HPC或ML训练环境。超级以太网将如何与PCIe、InfiniBand、NVLink等其它技术进行集成?

J Metz:这是一个很好的问题。让我们先从服务器内部开始讨论,然后逐步扩展到更广泛的网络环境。在服务器内部,你需要各种组件,如DPU、GPU和CPU之间的相互连接。PCIe通常用于这种连接,而CXL作为PCIe的扩展,增加了内存池化和分层交换等功能,以连接到CPU等。在多主机和网络环境中,NVIDIA的NVLink用于连接CPU和GPU,而AMD则有其InfiniBand Fabric。这些技术通常保留在核心组件内部,并不扩展到更广泛的网络中。

目前正在开发中的PCI交换机和CXL交换机很快将推向市场。然而,与以太网标准相比,这些交换机在可扩展性方面相对较小,它们主要设计用于单个机架内的使用。当节点数量超过大约700个时,执行大规模数据传输的能力就会受到限制。

Stephen Foskett:我们在讨论中也广泛提到了CXL。CXL交换机正处于即将到来的阶段,但其最初的部署可能是在机架规模,甚至是半机架规模,而不是专门用于单个机架的实施。

J Metz:我认为这就是事情变得有趣的地方。当我们开始解决如何减少一纳秒级别的延迟问题时,我们不仅仅是在微秒级别上操作。我们的目标是将延迟降低到200纳秒以下。遗憾的是,无论是PCIe还是CXL,在根本上都无法处理我们在这一规模上追求的训练和推断所需的带宽或延迟。这带来了重大的挑战。

这也是为什么NVLink和InfiniBand Fabric在这些场景中如此有效。它们解决了在这些场景中出现的带宽和延迟问题。扩展PCIe是不切实际的;它不适合在总线级别处理这些类型的任务。

在讨论规模问题时,InfiniBand和以太网的方法开始发挥作用。在过去的25年中,InfiniBand一直是处理大规模高速互连的黄金标准。然而,InfiniBand对RDMA技术的依赖在端点的固定路径方面带来了挑战。我们的目标是增强在所有可用链路上执行数据包喷射的能力。RDMA存在的问题在于,在非连续的InfiniBand层中,RDMA API限制了端点上数据包的重新排序。因此,我们的目标是开发一种能够在传输层内部管理语义重新排序的传输层。这种方法将允许使用基于以太网的开放式方法进行数据包喷射,因为在使用特定配置文件时,无需担心在接收端正确重新组装数据包的能力。

Stephen Foskett:从本质上讲,我们正在超越PCIe和传统网络的范畴。您已经将超级以太网与InfiniBand进行了比较,那么在超级以太网的背景下,InfiniBand是否仍具有其独特的价值,还是被视为一种竞争技术?

J Metz:这是一个很好的问题。我认为这些解决方案的总体目标市场不仅仅局限于技术本身。对于超级以太网来说,目前还没有广泛的管理员群体;他们还在逐渐形成中。相比之下,InfiniBand拥有一群理解、实施并熟悉它的管理员,这是一个非常重要的群体。选择这些解决方案涉及到许多考虑因素和服务。

我们的方法是由现有的以太网生态系统所推动的,这个生态系统拥有一个成熟的支持网络。我们预计,随着管理员对超级以太网的工作原理越来越熟悉,相应的管理员群体也将逐渐形成。培训、支持和采用将随之而来。然而,InfiniBand为那些希望将其生态系统作为解决方案一部分的公司和客户提供了一个特定的利基市场。我们认为超级以太网是一个替代方案,竞争对于最终用户来说是有益的。

我们倡导的是一个开放的方法,与各种贡献者合作,我们相信这样能够满足某些公司和客户未来在AI和HPC领域的需求。值得注意的是,世界上前十大HPC环境中有几个已经在使用以太网,包括排名前两位的环境。

Stephen Foskett:目标实际上是引入竞争和互操作性——这些品质多年来一直是以太网成功的关键因素,多亏了它的多供应商生态系统。从历史上看,这些技术很少混搭或由多个供应商提供。就CXL而言,我不认为它会像以太网那样成为一个混合和匹配的技术;相反,我预计它将主要是经过认证的解决方案。

超级以太网的目标是让客户能够从各种供应商那里购买组件,并使它们能够无缝地协同工作吗?

J Metz:我们正是基于这样的假设来运作的。正如我之前提到的,超级以太网联盟由八个不同的工作组组成。这些工作组与ISO标准的层次结构相对应:物理层、链路层、传输层和软件层。此外,还有与这些层次结构交叉的垂直工作组,涵盖存储管理、合规性和测试以及性能调试等方面。

由于我们采用了基于矩阵的系统,所有的点都相互连接。我们的目标是确保符合超级以太网标准,这意味着遵循特定的标准来实现所需的性能目标,以及有效地管理存储特性。一切都紧密集成,以确保超级以太网设备可以轻松地被识别为符合标准,并且从一开始就经过了彻底的测试和验证程序。

令人兴奋的消息是,我们是Linux Foundation中增长最快的项目之一。在短短四个月内,我们从10家公司增长到55家,从60个人增长到750个人。超级以太网的每个利益相关者都强调开放性是一个基本目标。今年早些时候,我在一篇关于超级以太网的博文中概述了我作为主席的目标。我的目标是在年底发布1.0规范时准备好符合测试。这可能取决于稳定草案的时间,但这都是我们承诺的一部分,即使所有希望使用它的人都能使超级以太网开放、可访问和免费提供。一旦1.0版本最终确定,我们将提供开放和免费下载的规范。

Frederic Van Haren:超级以太网的主要推动者是谁?是网络专家、应用程序开发人员,还是与加速器合作的人?或者可能是所有这些利益相关者的结合?

J Metz:以上都是。当我们开始超级以太网项目时,最初是六家公司希望增强基于以太网的网络能力。这个数字很快增长到了10家,然后是55家,不断有更多公司加入。一年前,我们无法预测项目的规模。它迅速获得了动力,这表明了行业发生了重大变化。人们意识到需要解决涉及软件、硬件、网络协议和存储的复杂挑战。

在之前的讨论中,我们提到过这一点,大家强调了这些挑战的多方面性。很明显,AI是一个关键焦点。然而,“AI”这个术语经常被使用,但缺乏明确统一的理解,导致混淆。我们的目标是界定有效实施AI所需的构建块。这种清晰将有助于围绕伦理、道德和其它相关主题进行讨论,确保这些讨论基于对基础技术的扎实理解。在那之前,这些讨论仍然是推测性的。

Frederic Van Haren:您提到了超级以太网堆栈,与传统以太网相比,似乎有一个重要的软件组件。您能详细说明一下这个方面吗?

J Metz:是的,我们希望采用libfabric方法来进行软件解决方案。超级以太网紧密集成了其传输层和软件层,使它们之间形成了密切的关系。软件组正在讨论为超级以太网创建一个libfabric提供者的可能性,包括诸如网络内集体操作等功能。这些对于超级以太网来说是可选的,因为不同的配置文件根据实施需求有不同的要求。我们的目标是将语义层与libfabric提供者软件紧密结合,以在网络内部或边缘使用。

例如,我们方法的一个关键组成部分是基于发送端的拥塞控制。这会影响到上层协议和软件元素。传输层和软件层组都有会议来同步这些不同的组件。这对于以太网来说是不寻常的,因为拥塞、遥测和信令通常会反馈到软件堆栈中。这是一个关键组成部分,虽然我不能提供具体细节,因为涉及保密规则,但整合是我们讨论中的一个核心主题。

Stephen Foskett:我认为支持libfabric是很好的。我认为这意味着您将专注于软件接口,采用和接受人们正在使用的接口,并将以太网与各种软件接口集成。主机驱动的网络控制是我们长期以来一直努力实现的目标,但由于多种软件接口而变得困难。

您将如何在软件API驱动的现代世界中推动超级以太网的发展?

J Metz:正如您所提到的,这并不是一项简单的任务。我们面临的重大挑战之一是处理与软件相关的许可问题。这是我们目前面临的最大挑战之一。把握好这一点,或者说穿过一系列难关,并不容易。然而,我们正在与影响这些解决方案的关键团体建立关系和联盟。

我们已经与IEEE和OCP签署了谅解备忘录。我们正在与管理libfabric的OFA和SNIA达成协议。我们的管理团队还在考虑将Redfish和Swordfish的相关方面纳入其中,它们分别属于DMTF和SNIA。虽然许多这些倡议仍在进行中,但关键点是我们不想重复造轮子。我们的目标是与行业生态系统合作,将现有的贡献和解决方案整合到我们的框架中。我们希望确保如果这些元素能够对齐并共同工作,我们应该加强这种协同效应,而不是破坏它。简而言之,我们的目标是顺应潮流,而不是逆流而动。

软件组成部分比代码本身更复杂,但我们正在努力消除组织障碍,使我们的编码人员可以专注于他们的工作。他们渴望投入工作,就像我一样,他们不愿意处理许可问题。这就是为什么他们付给我的报酬很丰厚。

Stephen Foskett:关于与这些工作组合作,我认为您与SNIA的领导和参与是有益的。这显示了您愿意与这些组织合作,而不是对抗它们。这种方法给超级以太网带来了重大优势,并预示着一个光明的未来,特别是考虑到会员资格。该联盟由网络、服务器和HPC领域的关键参与者组成,是一项全面的行业努力。

这与我们讨论的前提是一致的——以太网通过忠于其愿景并不断适应而演变。如今的以太网与其起源甚至与十年前相比也大不相同。尽管发生了这些变化,但它仍然兼容,特别是在软件方面,并继续保持强劲的竞争力。这种演变证明了以太网的持久成功。


--【本文完】---

近期受欢迎的文章:

  1. AI的未来需要以太网(超级以太网)

  2. 以太网引领AI浪潮:向企业推广AI的首选

  3. 以太网:通往奇点之路——现代化RDMA

  4. 数据中心以太网和RDMA:超大规模环境下的问题

  5. NVlink:突破AI与HPC的数据传输瓶颈


更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存