下一代生成式AI的DGX架构设计
深入探讨DGX系统、网络架构、互联技术以及存储解决方案的设计理念和方法论,以实现在性能、能耗和热管理(包括空气冷却与液体冷却技术)之间的最优化平衡。
Mike Houston,AI系统副总裁兼首席架构师,NVIDIA Julie Bernauer,数据中心与系统工程高级总监,NVIDIA
-----
Mike Houston
我将为大家讲述我们对系统架构设计的整体思考过程。
首先,我们会回顾我们的起点以及未来的发展方向,这也是大多数人关注的重点——了解我们是如何构建Blackwell项目的。
我们团队在构建DGX和大型集群方面拥有丰富的经验。从NVIDIA内部首个由DGX-1和SATURNV构成的集群开始,我们不断进步,发展到DGX-2。我们不仅打造了多个TOP500系统,还有Selene、Eos,以及我们正在规划的未来系统。这是一个快速发展的历程。
可能在媒体上看到过关于DGX-1的报道。当时,Julie和其他团队成员亲自将设备送到OpenAI,这标志着我们决心打造一款在AI领域表现卓越的产品,具备强大的I/O性能。如今,我们已经从单一的大型设备发展到大规模集群。我所在的团队和Julie的团队正在管理的生产系统平均规模为4000个GPU,这在常规任务中算是小型,而对于生成式AI任务,大约1.6万个GPU已成为新常态。
Selene的建成是我职业生涯中的一个亮点。尽管面临COVID期间的挑战,我们团队依然成功构建了这个系统。在DGX系统和快速部署方面,我们坚持了许多核心理念,包括MEP(机械、电气和管道)的重要性,这使得我们能够迅速部署系统。我们从数据中心到完整部署都有一套参考架构。Selene建成后,它成为世界上第五快的超级计算机,在Green500排名中位列第二。这种架构已在多个地方得到复制。
我们建造了两个Eos系统。虽然听起来有些混淆,但实际上确实有两个。我们在圣克拉拉从零开始建造了一个,拥有超过4000个GPU。在德克萨斯州,我们还有一个拥有一万个GPU的系统。这两个集群都是我们引以为傲的成就。圣克拉拉的较小集群采用液冷技术,排名世界前十。我们首先构建这些集群,以确保架构、软件和其他组件能够协同工作,并且易于部署。这也是Scaleway昨天讨论的快速部署参考架构的核心。
全球范围内,已部署了很多DGX SuperPOD的“复制品”,其中一部分在TOP500上公开列出。此外,还有许多类似的系统。一些云服务提供商也基于这一参考架构进行了定制,比如微软的Eagle集群,它在TOP500中排名第三。我们很自豪能与微软团队合作,使这些系统成功上线。
我的团队和Julie的团队将其称为“应用系统”(Applied Systems)。理解这个概念的最佳方式是,我们负责将包括生态系统在内的所有技术整合在一起,从设计数据中心到设计存储系统和网络,再到构建这些集群所需的其他所有内容。然后,我们教其他人如何操作。简而言之,我们从NVIDIA所谓的“预集群”(pre-clusters)开始。一旦芯片生产完毕并投入使用,我们就开始规模化运作,或者更直白地说,我们在设备尚未完全运行时就开始了。我们致力于让它运行起来。希望用户在扩展时不会遇到任何困难。我们调试所有内容,并对从部署这些集群的操作到能够根据需要复制和修改它们以进行不同的权衡和物理数据中心调整的所有内容进行微调。
我们有一个出色的团队,他们负责以极快的速度部署和操作这些设备,包括调试等任务。有时,我们会让他们执行一些非传统任务,如焊接引线、在数据中心拍摄示波器图像,并通过以太网发送这些图像来调试系统。解决这些问题是一项有趣的挑战。他们还帮助优化设备的包装方式,以便用户可以迅速打开DGX并部署它们。他们基本上编写了运营手册,确保了这些集群的高效运行和维护。
Julie Bernauer
正如Mike之前所讲,我们致力于打造一套系统,我们承担所有风险,以便那些迅速部署这些系统的用户无需承担风险。我们的关注点在于提升大规模深度学习的性能,并力求实现快速部署。我特别喜欢YouTube上展示的一段视频,它展示了一个真实的生产数据中心,我们投入了大量精力确保布线整洁有序,以便在其他数据中心也能轻松部署。
在启动这个项目之初,大家可能已经注意到了Selene的部署。我们最初的计划是分阶段部署,这样用户就可以在我们继续构建系统的同时,开始使用已经部署的部分。这种方法类似于农业上的轮作制度;我们希望确保能够逐步部署。Selene的部署速度非常快,这也解释了为什么其余部分已经投入生产。当准备连接更多部分时,不会受到任何影响。我们对Scaleway团队取得的成就感到非常自豪。如果关注了最新消息,他们已经部署了第一个H100 SuperPOD。我们不仅为他们能够迅速完成部署感到骄傲,而且还因为他们的部署看起来和我们的一模一样。我们设计的每一个部分都是为了确保用户能够轻松部署并享受其带来的便捷性。这让我们感到非常满足。
在这个基础上,我们解决了一系列极具挑战性的任务,这些任务涉及从端到端的架构。如果在架构上出现错误,我们将在生产中承担后果。我们需要确保在推进的过程中仍然能够保持性能并解决任何问题。这对我们来说是一个优势,因为我们可以在修复设计的同时解决部署问题。多年来,我们已经学会了避免重复同样的错误。我们审查并强化了各个方面,特别是流程,并确保我们对硬件、固件、软件、操作系统和自动化都感到满意。在新冠疫情期间,我们拥有一个强大的团队在现场,但我们仍然需要远程工作并确保有效部署。作为工程师,我们更喜欢不重复相同的任务。因此,确保强大的自动化至关重要。我们处理的网络规模相当大;例如,AI和LLM在大规模部署时对带宽的需求巨大。我们必须确保网络的部署是无缝的、简单的和安全的,同时考虑到我们面临的各种环境。
我们的重点仍然是为那些需要这些工具来实现其创新想法的研究人员提供支持。
这里有一些图片。右下角的图片展示了最初的部署情况。顶部的图片代表了我们在NVIDIA使用自己的基础设施的方式。大家听过的每一个深度学习项目、我们在规模上所做的每一件事,都是在我们自己的集群上进行测试的。我们有一个庞大的CI系统,可以访问这些系统,并确保我们可以进行回归测试等。在核心部分,我们有DGX A100和H100系统。
在实践中,我们专注于集群架构,这个架构从一开始就完全是为了规模化部署而设计的。这包括布局设计,确保线缆可以在适当的距离内放置,并设计网络计划以确保可以有效地布置。我们还考虑了一些因素,比如确保天花板能够支撑基础设施,这虽然看起来是小细节,但在实际操作中却至关重要。此外,我们关注系统的管理,确保它们在日常运营中能够正常运行,这涉及到与存储、计算和整个数据中心运营相关的各个方面。
我们的成功案例之一是我们对现场调查的方法。我们需要了解现有的数据中心基础设施,以确保我们的架构可以以不同的配置实施。这需要一个非常快速的自动化工作流程,在大流行期间我们首次以非常大规模构建了这个工作流程。确保我们可以远程访问数据中心进行调试是至关重要的。我们还强调了固件和软件的无缝集成。例如,大规模进行固件升级可能是一项艰巨的任务,因此我们确保有诊断措施来及时解决任何问题。
归根结底,我们确保技术的所有组成部分都能很好地协同工作。这可能具有挑战性,因为工程师往往会专注于自己的特定领域,但确保一切都能无缝地配合是至关重要的。
Eos是我们早期的定义,它代表了我们的任务。我想强调的是,所有那些图片和视频都不是渲染图;它们是真实的场景。Mike提到我们有一个出色的数据中心团队,他们确保一切看起来井然有序。
我们的高层目标是为H100这一代提供一套可以销售和支持的参考架构。我们还希望确保它是更大规模超大规模设计的参考架构。我们在圣克拉拉的集群由576个DGX H100组成,可扩展单元为32个节点。所有那些硬件最初都是预生产硬件,然后被转换成成品。
网络方面,我们使用了Quantum-2 NDR InfiniBand交换机,并在这三种优化布局中进行了部署。我们通过Cumulus进行互联网管理。没有花哨的东西,也没有什么不同寻常的东西,只是确保所有这些都符合规模化的要求。我们有用于管理和计算的CPU节点,一切都是液冷的。基本上,Eos中的每台服务器都是高性能服务器。GPU都是液冷的,其余部分也得到了适当的冷却。然后我们管理那个比例。昨天,一些客户提到了差压问题,现在你们已经处理了这个问题。我们也会讨论存储问题,我们的聚合性能达到了4TB/s。我们将简要讨论这一点,因为这关系到我们如何输入I/O和数据。拥有众多GPU固然重要,但还需要能够为它们提供数据。这是我们面临的一个挑战。
SuperPOD的核心是由DGX服务器箱体构成的,具体来说,DGX H100被专门设计用于快速处理任务,装备了两颗英特尔处理器、8块H100 GPU、大量内存以及用于数据缓存的硬盘驱动器。
在数据流向方面,当执行AI工作负载时,数据首先通过存储网络进入机器,经过CPU处理,然后送至GPU进行计算。计算完成后,数据会被发回存储或进行进一步处理。存储设备位于系统的顶部,而热数据计算则在机器内部进行。图中的黄色链接表示跨服务器的计算连接,这突出了优化我们集群底部的服务器以实现高效数据流的重要性。
接下来,我们将这些组件组合起来。这是物理布局,也就是楼层平面图。对于Eos系统,我们总共有576个节点,基本上分为五个区域。我们称之为“部件”(parts),因为每个“部件”都包含两个冷通道封闭单元,正如你在图中这些小盒子里看到的那样。每个“部件”都由两个冷通道封闭单元组成,在底部用蓝色表示,冷空气通过这些单元流动并排出到封闭单元外部。
一个“部件”由两个这样的单元构成。这里很好的一点是,当你看到我们有这些计算单元后,你会注意到有粉红色、蓝色和橙色的部分。你关注的是中间有很多蓝色和橙色的部分,那是所有的网络和存储设备所在的地方。为了确保如果你想先部署POD1,然后再部署POD2,我们会采用“花”型布局。一切都集中在核心区域,一切都在中间,这样对线缆布线的影响最小。你可以看到,在每一行的末尾,我们稍后也会讨论这一点。这些浅蓝色的小盒子是冷却分配单元,它们负责维护系统的冷却。
机架布局显示了我们在工程设计方面的深入考量。这是一张精美的工程幻灯片。基本上,我们采用了相同的概念,并向你展示我们如何管理线缆。绿色代表计算部分;在这里你可以看到DGX。然后所有的数据中心入口管理是粉色的,管理网络是橙色的,互联网络是蓝色的。所有的计算InfiniBand网络都在中间。我们确保对于所有这些计算网络,尽量减少线缆长度,以便我们可以确保布线易于管理。对于蓝色的计算网络和橙色的存储网络,我们采取了相同的措施。你可以看到,所有的机架布局实际上是设计成确保侧面的分数划分。
对于一个计算机架,我们配备了四个DGX H100和三个PDU(Power Distribution Unit),因此在那里我们是完全冗余的。这个模型也是灵活的,所以如果机架内无法处理如此多的功率,可以部署一个、两个、三个或四个。它的工作方式都是一样的;你只需将其展开。我们有适用于此的模型。一个客户根据数据中心的电力和冷却能力,每个机架部署了两台机器,这是完全可以适应的。
计算InfiniBand基础设施。在这个系统的核心,有一个非常重要的InfiniBand网络,经过良好优化以确保性能。我们使用InfiniBand,并且经过良好优化以最小化延迟和避免拥塞。在该网络上,只有GPU之间进行通信。这对于性能至关重要。我们使用一组32个节点;每个轨道连接到一个单独的交换机。这就是为什么我们称那个轨道优化和叶轨道优化的原因。
你可以看到,对于Eos1,如果我看这里,计算编号一连接到一号叶,它的二号连接到二号,依此类推,这与HPC有所不同,后者我们希望机架有序。但在这里,这很重要,因为在幕后,它映射或通信用于深度学习或减少工作基本上和如何确保已经发送到所有。
然后我们有轨组。如果我们走到这里,我们看到我们的轨组;它们由四个叶子交换机和四个脊椎交换机组成。我们有八个轨组部分,然后它们在核心处汇合。发生的是,当我们部署一个部分时,我们在这里留下一些空余,以便我们可以随着它上线而连接其余部分。
这很好,因为然后我们可以有不同的设计点。基本上,如果我们使用32SU大小,就像我给你展示的那样,我们可以一直走到一个相对较小的部署,也就是说GPU。实际上,只需复制并确保我们获得一个集群非常容易。
不仅如此。还有一个事实,即如果你想要求更高并一直到6.4万个,只需增加叶脊椎组的大小。你从一个4到4的叶脊椎组转移到一个32到32的叶脊椎组。基本上,你可以进行扩展。归根结底,算法是相同的,软件也是相同的,模型也是相同的。
关于存储架构,在先前我已经深入探讨了计算层面的内容,展示了GPU在其独立网络上进行的高效计算。但计算的前提是必须有数据的支持,因此如何高效地喂给GPU数据成为我们面临的一大挑战。在存储方面,我们通常将其视为机架内存,其中包含多个可存放数据的空间。
首先是内存,每个节点上的文件缓存汇聚在一起,为我们提供了大量空间,并确保了出色的数据传输带宽。接下来是NVMe缓存,它提供了更快的存储速度。此外,我们还拥有一个高效的并行网络文件系统,进一步提升了数据存储和访问的效率。当然,我们还可以利用对象存储,这在需要将数据分层到云端或更大的存储基地时尤为有用。但这里的核心问题是,为什么要将这些存储设备分开?为什么不将它们全部连接在同一个网络上呢?实际上,我们这么做是为了最大化计算性能,同时优化存储效率。计算部分需要RDMA技术,以便实现全双工的直接内存访问,从而确保最佳性能。我们并不希望计算和存储之间的操作相互干扰,而是希望它们能够各自独立地调整和优化,以达到最佳的性能状态。最后,我们还需确保在GPU进行计算的同时,能够预取数据,并实现快速检查点功能,以确保系统的弹性和稳定性。这样,我们就能构建一个既高效又可靠的计算和存储架构,满足各种复杂的应用需求。
之前我们展示过一个示例,当时只运行了深度学习的一部分。我特别欣赏这个示例,因为绿色部分代表着GPU在高效计算,而红色则表明在拉取和获取数据时的状态。这部分主要是缓存的作用。一旦缓存填满,你就能明显感受到速度的提升。数据一旦缓存,就无需重复执行相同的操作,从而提升了效率。而在GPU全力运行时,结合缓存和检查点的灵活性,更能让我们的操作起来得心应手,速度更快。
这当然适用于所有热爱硬件并懂得如何部署的朋友们。我们与众多合作伙伴在存储等方面紧密合作,共同推动技术进步。说到部署,虽然第一个方案相对简单,但大家都喜欢深挖细节。
我这里想分享一些可能在YouTube视频中看到但并未注意到的点。大概是两三周前的视频,里面展示了新闻中的一些新进展。在那段视频中,你可以看到机房里的情况,可能没人注意到那些管道。视频显示有管道进入机器内部。当机器有管道接入时,通常意味着采用了液冷技术。没错,在那台机器上,我们为所有的GPU都采用了液冷方式进行冷却。其实我们已经这么做了一段时间了。自A100以来,我们的生产系统中就内部使用了液冷技术。那是一个A100系统。你们可以看到,2021年11月,我们的液冷系统成功获得了Green500的认可。我们已经使用液冷回路和冷却分配单元一段时间了,还采用了不同类型的液冷技术,包括机架内的CDU(Cooling Distribution Unit),需要主循环和次循环等。我们还使用了机架内热交换器,并为此开发了遥测和系统管理功能。有些人可能听说我们在液冷方面做了很多事情,第一次尝试时总是有些担心,但结果都非常好。我们已经积累了丰富的经验,对此非常满意。我们坚信液冷技术将对下一代产品非常有用。
谈到功率和热量问题,我要强调我们是在数据中心级别进行考虑的。当人们购买SuperPOD时,我们会前往数据中心并与他们和合作伙伴紧密合作,确保顺利部署。我之前已经向大家展示过精美的工程图,包括带有分裂核心的SuperPOD设计。
在部署时,我们同样注重功率的平衡。对于感兴趣的朋友,这是一张相位平衡图,展示了我们是如何确保功率平衡的。
同时,我们也确保液冷系统正常工作。在那些机架下方,我们安装了管道。基本上,每个冷却单元下方都有一组管道,每一排都运行着次级冷却回路。在设计时,我们还特别注重操作的简便性。我们在每个冷却回路上都运行了冗余的CDU对,这意味着即使一个CDU出现故障,我们也能自动切换到另一个,保证系统的可用性,同时也方便了维修工作。回想起20年前,我们开始在Web服务器上进行HA(高可用性)设计,那时就觉得非常先进。现在,在物理世界中实现同样的功能,对我们来说也是一件非常有趣的事情。它的工作原理与以前完全相同,但应用的场景更加广泛。
在生产环境中,我们使用SuperPOD并配备基本命令管理器。这是我们用于集群配置、工作负载管理、基础设施监控以及提供部署工具的解决方案,也是DGX软件包的一部分。接下来,我将向大家展示我们是如何打造出这个产品,构建出所需的一切工具,从而帮助每个人顺利部署。这其中涉及到了很多工作,就像我们常说的:“哦,是的,客户想要使用他们自己的设备。”因为我们已经具备了这样的能力,所以深知部署将会非常成功。我们支持不同的操作系统,使得工作负载的支持非常灵活。
关于集群指标,我同样有深入的了解。这个命令管理器之所以具备集群指标功能,是因为当系统规模逐渐扩大时,我们期望系统能够每天为我们提供关心和照顾。毕竟,总有一些我们不希望手动处理的问题,我们希望有系统能够主动告诉我们。其中,确保拥有完善的集群指标是关键,这样不仅可以验证生产进展是否顺利,还能与数据中心和运营指标相结合,让我们更全面地了解系统的运行状态。一旦发现问题,我们要确保能在对生产造成灾难性影响之前迅速作出反应。
在监控方面,我们使用了大量的遥测技术,这些技术都是我们在工程阶段预先引入的。除了经典的、非常工程化的syslog条目、距离矩阵等,我们还越来越多地采用带外矩阵,因为我们非常关注性能,并希望尽可能将更多资源交给深度学习人员使用。
我们一直致力于确保所有可以在带外完成的工作都尽可能在带外完成。同时,我们还提供了用户作业数据收集的功能,以便与他们一起进行更深入的分析。此外,我们还对所有共享资源进行监控,包括PDU和CDU,这与我们之前的策略是一致的。网络监控也是我们非常重视的一环,我们要确保所有链接都保持良好的状态,并通过错误计数器等手段进行监控。我们还监控互联网网络、文件系统以及每个InfiniBand的迹象,并将它们用作资源管理器调度程序,确保系统正常运行。
在工具方面,我们拥有多种类型的工具,包括带外和带内的。我们使用的工具都是经过精心挑选的,能够满足我们的需求。我们完全兼容Prometheus,并拥有一套用于故障排除的自定义导出程序,同时也支持生产导出程序。我们使用Grafana和Splunk数据库来收集事件,确保信息的完整性和准确性。
在容器调度方面,我们已经在Slurm上使用Pyxis和Enroot实现了非常快速的内容启动。对于那些使用Docker容器的用户来说,我们在集群上提供了一个与它们集成的最小运行时,确保容器的快速启动和运行。同时,我们在批处理调度上使用了优先级层,确保任务能够按照优先级顺序得到执行。
回顾过去,我深知在20年前,分子动力学运行可能需要长达6个月的时间,而在那之后,我们可能才意识到需要重新开始。那样的经历,我们不想再有了。因此,我们非常重视系统的监控和稳定性,确保任务能够随时得到监控并正常运行。
我们构建了libnvidia-container,使得在容器内运行CUDA应用程序变得非常容易。我们底层的驱动程序设计也充分考虑了容器的运行环境,使得在各种版本的NVIDIA驱动程序上都能顺利运行容器。我们的容器包含了所有必要的库,使得用户可以轻松地进行调整和设置。同时,我们也确保用户使用的版本与基础设施保持兼容,并提供最新的优化。这一切的便利,都得益于我们在幕后拥有一个真正可移植的软件堆栈。
简单来说,我们不会仅仅将事物堆砌在一起并期待它们能顺利运作。关键在于各部分的协同配合。看这里,黄色部分代表数据中心的高峰例程;红色则显示集群正在运行;蓝色部分则代表所有自动化的操作,我们力求智能化,避免给用户带来不必要的麻烦。甚至,只需在手机上轻轻一点,就能随时了解系统状态。
我们的想法是,我们使用基于Ansible的自定义抓取工具,并高度依赖Field Diags来确保一旦我们收到工厂关于预生产硬件的通知,就能尽快将其集成到循环中。我们收到通知后,在几小时内,你会在集群或故障排查中注意到它。故障排查具有不同的自动化深度,因此只有在真正需要时才会进行人工故障排查。理论上讲,从工厂出来的硬件不需要人工故障排查。然后,随着这些硬件在集群中结束其生命周期,我们需要确保一切都能继续正常工作。
我们拥有非常庞大的持续集成(CI)系统;我们采用基于Reframe的非常经典的性能模型,比如,当我们运行90秒测试时。我们针对单节点和多节点配置进行了大量功能和特性测试集的测试。你们中的许多人可能对这些测试非常熟悉。基本上,我们将这些测试集成到我们的CI流程中,并且每天晚上我们都会验证它们的有效性。
我们完全遵守AD标准,目前使用Active Directory进行许多操作。我们确保CI也符合标准。我们非常关注集群与域之间的协同工作,并确保这是安全进行的。正如我提到的,这是一个超级计算机规模的CI,所以它是最大的CI之一。我们经常收到关于访问我们私有产品和软件的请求,但是当系统处于早期阶段时,在确保一切正常工作的同时满足用户需求是一个挑战。这就是为什么我们需要CI。它作为人们与我们交互的接口,而无需手动连接到集群。我们很自豪地拥有世界上内部最大的CI之一。这很有趣。当有人请求CI访问时,这就像是一种荣誉的象征。我们很高兴有一群爱好者与我们合作。他们每晚都进行回归测试,检查多个GPU是否正常运行。
正如我提到的,我们在系统启动时进行了完整的Active Directory集成。我们使用FreeIPA来管理AD控制。我们有一个完整的端到端模型,其中Slurm、文件系统、遥测访问和其他操作都需要有效的AD Kerberos凭证。所以,是的,我们正在让Kerberos重新流行起来,而且我们非常喜欢它。使用FreeIPA的实现得到了支持。这里有一个关于并行文件系统的演讲示例。
Mike Houston
有两种不同类型的DGX,而HGX平台则是其他公司将基于其构建的基础。DGX B200,正如Jensen所提及的,旨在迅速推向市场。它采用空气冷却技术,外观与DGX H100极为相似。这种设计上的相似性旨在实现快速部署。好消息是,所有的参考架构都可以以相同的方式应用。它使用了NDR布线,同样是为了实现快速上市。在尺寸、功率以及功率包络方面,它适合大多数数据中心,每个机架可能容纳两台,这也是我们大多数客户的常规配置。因此,DGX B200的目标非常明确,就是要迅速推向市场。
GB200 NVL如今已成为热门产品。我相信你可能已经在现场见识过它的风采。如果你还未曾目睹,那么真心建议你应该去看一看——这绝对是一台令人叹为观止的机器。它代表了我们数据中心需求的重大转变。不过,好消息是,它并不会对你的网络基础设施、存储基础设施以及其他周边设施的考虑造成太大影响。它是一个独立的OCP机架,你可以将其视为功率传输方面的四倍密度OCP机架。在这方面,我们有自己特定的液冷器要求,这与传统的DGX相似。GB200 NVL有多种部署方式,我们将发布与全球各大功率供应商和CDU供应商合作的数据中心参考架构。全球每个合适的数据中心都将为此做好准备,这无疑是一个巨大的生态系统提升。
我经常被问到为什么我们要推动这种高密度的设计。Jensen在主题演讲中已经提及了一些内容。简单来说,人们希望拥有更大的NVLink域。NVLink被视为一个巨大的共享内存系统,这对于即将到来的生成式AI模型和可能转移到内部循环的大型数据库来说至关重要。我们需要大带宽来处理大量数据,因此这种高密度设计有助于我们保持铜质连接,避免使用过多的光学设备。举个例子,我们的网络机架中引入了超过2000根光纤。你可以想象一下,如果我们全部使用光学设备来连接这些设备,无论是从功率还是物理部署的角度考虑,都是不切实际的。因此,我们坚持使用铜质连接。在插入方式上,它与之前的设计并没有太大差异。
我们在实现这一目标时,遵循了相同的规则和理念。Julie在设计方面谈到了冷气封闭的问题。这更多是针对超大规模设计的变化,从冷气封闭转向了热气封闭,或我们称之为HAC(hot-aisle containment closet)。
在电力分配和热管理方面,电力传输和CDU生态系统能够支持将576个GPU作为一个整体进行部署,这非常适合更高级别的封装单元。我们采用这种模式作为部署的模板,并且在这种架构中,我们仍然保留了可扩展的单元,这种部署规模与整个生态系统保持了一致性。我们并不是简单地将设备放入一个盒子,然后放在数据中心就完事了;我们必须考虑整个生态系统,以确保能够快速完成这些部署。整个生态系统正在与我们紧密合作,我们也在积极与电力供应商和CDU供应商合作,确保一切准备就绪。
Julie提到了液冷技术,我们早已预见到这些高密度设备的到来。在过去的4.5年里,我一直在推动我的团队采用液冷技术。我们对液冷技术非常熟悉,包括与之相关的所有挑战和解决方案,如监控、泄漏检测和维护实践。你将看到更多关于如何操作这些系统的信息。如果你仔细观察数据大厅,你会发现所有的管道上都装有自动排气装置,这样可以方便地替换组件,并处理系统中的任何气泡。我们非常重视泄漏检测和其他与整个生态系统集成的方面。我们实施了快速关机、快速控制等功能,以及全面的监控。我们与电力供应商和CDU供应商合作多年,确保他们为运行这些数据中心所需的遥测规模做好了充分准备。
这些系统支持多种部署方式,但我们的初期重点将放在Quantum-X800 InfiniBand网络上。同时,我们也将发布基于以太网的部署规范,涵盖Spectrum-X和Quantum-X等方案。为了更直观地解答常见问题,我们简化了说明,聚焦于庞大的NVLink域。它是如何运作的呢?简单来说,InfiniBand交换机与我们的系统设置完美匹配,确保所有配置都是72的倍数。实用的最小配置是144个stamp,我们会基于此进行复制。正如Julie所展示的,虽然我们从2x2的设置开始,但可以轻松扩展至更大规模。这是我们部署计划的初步构想,我们压缩了计算单元,并将管理和网络机架分离。尽管有多种方法,但此方案旨在提供最大的灵活性。可以根据实际需求重新排列组件,不必完全遵循此方案。
我们已经发布了参考架构,可以将其视为一个逻辑框架。每个数据中心的布局不尽相同,我们面临的挑战也不仅仅是支柱限制——这些问题总是层出不穷。此外,还有地板限制和需要重新配置设置的需求。通常情况下,实际情况并不如描述的那般理想,除非是在定制建造的数据中心中。然而,我们的目标是融入全球现有的数据中心。为什么满足于仅构建系统,而不考虑容纳32000个GPU的潜力呢?这是我们基础设施的设计理念。我们的合作伙伴具备构建如此庞大系统的能力,使我们能够创建尽可能高效的AI平台。液冷技术、高密度系统,使我们在设计中实现了最大的能源效率。
简言之,包括传统的企业级系统DGX B200,以及现在已转向更适合超大规模设计的GB200系统。随着我们向更高密度发展,将这些内容整合到生态系统中是合理的,因为我们需要建立一个强大的电力和热能传输生态系统。
目前,我们正致力于设计非常大规模的系统。在首次构建Eos时,我就推动团队准备扩展到64000个GPU的规模。如今,基于H100构建的大型系统在世界范围内日益普遍。我们看到大型系统正变得越来越常见,这也是我们专注于机架规模的架构和基础设施,以及为这一转变做好生态系统准备的原因。
DGX-1的推出标志着系统生态系统的重大变革。我们现在正积极与数据中心社区互动,这也是我们在生态系统上投入大量时间的原因。可以在展览厅看到我们所有的生态系统合作伙伴。然而,当涉及实际部署时,我们推广参考架构的原因是为了快速、可靠地实现可能看似复杂的概念。我们建议在构建系统时尽量接近参考架构,或者考虑购买DGX SuperPOD,并让我们协助用户完成部署。
我们将与所有客户就多个话题展开讨论。最重要的是,如何在数据中心中实施这些解决方案。请放心,所有数据中心供应商都已知晓这些变化,因为我们已与他们沟通并合作,他们都为此过渡做好了准备。
-----
观众
您这里的布局设计得真出色,布线相当丰富多样。能否请您详细解释一下新的Blackwell机架集群呢?这些不同颜色的线缆各自代表什么意义?
Mike Houston
我来简单为大家介绍一下。请注意,这主要是为了更直观地展示,所以做得比较逼真。颜色主要是用来帮助区分不同类型的线缆。橙色代表存储,蓝色代表计算网络,浅蓝色则是用于多模光纤,而绿色则代表标准的RJ-45铜接头。你还可以看到,一些管理和存储节点被巧妙地放置在角落位置。这里有计算机机架,还有许多网络和支持机架。我们这里的计算机机架采用的是OCP标准,而旁边的机架则是EIA标准。EIA机架稍微宽一些,以便容纳更多的布线,当然,我们也会根据客户的需要支持OCP机架。
观众
黄色线缆是不是代表延伸到机架外的单模光纤?
Mike Houston
我们尽量在可能的情况下使用多模光纤,特别是针对较短的连接距离。对于更长的距离,我们则会选择单模光纤。在超大规模的数据中心里,你经常会看到黄色线缆,因为黄色通常用来标识单模光纤。
观众
我正在尝试理解一些数字。您提到了NVL72,这是一个NVLink域。您还提到将NVLink扩展到大约570个节点。那么,在这些展示的机架之间,是否实际使用了NVLink?还是说NVLink域仅限于单个机架内部?
Mike Houston
这个集群完全由NVL72组成。目前的展示并没有显示机架之间的NVLink交叉连接。要实现576个节点的扩展,我们确实需要在所有机架之间进行NVLink交叉连接。
观众
那这需要额外增加NVLink交换机吗?
Mike Houston
实际上,我们不需要增加额外的NVLink交换机。而是需要进行交叉布线,虽然这个配置在当前的展示中并没有体现出来。我们有一种不同的配置可以调整密度。在这种配置中,我们为各个部分提供了更多的前向NVLink端口,以便将它们连接在一起。对于长距离连接,我们使用光纤;而对于短距离连接,则使用铜线。
观众
连接所有这些节点需要多少光纤,以及这些光纤需要如何路由呢?
Mike Houston
在这个设置周围,我们布置了线缆梯,尽管在当前的展示中并没有显示出来。Julie在展示热图时稍微提到了这一点,网上的一些视频也有更详细的展示。这样的集群规模确实需要大量的光纤,可能要达到几万公里。我们选择铁路优化设计的原因之一,就是它可以大大简化光纤的布放过程,让我们能够预先将光纤捆绑成大捆,从而更容易进行安装。我们的布线速度非常快,这里的其他专家也有大型集群的经验,他们可以证实我们的布线速度。
Julie Bernauer
我来为大家做一个快速估算:对于Eos 576,有大约4000多个GPU,600个交换机,以及大约600公里的光纤。
观众
如果我快速计算一下,那将是一个非常庞大的连接数量。但我不太清楚这些连接应该放在哪里。我对您目前可以放置连接的位置以及它的大小和宽度有一些了解,但在当前的展示中,我并没有看到任何用于连接的空间。可能是我遗漏了什么,或者它们被隐藏在房间的某个角落?
Mike Houston
您提到的是一个很好的点。实际上,机架顶部有专门的切口,用于放置线缆梯。线缆梯位于机架上方稍微靠前的位置,这样光纤就可以从那里绕过来。在技术上,我们会将光纤捆绑好,然后拉入机架内部。
观众
那么,是否有专门的物理空间用于被动连接呢?因为我在每个机架中看到了大量的计算机和网络设备。您是否推荐某种特定的机架或设置方式?
Mike Houston
当准备部署这样的系统时,我们会根据标准的捆绑规范进行完整的线缆布线设计。这样,可以确保快速而高效地部署系统。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)