NVIDIA DGX H100 系统(BasePOD)+ WEKA 参考架构
概述
不同规模、使用场景和技术能力的企业都在寻找便于部署的基础设施解决方案,以便加速他们的人工智能(AI)、机器学习(ML)和深度学习(DL)项目。WEKA与NVIDIA携手合作,成功验证了一种高性能且可扩展的AI解决方案,该方案旨在满足NVIDIA DGX BasePOD的需求,并可供广大用户采用。
本文件详细介绍了WEKA为BasePOD提供的参考架构解决方案的相关信息。在设计过程中,我们采用了多达16个NVIDIA DGX H100系统和NVIDIA Quantum交换机。此外,通过NVIDIA和WEKA的合作,我们利用NVIDIA基准测试工具对该系统的运行性能和功能进行了验证。此架构为经过验证测试的高度并行、计算密集型工作负载提供了卓越的线性扩展能力。借助这一架构,企业可以从小规模起步,快速而独立地扩展计算和存储资源,直至多机架配置,以满足各种AI或ML工作负载的需求。
产品名称:NVIDIA DGX 产品版本:H100 WEKA 版本:4.2 来源:本地 WEKA 操作系统:CentOS
一、介绍
受众
我们特别为那些负责设计、管理和支持WEKA数据平台的人员撰写了这份参考架构指南。阅读本指南的读者应已对NVIDIA DGX和WEKA平台有所了解。我们将本指南组织起来,旨在解决成功设计、实施和过渡到操作阶段所遇到的关键问题。
目的
WEKA解决方案概述 NVIDIA DGX概述 NVIDIA DGX与WEKA的优势 在WEKA平台上设计完整的NVIDIA DGX解决方案的建议
二、WEKA数据平台
WEKA数据平台部署于商用通用NVMe服务器上,这些服务器被用于DGX BasePOD的验证测试。对于BasePOD的入门级WEKA集群,需要8台服务器来确保全面的可用性,并能够承受最多两个节点的故障。每台服务器均配备了CPU、NVMe存储和高带宽网络。关于RA的具体配置,详见技术要求部分。这个集群可以轻松扩展至数百个节点。
规模化性能
WEKA数据平台的核心在于WekaFS,它被誉为全球最快且最可扩展的符合POSIX标准的并行文件系统。WekaFS旨在超越传统文件系统(如利用本地存储、NFS或块存储的系统)的局限,使其成为处理数据密集型AI和HPC工作负载的理想之选。作为一个全新设计,WekaFS将基于NVMebased的闪存存储作为性能层,并与GPU服务器、对象存储和超低延迟互连网络(如100、200和400GbE或InfiniBand)集成于NVMe-over-Fabrics架构中,从而构建一个高性能且可扩展的存储系统。随着存储集群中不断添加更多的服务器,WekaFS的性能将实现线性扩展,确保基础设施能够紧跟业务需求的增长步伐。
多协议兼容
除了支持POSIX访问外,WEKA还兼容多种标准文件访问协议,如NFS、SMB和S3,以确保最大的兼容性和互操作性。Hadoop和Spark环境同样能够受益于共享文件系统的卓越性能。通过一个完全集成的连接器,WEKA能够轻松替换HDFS,成为所有形式分析的统一、易于管理的数据湖。
基于S3对象存储的可扩展全局命名空间
WEKA借助NVMe闪存层提供卓越性能,同时其命名空间能够扩展至任何S3对象存储,无论位于本地还是云端。这种灵活的混合存储模型具备将全局命名空间扩展至成本更低的硬盘驱动器的能力,从而在不影响性能的前提下,为用户构建一个经济高效的数据湖。此外,通过集成多个S3目标的分层支持,用户能够实现对旧数据或使用频率较低的训练数据的高效数据生命周期管理。
卓越的耐久性和安全性
在AI/ML领域,大型且灵活的数据集对数据版本控制能力的需求日益增强。通过WEKA的即时且空间有效的快照功能,我们能够实现实验的可重现性和可解释性。Snap-To-Object功能能够捕获整个统一(闪存和对象存储)文件命名空间的特定时间点副本,这些副本可以在私有或公有云中作为另一个文件命名空间实例进行呈现。WEKA的集成快照和端到端加密功能,结合关键管理集成,确保数据在其整个生命周期内都得到备份和保护。我们也为这些数据集提供了不可变性和数据可移植性,确保即时恢复。同时,WEKA能够无缝地备份至多个云目标,为用户提供备份、灾难恢复(DR)和数据治理的综合能力。
云扩展与数据可移植性
除了版本控制功能外,WEKA的Snap-to-Object功能还带来了超越备份和灾难恢复(DR)至公有云的额外优势。它实现了安全的数据可移植性,使得那些需要在公有云中获取按需GPU资源的企业能够轻松地将数据从本地环境迁移到公有云环境。
容器支持
随着企业日益倾向于采用部署在Kubernetes(K8s)平台上的容器来部署AI工作负载,WEKA Kubernetes CSI插件为企业提供了更大的部署灵活性。插件使得企业可以根据需求在任意位置、任意时间灵活选择部署容器化应用程序。同时,它还确保了从本地到云端的数据迁移过程既轻松又高效,同时提供卓越的存储性能和低延迟。图1展示了WEKA架构在典型生产环境中的部署概览。
三、NVIDIA DGX 架构
下图显示了NVIDIA DGX AH00系统中重要组件的分解视图。
NVIDIA H100 GPU
第四代张量核心 全新的Transformer引擎 最多支持7个多实例GPU
多实例GPU(MIG)
NVIDIA H100 GPU配备了第二代分区功能,即多实例GPU(MIG),旨在提升GPU的利用率。通过空间分区,MIG能够将单个H100 GPU的物理资源划分为多达七个独立的GPU实例。这使得NVIDIA H100 GPU能够在保证服务质量的前提下,提供高达A100的3倍计算容量和2倍内存带宽。每个GPU实例都拥有独立的存储器、缓存和流多处理器。
在启用MIG的NVIDIA H100 GPU上,并行计算工作负载可以访问隔离的GPU存储器和物理GPU资源。这允许多个用户共享同一GPU,并同时运行所有实例,从而最大限度地提高GPU的使用效率。
值得注意的是,MIG可以在DGX H100系统中的任意数量的GPU上选择性启用,并非所有GPU都必须启用MIG。然而,如果DGX H100系统中的所有GPU都启用了MIG,那么最多可同时且独立地利用GPU加速的用户数量将达到56个。
批量大小为一的多个推断作业,涉及小型、低延迟模型,这些模型不需要完整GPU的所有性能。 用于模型探索的Jupyter笔记本。 在多个用户之间共享GPU资源。
第四代NVLink与第三代NVSwitch
DGX H100系统集成了四个第三代NVIDIA NVSwitch网络,这些网络通过第四代NVIDIA NVLink高速互连技术将H100 GPU相互连接。每个H100 GPU都通过十八个NVLink互连与所有四个NVSwitch进行通信,确保每个GPU与每个交换机之间都有多个链接。这种设计提供了跨GPU之间通过链接进行通信的最大带宽。
与前一版本相比,第三代NVSwitch的性能提升了50%,而前一版本是在NVIDIA A100系统中引入的。四个NVSwitch与第四代NVLinks的组合使得单个GPU到GPU通信的峰值可达到900GB/s。这意味着,当所有GPU都进行通信时,数据传输的总量在两个方向上将达到峰值的7.2TB/s。
NVIDIA ConnectX-7
为了满足AI深度学习和HPC计算工作负载在多系统扩展时的强大通信需求,DGX H100专门设计,使用NVIDIA ConnectX-7 400Gb/s NDR InfiniBand端口(也可配置为400Gb/s以太网端口),确保GPU之间能够建立高效的高速通信。这一设计提供了每个系统高达8Tb/s的双向峰值带宽,为构建像NVIDIA DGX SuperPOD这样的高性能集群提供了坚实基础。
在数据移动方面,最常见的方法是利用板载存储,并通过NVIDIA ConnectX-7网络适配器实现远程直接内存访问(RDMA)。DGX H100在IO卡和GPU之间增加了额外的切换功能,确保每个GPU都能够与外部源进行通信,而不会干扰其他GPU的网络访问。
NVIDIA ConnectX-7 I/O卡提供了出色的灵活性,因为它们既可以配置为NDR InfiniBand,也可以配置为400Gb/s以太网。这种灵活性使得NVIDIA DGX H100能够轻松与其他节点集群化,通过低延迟、高带宽的InfiniBand或RDMA over Converged Ethernet(RoCE)来运行HPC和AI工作负载。
NVIDIA Base Command
NVIDIA Base Command现提供全面的软件堆栈,旨在最大化AI开发人员的生产力、IT可管理性以及工作负载性能,同时提供企业级编排和集群管理功能。Base Command的工作流管理功能实现了对AI开发项目的集中控制,简化了项目团队的协作流程,并集成了监控和报告仪表板,为用户带来便捷。
Base Command与NVIDIA AI Enterprise软件套件完美配合,该套件现已成为每个DGX系统的标配。NVIDIA AI软件通过支持的AI和数据科学工具、优化的框架以及预训练模型,为用户提供端到端的AI开发和部署体验。
此外,Base Command还与多家DGX-Ready Software提供商(如Domino Data Lab、Run.ai和Weights & Biases)实现了企业工作流管理和MLOps的深度集成。它还包含用于优化和加速计算、存储和网络基础设施的库,确保系统达到最佳的正常运行时间、安全性和可靠性,为用户提供稳定、高效的工作环境。
四、WEKA在DGX BasePOD上构建的解决方案
借助NVIDIA DGX BasePOD支持的WEKA数据平台,我们将能够将这些优势进一步扩大到我们的客户。该解决方案的主要亮点包括:
WEKA数据平台与NVIDIA DGX BasePOD现已直接适用于关键的企业AI工作流程,涵盖自然语言处理以及生命科学、医疗保健和金融服务等行业客户的大规模工作负载。WEKA能够高效地服务各种类型的大型和小型文件工作负载。
WEKA持续进行创新,并支持Magnum IO GPUDirect存储技术,实现GPU存储与存储之间的低延迟、直接访问。这一技术释放了原本用于处理I/O操作的CPU周期,从而提高了其他工作负载的性能。
五、解决方案设计
设计决策
以下表格涵盖了在NVIDIA DGX BasePOD上与WEKA一起的设计决策和原理。
项目 | 详情 | 理由 |
最小规模 | 8 节点 WEKA 集群 | 最小规模要求 |
规模方法 | 增量式、模块化扩展 | 从概念验证到大规模增长的可能性 |
规模单位 | 服务器 | 精细化扩展以精确满足容量需求 |
NVIDIA DGX Servers
项目 | 详情 | 理由 |
最小规模 | 1 台NVIDIA DGX服务器 | 最小规模要求 |
规模方法 | 增量式、模块化扩展 | 允许从概念验证到大规模增长 |
规模单位 | 服务器 | 精细化扩展以精确满足容量需求 |
项目 | 详情 | 理由 |
计算/DGX | 推荐使用InfiniBand | GPU到GPU网络需要快速且具有优化的卸载 |
存储 | 400GbE或InfiniBand | WEKA推荐使用400GB以匹配DGX H100中ConnectX-7的速度 |
NVIDIA DGX BasePOD规模
人工智能正在重塑每个行业,为从医疗保健到制造业再到金融服务等众多领域的关键应用场景带来革新。而NVIDIA DGX BasePOD参考架构正是推动这一业务转型和实现人工智能应用程序的关键基石。
NVIDIA DGX H100系统(1台或多台) DGX计算层和存储层的网络 加速存储布线
注意:为了确保业务的持续运行和未来的发展需求,始终为应急和增长预留一定的缓冲空间是一个明智的做法。
网络
针对本RA测试的解决方案,NVIDIA DGX H100系统通过两个NVIDIA QM9700以太网交换机进行连接,每个DGX H100系统配备两个400Gb/s网络接口。每个网络接口都与一个独立的NVIDIA QM9700交换机相连,用于与存储系统建立八个网络连接。此外,每个DGX H100系统还配备了八个单口的NVIDIA ConnectX-7 400Gb/s NDR InfiniBand端口(也可配置为400Gb/s以太网端口),专门用于GPU系统间的通信。
对于WEKA服务器,每台都配备了两个ConnectX-7 400Gb/s网络接口卡。每个网卡都连接到一个独立的NVIDIA QM9700交换机,以实现16个400Gb/s的网络连接。
在网络交换机方面,我们设置了消息传输单位(MTU)大小为9000,以确保高效的数据传输。值得一提的是,WEKA的设计中无需配置RoCE,也无需在网络交换机上设置优先级流控制(PFC),这极大地简化了网络部署的复杂性。
六、验证
为了达成BasePOD认证,NVIDIA规定了一套测试流程,利用自动化IO测试套件来评估系统性能。与DGX A100认证流程相比,NVIDIA在测试存储系统的方法上做出了显著调整。现行的测试套件不再涵盖NCCL all_reduce_perf、mdtest或MLPerf ResNet-50的测试,而是专注于一个名为NVIDIA 'Condor'的测试套件。该套件专注于评估在各种参数下的整体存储性能和IO扩展性。
在进行BasePOD认证时,NVIDIA采用Condor测试套件来配置测试环境,主要目的是评估从存储系统到DGX系统CPU端的通信性能。需要注意的是,该测试套件并不涉及NVIDIA GPUDirect Storage(GDS)和Magnum IO的评估。
在执行测试时,Condor利用FIO作为IO引擎。NVIDIA非常看重性能的一致性和系统随规模增长而持续提供高性能的能力。因此,Condor测试从单个客户端(即“节点”)开始,逐步在测试过程中扩展到16个节点。
Condor测试涵盖了不同的IO大小、线程数量、缓冲IO与直接IO的比较、随机读取、重新读取等多种场景,总计近500种不同的测试组合。每种测试都会运行6次,以确保验证结果的稳定性和收集到足够的数据来评估存储系统的性能。完成测试后,NVIDIA的工程团队将对数据进行审核,以决定存储系统是否满足BasePOD认证的标准。
硬件配置
硬件 | 数量 |
DGX H100 系统 | 1-16 |
WEKA 服务器 | 8,每台服务器包括 AMD EPYC9454P 48 核 CPU、384GB DDR5 RAM、每台服务器14个 Gen5 NVMe SSD、2个 400Gb/s NVIDIA ConnectX-7 网卡 |
QM9700C 交换机(存储网络) | 2 |
QM9700 交换机(计算网络) | 2 |
软件配置
软件 | 版本 |
WekaFS | 4.2.6 |
服务器操作系统 | CentOS 8.6 |
DGX操作系统 | 4.99.9 |
QM9700交换机固件 | 3.11.2016 |
DGX操作系统 | 6.1.0 |
OFED版本 | 5.8-3.0.7.0 |
Base Command | 版本10.0 |
七、结论(入门指南)
随着深度学习解决方案的快速创新,人工智能正逐渐渗透至多个行业,并逐渐成为主流。那些积极投资人工智能、将其数据转化为智能与新产品的企业,将有望超越竞争对手。尽管许多企业希望开展人工智能项目,但在构建可扩展且针对人工智能优化的基础设施方面遇到的挑战,常常成为阻碍其发展的绊脚石。传统的计算基础设施,因其缓慢的传统CPU架构和多样化的系统需求,往往难以应对严格的人工智能工作负载,这不仅增加了操作的复杂性,还导致了成本的增加和扩展性的限制。
WEKA与NVIDIA的工程师携手合作,共同打造了一个可扩展且功能强大的基础设施,为人工智能的创新和性能设定了新的标杆。经过验证,该基础设施从单个到16个DGX H100系统均展现出了稳健的线性性能可扩展性,使企业能够从小规模起步,随着人工智能项目的扩展实现无缝增长。这一成果表明,通过扩展GPU基础设施,WEKA将能够为企业提供加速洞察力的有力支持。经过优化的WEKA配置,使团队能够更专注于新产品的研发,并通过人工智能/机器学习技术更快地获得新的洞察力。
---【本文完】---
近期受欢迎的文章:
数据中心可扩展性的关键:主机路由协议(RoH)(另2篇)
更多交流,可添加本人微信
(请附姓名/关注领域)