查看原文
其他

MLPerf发布最新推理和全新存储基准测试结果

常华Andy Andy730
2025-01-01

Source: John Russell, MLPerf Releases Latest Inference Results and New Storage Benchmark, September 13, 2023

本周,MLCommons发布了最新的MLPerf推理(v3.1)基准测试结果。Nvidia再次脱颖而出,成为性能最佳的加速器,不过Intel(Xeon CPU)和Habana(Gaudi1和2)的表现也相当亮眼。此外,Google展示了其新TPU(v5e)性能的初步成果。

MLCommons还首次发布了新的MLPerf存储(v0.5)基准测试,旨在评估ML训练工作负载下的存储性能。首批参与存储测试的厂商包括:Argonne National Laboratory(ANL)、DDN、Micron、Nutanix和WEKA。

阅读最新的推理结果可能会令人感到挑战,因为它包含了来自120个系统的逾12,000个性能数据点和5,000个功耗数据点。存储类别则涵盖了仅有的28个结果。为了使结果更具实用性,MLCommons提供了直接访问结果电子表格的方式,使潜在的系统用户和购买者能够深入研究特定系统配置和基准测试结果,以进行详细比较。

  • 推理数据中心v3.1

    https://mlcommons.org/en/inference-datacenter-31/

  • Edgev3.1

    https://mlcommons.org/en/inference-edge-31/

  • 存储v0.5

    https://mlcommons.org/en/storage-results-05/


在过去,HPCwire倾向于在一篇文章中详细报道整个测试过程。然而,由于结果数量的增加以及引入新的测试类别,这种全面报道变得不太可行。因此,本文将提供一份概括性的综述,并在单独的文章中深入分析特定厂商的结果,包括Nvidia和Intel/Habana等。

截至目前,您可能已经熟悉了MLPerf的发布节奏,即每年进行两轮基准测试,一轮是训练基准测试,另一轮是推理基准测试,它们交替发布。换句话说,推理结果通常在春季和(早期的)秋季发布,而训练结果则在冬季和夏季发布。至于HPC训练基准测试,它每年只发布一次,通常接近年度SC会议。

总体而言,机器学习中的推理和训练是应用程序的基础。在这两者之间,训练通常被认为是计算密集型的,尤其是当我们考虑到像具有数万亿参数的大型语言模型(LLM)的训练任务时。而推理则是支持每个聊天机器人和类似应用的重要组成部分,需要处理大量的工作负载。

MLPerf推理v3.1引入了两个新的基准测试。第一个基准测试使用GPT-J作为参考模型,用于总结CNN新闻文章,这是一个大型语言模型(LLM)的示例。这个基准测试吸引了来自15个不同提交者的结果,反映了生成式AI快速被广泛采用的趋势。第二个重要的变化是更新的推荐系统基准测试,旨在更好地反映行业实践,采用了DLRM-DCNv2参考模型和更大的数据集。这个基准测试有9个提交。MLCommons表示,这些新测试有助于推动AI技术的发展,确保行业标准的基准测试能够反映AI采用的最新趋势,为指导客户、供应商和研究人员提供支持。

在事前简报中,MLCommons执行董事David Kanter表示:“几年前,我们首次引入了推荐系统基准测试,现在我们对其进行了更新。而LLM(推理)基准测试则是全新的,反映了人们对生成式AI和大型语言模型的浓厚兴趣。”在本年度的春季,MLPerf训练基准测试中已经包括了LLM(请参阅HPCwire的相关报道,MLPerf训练3.0展示了LLM的性能;Nvidia在其中处于主导地位,而Intel/Habana也表现出色)。

今天的ML基准测试工作不可或缺,尤其是在LLM方面,而MLCommons(MLPerf的母组织)现在已经填补了这个空白。

“要理解大型语言模型的运作原理,关键是它们是基于标记(token)进行操作的。标记通常是单词的一部分,而大型语言模型将一组标记作为输入,然后预测下一个标记。这些标记可以连接在一起以构建完整的句子。实际上,大型语言模型在各种应用中得到广泛应用,包括搜索和内容生成,如生成论文或摘要。在这里,我们所做的就是文本摘要," Kanter解释道。

他强调,MLPerf的大型语言模型推理基准测试与训练基准测试存在明显区别。

"其中一个关键差异是推理大型语言模型主要用于生成任务。它能够撰写相当长的句子,甚至多个句子,但实际上它是一个不同且相对较小的模型," 他说道。"很多人因为没有足够的计算能力或数据而难以支持非常庞大的模型。在推理基准测试中,我们的实际任务是文本摘要。这意味着我们输入一篇文章,然后要求语言模型总结这篇文章。"

与MLCommons的做法一致,提交的组织被邀请提供有关其提交的简要声明。这些声明的质量各不相同,有些只是市场宣传,而其他一些则提供了更详细的技术描述,以突显其提交的独特特点。鉴于结果众多,迅速查看供应商的声明并结合查阅电子表格可以为您提供相关信息。

推理和存储提交者的声明都附在本文末尾。以下是MLPerf推理v3.1练习中一些供应商声明的摘录,以供参考:

Azure 强调了其在线与本地性能对比,提供了H100实例的访问。"Azure是唯一一个在云中发布虚拟机结果的提交者,同时与本地和裸机提供的性能相匹配。这得益于创新技术,包括 AI 超级计算 GPU:配备了八个 NVIDIA H100 Tensor Core GPU,这些虚拟机承诺比以前的世代更快的 AI 模型性能,为企业提供了无与伦比的计算能力;下一代计算机处理单元(CPU):出于对 AI 训练和推理的 CPU 性能的重视,我们选择了第四代Intel Xeon Scalable 处理器作为这些虚拟机的基础,确保了最佳处理速度。"
非营利性 ML 工具开发者 CTuning Foundation 指出,"交付了开源 MLCommons CM 自动化语言、CK playground 和模块化推理库(MIL)的新版本,这成为了第一个也是唯一一个能够在单个 MLPerf 推理提交回合中批量提交 12,000 多个性能结果和超过 1,900 个功耗结果的工作流自动化工具,涵盖了超过 120 个不同的系统配置。"
Google 宣传了其新的 TPU v5e。“TPU v5e 系统使用高速互连将多个加速器链接在一起,并且可以配置拓扑结构从 1x1 到 16x16(256 块芯片),使用户能够选择最适合其需求的系统。TPU 系统提供的这一广泛拓扑结构选项范围允许用户以经济高效的方式运行和扩展 AI 推理工作负载,而不会影响性能。”
在此提交中,Google Cloud 使用了一个拓扑结构为 2x2(4 个 TPU 芯片)的 TPU v5e 系统来运行 60 亿参数的 GPTJ 基准测试。这一基准测试展示了 TPU v5e 系统在推理大型语言模型方面的易于扩展性和成本效益。用户可以轻松添加更多的 TPU v5e 实例,以实现更高的每秒查询数(QPS),同时保持相同的性能与成本优势。
HPE报告指出,在数据中心领域,搭载了八块NVIDIA GPU的HPE Cray系统在性能方面领先于我们的产品组合,为ResNet-50计算机视觉提供了每秒超过340,000个样本的吞吐量,以及Bert 99.0自然语言处理提供了每秒超过28,000个样本的吞吐量。HPE还首次提交了新推出的HPE ProLiant DL380a Gen11和HPE ProLiant DL320 Gen11服务器,配备了NVIDIA H100和L4 GPU。HPE ProLiant DL380a Gen11配备了四块NVIDIA H100 GPU,非常适用于自然语言处理和大型语言模型推理。HPE ProLiant DL320 Gen11配备了四块NVIDIA L4 GPU,是一款用于计算机视觉推理的1U服务器。
Intel 讨论了 Gaudi2 加速器、第四代Intel Xeon Scalable 处理器和Intel Xeon CPU Max Series。“Gaudi2 在服务器查询和离线样本的 GPT-J-99 和 GPT-J-99.9 性能分别为 78.58/秒 和 84.08/秒。这些出色的推理性能结果补充了我们在六月的训练结果,并展示了 Gaudi2 在大型语言模型上性能持续验证的情况。随着每六到八周发布一次的 Gaudi2 软件的持续更新,性能和模型覆盖范围将在未来的基准测试中不断提升。
Intel仍然是唯一提交 MLPerf 结果的服务器 CPU 供应商。我们提交的第四代Intel Xeon Scalable 处理器与Intel AMX 相结合,验证了 CPU 在通用 AI 工作负载方面具有出色的性能,正如 MLPerf 模型所展示的,以及新的更大型的 DLRM v2 推荐模型和 GPT-J 模型。”

您已经对情况有了大致了解。然而,深入电子表格进行有意义的比较是必不可少的。

MLPerf首次推出存储基准测试

全新的存储基准测试(v0.5)经过两年的研发,MLCommons表示,“这是首个开源的AI/ML基准测试套件,专门用于评估ML训练工作负载的存储性能。这一基准测试套件是由十多家领先的工业和学术机构合作创建的,涵盖了各种存储设置,包括并行文件系统、本地存储和软件定义存储。MLPerf存储基准测试将成为购买、配置以及优化用于机器学习应用程序的存储,并设计下一代系统和技术的有力工具。”

尽管它是与最新的推理结果一同发布的,但在机器学习领域,存储性能通常是训练过程中更为敏感的系统要素。MLCommons指出:“神经网络的训练既是计算密集型又是数据密集型的工作负载,需要高性能的存储来维持系统的良好性能和可用性。对于许多正在开发下一代ML模型的客户来说,找到存储和计算资源的正确平衡,以确保二者都得到有效利用,是一项挑战。”

MLPerf Storage旨在通过准确建模ML工作负载所产生的I/O模式来帮助解决这个问题,为不同存储系统和不同加速器类型的混合和匹配提供了灵活性。这一新基准测试以样本/秒和MB/秒为单位报告结果。当然,存储硬件的选择、协议/文件系统和网络配置都将影响性能。

MLPerf存储基准测试套件是基于DLIO代码库构建的,DLIO是一个专门设计用于高性能计算中的I/O测量的基准测试,并已经进行了改进以满足当前存储需求。

在谈到新基准测试的动机和目标时,Kanter表示:“我听说有一些非常大的超大规模计算机集群,它们无法达到峰值利用率,因为它们没有足够的存储。这表明存储基本上是一个棘手的问题,但这个问题并没有得到足够的关注。大多数购买1000台或成千上万台加速器的超大规模计算机集群也有工程师在团队中设计合适的存储子系统。”

“关键的成就是我们创建了一个代表ML训练I/O模式的工具,不需要任何计算或加速器,”Kanter说。“这很重要,因为如果您想为1000个加速器大小的存储子系统进行规模化,您不想不得不购买1000个加速器。另一个有趣的事情是,它是一个与计算耦合的动态工具。MLPerf存储的度量标准是在给定计算利用率下可以流出多少样本/秒;因此我们对计算子系统进行了建模。如果您的存储滞后太多,计算子系统将处于空闲状态,我们只允许由于存储引起的10%的空闲。”

Kanter指出,如果存储系统太慢,您将无法运行基准测试。显然,对于MLPerf Storage来说,目前还处于早期阶段,需要一些时间才能让社区充分认识其价值。已经制定了进一步扩展的计划。鉴于其创新性,最好查看MLCommon的相关文档。(链接到MLPerf存储基准测试规则)

MLCommons链接,https://mlcommons.org/en/

供应商在推理结果上的补充声明(未编辑)

ASUSTeK

ASUS电脑公司最近使用MLPerf推理v3.1套件对其全新的AI服务器进行了基准测试,旨在凸显其在各种深度学习任务中的出色性能。我们的结果展示了我们的系统在执行一些最复杂模型的推理任务时的卓越效能。

在现代人工智能时代,快速高效地将机器学习模型部署到生产环境中至关重要。ASUS GPU服务器系列旨在重新定义推理性能的标杆,正如我们最近的MLPerf推理基准测试所验证的那样。借助TensorFlow、PyTorch等强大的AI框架,ASUS服务器不仅专注于原始性能,更关注智能性能。通过优化的软硬件整合,确保您充分发挥每个张量操作的潜能,而无需付出过高的能源代价。ASUS GPU服务器不仅具备卓越的性能指标,还以令人印象深刻的能源效率评级著称,正如MLPerf功耗效率结果所强调的那样。同时,我们的多GPU配置和硬件软件优化使您能够轻松扩展AI工作负载,以满足不断增长的数据需求,始终保持竞争优势。

系统配置:ASUS旗舰AI服务器ESC8000A-E12,配备双AMD Genoa CPU,支持最多8个NVIDIA H100 GPU;ESC4000A-E12,配备双AMD Genoa CPU,支持最多8个L4 GPU。

这些结果突显了深度学习系统性能和能力的显著提升,使其成为需要高效推理工作负载的研究人员和行业从业者的明智选择。

Azure

Microsoft Azure宣布推出了ND H100 v5系列,这是用于大规模生成式AI的虚拟机系列,目前已普遍可用。这一系列虚拟机提供多种规模,从配备8个NVIDIA H100 GPU的配置,一直到支持数千个GPU,并通过NVIDIA Quantum-2 InfiniBand网络相互连接。值得一提的是,Azure是唯一一个在云中发布虚拟机性能结果并且性能与本地和物理服务器相匹配的提交者。这一成就得益于创新技术的采用,包括:
  • AI超级计算GPU:每台虚拟机配备了八个NVIDIA H100 Tensor Core GPU,这些虚拟机承诺提供比以往更快的AI模型性能,为企业提供卓越的计算能力。
  • 下一代计算单元(CPU):为了确保AI训练和推理的CPU性能,Azure选择了第四代Intel Xeon Scalable处理器作为这些虚拟机的基础,以提供最佳的处理速度。
  • 低延迟网络:这包括每个GPU具备400Gb/s的NVIDIA Quantum-2 ConnectX-7 InfiniBand,以及每个虚拟机享有3.2 Tb/s的跨节点带宽,从而确保了跨GPU的无缝性能,与全球最高性能的超级计算机相媲美。

  • 主机与GPU性能优化:每个GPU通过PCIe Gen5提供64GB/s的带宽,Azure实现了CPU和GPU之间显著的性能优势。

  • 大规模内存和内存带宽:这些虚拟机的核心是DDR5内存,提供更大的数据传输速度和效率,使其成为处理更大数据集的工作负载的理想选择。

  • 这些虚拟机已经证明了它们的卓越性能。它们使用新的8位FP8浮点数据类型在矩阵乘法操作中提供多达六倍的速度提升,相较于以前的FP16。ND H100 v5虚拟机在大型语言模型(例如BLOOM 175B端到端模型推理)方面实现了多达两倍的速度提升,展示了它们进一步优化AI应用的潜力。

ND H100 v5虚拟机目前在Azure东部美国和南部中部美国的区域提供。企业可以注册以了解新虚拟机的详情,或在Microsoft Learn上查看有关ND H100 v5虚拟机系列的技术信息。

CTuning

作为MLCommons的创始成员,cTuning.org致力于使MLPerf基准测试变得更加民主化,并使其对每个人都可以访问,以提供最高效的AI解决方案,同时降低所有开发、基准测试和优化的成本。

我们自豪地宣布推出了开源MLCommons CM自动化语言、CK playground和模块化推理库(MIL)的新版本。这是第一个也是唯一一个能够在单个MLPerf推理提交回合中大规模提交超过12,000个性能结果和来自不同供应商的120多种不同系统配置(包括不同的实现、所有参考模型,以及DeepSparse Zoo、Hugging Face Hub和NeurIPS论文中的BERT修剪器的支持,主要框架和各种软件/硬件堆栈)的1,900多个功耗结果的自动化工作流程。

这一非凡的成就归功于这一技术作为官方MLCommons项目的开放和透明的发展,其中包括来自全球各地学生、研究人员,甚至学童的重要反馈,通过我们的公开MLPerf挑战赛,以及来自Neural Magic、TTA、One Stop Systems、Nutanix、Collabora、Deelvin、AMD和NVIDIA等机构的贡献。特别感谢cKnowledge对我们的开发和提交的赞助,以及One Stop Systems在Rigel Edge超级计算机上展示了第一个MLPerf结果,还有TTA分享他们的平台,使所有人都可以使用CM自动化进行DLRMv2的提交。

由于无法在短篇新闻稿中详细描述我们的合作伙伴在性能和能源效率方面取得的引人注目的结果,我们计划在官方发布后不久,在MLCommons CK playground(x.cKnowledge.org)、github.com/mlcommons/ck_mlperf_results和github.com/mlcommons/ck/blob/master/docs/news-mlperf-v3.1.md上提供各种衍生指标(如功耗效率和成本等)以及可重现性报告。

我们将继续改进MLCommons CM/CK技术,以帮助每个人根据其需求和限制自动协同设计最高效的端到端AI解决方案。如果您有兴趣在规模上自动化您未来的MLPerf提交,请加入我们的MLCommons自动化和可重现性任务组。

Connect Tech Inc

作为MLCommons的新成员,Connect Tech在其最近的MLPerf提交中,在推理边缘类别进行了性能和准确性基准测试。借助Connect Tech功能丰富的Hadron载板与NVIDIA Jetson Orin NX结合使用,这是一款高性能、高能效的平台,展现了在各种AI工作负载中卓越的性能水平。

Connect Tech还支持NVIDIA Jetson Orin NX与Photon和Boson载板,以及像Polaris和Rudi-NX这样的系统设备。通过在Connect Tech的生产就绪硬件上部署,客户可以立即利用Jetson Orin NX来提高性能,并提升机器人和其他边缘AI应用的用户体验。

Connect Tech的加入MLCommons不仅仅代表技术上的成就,更反映了该公司致力于推动边缘AI领域潜力扩展的使命。Connect Tech的硬件与NVIDIA先进技术无缝集成,为工程师和科学家提供了驱动AI和机器学习创新的工具,涵盖了包括机器人、工业自动化和医疗保健在内的多个行业。

Connect Tech是一家专注于坚固、小型解决方案的硬件设计和制造公司。作为NVIDIA Jetson生态系统的精英合作伙伴,Connect Tech为每一代Jetson设计载板、外壳和嵌入式系统。凭借丰富的创新历史,Connect Tech将边缘AI解决方案融入各个行业,为工程师和科学家提供了充分发挥机器学习潜力的能力。

在AI和机器学习领域,Connect Tech一直保持领先地位。通过使用NVIDIA和Connect Tech的创新产品,导航嵌入式AI计算的复杂领域变得更加容易。

Dell

企业IT行业正面临着几十年来最具变革性的技术趋势之一:生成式人工智能。Dell Technologies已经准备好通过一站式的、覆盖从台式机到边缘再到数据中心和云端的最广泛的生成式人工智能解决方案组合,满足这一需求。

在MLPerf推理v3.1基准测试中,Dell提交了230个结果,包括新的GPT-J和DLRMv2基准测试结果,共涵盖了20种系统配置。Dell Technologies与客户和合作伙伴,包括NVIDIA、Intel和Qualcomm等,合作优化性能和效率,提升了推理工作负载,其中包括生成式人工智能。

Dell PowerEdge XE加速服务器系列在多个基准测试中持续取得巨大的性能提升。以下是一些最新的亮点:
  • PowerEdge XE9680搭载了8个NVIDIA H100 SXM GPU,继续提供了Dell最佳的性能结果,在图像分类、语音转文本、语言处理和推荐等方面的性能较上一代MLPerf 3.0基准测试结果提高了约16%。
  • PowerEdge XE服务器系列的整个产品线都表现出色,包括直接液冷的PowerEdge XE9640,它可以在超密集的2RU配置中搭载4个NVIDIA H100 SXM GPU或4个Intel数据中心GPU Max OAM GPU。
  • PowerEdge R760xa上的新NVIDIA L40 GPU结果,是Dell性价比最高的加速服务器。

  • PowerEdge R760上的新Intel Xeon CPU机器学习和GPT-J结果也非常卓越。

  • 针对NVIDIA L4 GPU进行了边缘优化的PowerEdge XR5610相对于性能结果取得了令人印象深刻的功耗效率。

  • 更新的Qualcomm结果,使用QualcommCloud AI 100标准加速卡的紧凑高效的PowerEdge XR4520c计算卡。

通过Dell Technologies强大的解决方案,可以提高预测和输出的质量,加速决策制定。我们在全球的客户解决方案中心进行了测试。与我们的创新实验室合作,充分发挥我们卓越的资源。

Fujitsu

Fujitsu提供卓越的系统、解决方案和专业知识,以确保最大的生产力、效率和灵活性,为客户提供信心和可靠性。自2020年以来,我们积极参与并提交了数据中心和边缘领域的推理和训练轮次。

在这一轮测试中,Fujitsu展示了其PRIMERGY CDI服务器性能,该服务器安装了四个A100-PCIe-80GB GPU,仅用于数据中心封闭部门的基准测试程序。Fujitsu的PRIMERGY CDI服务器经过精心设计,可以根据每个客户独特的工作负载需求,部署必要的资源,并在不再需要时释放这些资源。CDI代表可组合的分离基础设施,这是一种支持多样化数据处理的下一代技术。这导致了高效的运营,最大程度地提高了资源利用率,同时提供了用户友好的服务,消除了传统物理服务器的限制。

正如本轮令人印象深刻的结果所示,即使在外部PCIe BOX中安装GPU,PRIMERGY CDI仍然提供出色的性能和可伸缩性。

我们的目标是通过创新建立社会的信任,使世界更加可持续。凭借丰富的创新和专业知识,我们致力于为社会和尊贵客户的增长作出贡献。因此,我们将继续满足客户的需求,并积极参与MLCommons的活动,为提供引人注目的服务器系统而努力。

Giga Computing

Giga Computing Technology是GIGABYTE完全拥有的子公司,它是从GIGABYTE分拆出的企业部门,专门设计、制造和销售服务器、服务器主板、嵌入式解决方案和工作站。尽管我们的公司名称发生了变化,但出于广泛的品牌知名度考虑,Giga Computing将继续沿用和推广GIGABYTE品牌,包括以GIGABYTE的身份参展于各种展览会上。我们坚定不移地致力于提供与以往一样的高质量产品和服务,以满足我们尊贵客户的需求。Giga Computing不断努力,力求不断改进,特别关注于推动浸入式和DLC(Direct Liquid Cooling)技术以提高效率和冷却效果。此外,我们还积极参与公共人工智能基准测试。

作为MLCommons的创始成员之一,GIGABYTE一直在积极支持社区,尤其是在各种AI训练和推理工作负载的服务器解决方案基准测试方面。在最新的MLPerf推理v3.1中,Giga Computing提交了一款强大的GIGABYTE系统,该系统支持Intel Xeon和NVIDIA H100 SXM5平台,测试结果表明其性能/瓦特比表现卓越。我们的系统在rnnt-Server和bert99-offline等多个测试中取得了卓越的性能。尽管我们本来希望能够进行更多的基准测试,但由于资源有限,我们无法实现这一目标。不过,我们非常自豪地看到我们的合作伙伴,包括NVIDIA、Qualcomm和Krai,选择了我们的GIGABYTE服务器来进行他们自己的测试。

Google

Google Cloud最近扩展了其AI基础设施组合,推出了Cloud TPU v5e,并自豪地宣布在最新一轮MLPerf推理(数据中心类别)中取得的性能成绩。TPU v5e系统采用高速互连技术,可将多个加速器连接在一起,并提供不同的拓扑结构选项,从1×1到16×16(总共256个芯片),为用户提供了根据其需求选择最适合的系统的灵活性。TPU系统提供了广泛的拓扑选项,用户可以以经济高效的方式运行和扩展AI推理工作负载,而不会影响性能。

在本次提交中,Google Cloud采用了TPU v5e系统,并选择2×2的拓扑结构(4个TPU芯片)来运行包含60亿参数的GPTJ基准测试。这一基准测试展示了TPU v5e系统在推理大型语言模型方面的扩展性和成本效益。用户可以轻松添加更多的TPU v5e实例,以提高总查询每秒(QPS),同时保持相同的性能每美元优势。

我们期待看到Google Cloud的客户如何在新的TPU v5e系统上取得更多的成就。

HPE

HPE与Intel、NVIDIA、Qualcomm和Krai等合作伙伴成功提交了一系列卓越的结果。HPE在数据中心和边缘领域的推理系统中展示了高性能的解决方案,涵盖了计算机视觉、自然语言处理(NLP)和大型语言模型(LLM)等领域。

在数据中心类别中,HPE Cray系统搭载了8个NVIDIA GPU,在ResNet-50计算机视觉测试中实现了超过340,000个样本/秒的吞吐量,在Bert 99.0 NLP测试中实现了超过28,000个样本/秒的吞吐量。

此外,HPE首次提交了搭载NVIDIA H100和L4 GPU的HPE ProLiant DL380a Gen11和HPE ProLiant DL320 Gen11服务器。HPE ProLiant DL380a Gen11搭载了四个NVIDIA H100 GPU,特别适用于NLP和LLM推理。HPE ProLiant DL320 Gen11搭载了四个NVIDIA L4 GPU,是一款专为计算机视觉推理设计的1U服务器。HPE ProLiant DL380a Gen11在CPU-only推理场景中,配备第四代Intel至强可扩展处理器,表现卓越。HPE ProLiant DL385 Gen10 Plus v2搭载了八个Qualcomm Cloud AI 100标准加速器,保持了网络推理的良好平衡,非常适用于计算机视觉和NLP推理。

在边缘类别中,HPE Edgeline e920d搭载了四个Qualcomm Cloud AI 100标准加速器,仍然是边缘类别中最低延迟的系统之一,适用于SingleStream和MultiStream推理场景。HPE Edgeline e920d在吞吐量和能效方面也取得了显著的性能改进。

我们感谢Krai在实现Qualcomm Cloud AI 100加速器的高性能和能效方面的卓越合作。

IEI

IEI Industry Co., LTD是一家领先的数据中心基础设施、云计算和人工智能解决方案提供商,同时也是世界前三大服务器制造商之一。通过持续的工程创新,IEI提供先进的计算硬件设计和广泛的产品组合,致力于解决重要的技术领域,包括开放计算、云数据中心、人工智能和深度学习。

在MLCommons推理v3.1基准测试中,IEI提交了NF5468M6系统。

NF5468M6是一款高度多功能的4U人工智能服务器,支持4至16个NVIDIA单宽和双宽GPU,非常适用于各种人工智能应用,包括AI云、智能视频分析、视频处理等。NF5468M6具备卓越的存储容量,并具有一键切换拓扑结构的平衡、公共和级联等独特功能,有助于灵活满足各种AI应用性能优化的需求。

Intel

Intel高兴地宣布我们的Gaudi2加速器、第四代Intel Xeon Scalable处理器和Intel Xeon CPU Max Series在MLPerf推理v3.1中取得了卓越的性能成果。这些结果进一步巩固了Intel致力于提供全方位产品以满足各种客户AI需求的承诺。

在性能方面,Gaudi2在服务器查询和离线样本的GPT-J-99和GPT-J-99.9基准测试中,分别达到了每秒78.58次和每秒84.08次的性能。这些出色的推理性能结果不仅强化了我们6月份的训练结果,还展示了Gaudi2在大型语言模型上的持续性能卓越。我们将持续发布每六到八周的Gaudi2软件更新,以进一步提升性能并扩展模型覆盖范围。

值得一提的是,Intel是唯一提交MLPerf结果的服务器CPU供应商。我们不仅提交了第四代Intel Xeon Scalable处理器的结果,还验证了CPU在通用AI工作负载中表现卓越,包括新的、更大的DLRM v2推荐和GPT-J模型。

这些结果进一步证实,配备经过优化的数据预处理、建模和部署工具以及优化的第四代Intel Xeon Scalable处理器是构建和部署通用AI工作负载的理想解决方案,支持各种流行的开源AI框架和库。

在GPT-J 100字摘要任务中,我们的第四代Intel Xeon处理器在离线模式下每秒能够总结两段文字,而在实时服务器模式下每秒总结一段文字,为约1000到1500字的新闻文章提供快速而准确的摘要。

此外,这也是我们首次为Intel Xeon CPU Max Series提交MLPerf结果。该系列提供高达64GB的高带宽内存,特别适用于GPT-J等工作负载,它是唯一能够实现99.9%准确度的CPU,为对最高准确度要求至关重要的用途提供了支持。

我们将继续通过不断更新的软件和硬件,不断提高性能和生产力,并期待在11月的训练周期中报告新的训练指标。

Krai

KRAI成立于2020年,总部位于英国剑桥,由一群杰出的工程师组成,专注于利用先进硬件实现AI开发和部署的最佳实践。鉴于AI的重要性日益增加以及计算系统的局限性,KRAI成立的初衷是以负责任的方式推动AI的采用。我们自豪地与行业领导者如Qualcomm、HPE、Dell、联想等合作。

在v3.1中,我们为众多提交提供了我们的KRAI X自动化技术。在v3.0中,我们仅提供了少量KRAI X预览提交。而在v3.1中,我们已经完全过渡到使用KRAI X,实现了引人注目的三位数提交成果。

值得一提的是,我们投入了大量精力来提高能效。例如,在一台配备16个Qualcomm云AI加速器的服务器上,我们实现了ResNet50的237.0 QPS/W和BERT-99的9.2 QPS/W,相较于前一轮分别提高了20%(原为210.7 QPS/W)和18%(原为7.7 QPS/W)。

最后,我们还增加了对我们的开源KRAI推理库技术(KILT)的支持,包括用于GPU的TensorRT、用于CPU和GPU的ONNX Runtime,以及适用于Qualcomm的CPU、GPU、DSP和NPU的Snapdragon神经处理引擎(SNPE)。

我们的团队坚定不移地致力于不断改进KRAI技术,以提供全面优化的端到端AI解决方案,可以根据特定的约束和性能目标进行定制。我们的技术使系统设计师能够通过消除繁琐的手动流程来加速AI解决方案的设计和部署。我们的使命是协助公司开发、基准测试、优化和大规模部署其AI解决方案。

Moffett

Moffett AI是稀疏AI计算领域的领先者,专注于提供AI计算平台和服务。我们的使命是继续推动AI性能的前沿,利用稀疏计算技术来不断发展AI。

在过去的MLPerf Inference v2.1和v3.0基准测试中,Moffett AI已经展现出了卓越的表现。现在,我们再次通过提交S30加速器在数据中心开放部门的离线模式下,在GPT J-99模型上实现的结果,再次引人瞩目。

值得一提的是,在MLPerf Inference v3.1中,MLPerf首次引入了大型模型推理的要求,而Moffett AI成为唯一提交大型模型GPT J推理结果的公司。

S30加速器是由Moffett的Antoum处理器驱动的,这是世界上首个具备32倍稀疏度的AI计算加速器。Moffett拥有的专利深度双稀疏算法以及Antoum芯片和软件平台的联合设计,显著提高了加速器的计算性能,增加了吞吐量,降低了延迟和功耗,同时保持了模型的精度。这一创新不仅提高了性能,还降低了总拥有成本(TCO)。

Moffett AI的提交展示了Moffett的Antoum处理器在稀疏计算方面的显著优势,尤其是在大型模型推理的软硬件协同设计中:
  • 实现了极低的TCO:Moffett AI加速器以更少的基础设施和简化的部署,降低了总体成本(TCO),提高了执行计算工作负载的效率。
  • 在大型模型推理方面表现出色:S30加速器以8卡模式在GPT J-99上实现了令人瞩目的高性能(170.59 Sample/s)。
  • 具有强大的可扩展性,适用于数据中心生态系统:S30加速器在不同服务器上的单卡、4卡和8卡模式下都表现出色。

Moffett的深度稀疏技术在生成式AI工作负载(如GPTJ)方面表现最佳。这些AI模型的规模不断增加,对计算性能的需求也在快速增长,同时需要减少功耗、延迟和TCO。我们将继续努力,推动稀疏计算技术的发展,以满足不断增长的AI挑战。

Neural Magic

在麻省理工学院的研究中,Nir Shavit和Alexander Matveev面临了GPU和其他主流硬件在深度学习领域的限制性挑战。这一挑战激发了他们开发一种可以释放AI创新潜力的软件,最终导致了Neural Magic的成立于2018年。现在,企业和社区都可以利用Neural Magic的软件和算法,在普通CPU上实现高性能和准确的AI部署。

Neural Magic的DeepSparse是一款稀疏感知的推理运行时,能够在从云端到边缘设备的普通CPU上提供高效的AI性能。我们的开源压缩框架SparseML整合了最先进的稀疏算法,可轻松应用于计算机视觉、自然语言处理和生成式AI等各种机器学习用例。

通过与cTuning Foundation的合作,Neural Magic在MLPerf Inference v3.1中利用开源CK技术自动化和复现了所有74个基准测试的结果。我们非常高兴地分享我们的DeepSparse CPU基准测试,展示了一系列经过稀疏处理的BERT问答模型的性能。这些模型可以轻松从Neural Magic的SparseZoo上部署。它们在各种不同的平台上进行了测试,包括Intel和AMD,以及在GCP和AWS上,我们的基准测试覆盖了x86和ARM架构,以确保在边缘设备和强大的云基础设施之间实现全面覆盖。

随着我们不断优化算法以提高性能和准确性,尤其是在大型模型压缩方面,我们感谢早期对我们新兴研究的热情回应,包括GPTQ和SparseGPT。我们很高兴看到我们的研究被纳入伙伴们在生成式AI领域推动的新一轮探索计划中。随着我们继续推动模型优化的边界,我们受到与客户合作的工作的激励,重新定义了在深度学习领域实现卓越性能的可能性,无需专用硬件、复杂操作或高昂成本。

NVIDIA

在MLPerf推理3.1中,我们非常高兴首次提交了基于NVIDIA GH200 Grace Hopper Superchip的结果。这款芯片将NVIDIA Grace(我们的第一个数据中心CPU)与NVIDIA Hopper GPU结合在一起,为生成式AI和加速计算时代创造了一个强大的处理器。它在每个数据中心工作负载中运行,包括新的GPT-J和DLRMv2测试,并在各个方面扩展了H100 Tensor Core GPU的领先性能。

此外,我们还首次使用了由NVIDIA Ada Lovelace架构支持的L4 Tensor Core GPU进行提交。这款GPU具有单槽、低轮廓设计和低功耗,将NVIDIA平台在AI、视频和图形方面的性能和多功能性引入了任何服务器。

在Jetson边缘AI和机器人平台上,我们非常高兴地宣布,由NVIDIA Orin系统芯片(SoC)支持,我们通过软件更新和使用第二代可编程视觉加速器(PVA),实现了高达85%的性能提升,这是前所未有的。

NVIDIA AI平台提供了全栈解决方案,端到端加速整个AI工作流程——从数据准备到模型训练再到云端到边缘的推理部署——并在广泛的AI模型中实现了卓越的性能。它还可以轻松集成到各大云服务商和服务器制造商的平台上,并提供了快速投入生产的AI解决方案以及企业级支持,包括NVIDIA AI Enterprise。

我们也要赞扬13个NVIDIA合作伙伴提交了卓越的推理结果,涵盖了我们数据中心GPU组合的广泛应用范围,无论是在本地还是云端的解决方案。

最后,我们要表扬MLCommons在将基准测试最佳实践引入计算领域方面所做的工作,以实现对AI和HPC平台的对等评审,从而更好地理解和比较不同工作负载下产品性能的情况。

Nutanix

Nutanix云平台解决方案是一种混合多云平台,它提供了一个软件堆栈,支持整个AI/ML应用程序的生命周期,无论硬件部署在何处。一致的操作模型有助于简化管理,不论是在数据的采集和转换、将数据馈送到边缘的模型进行推理,还是在核心数据中心或公共云中微调模型。

Nutanix很高兴地宣布首次发布了MLPerf基准测试结果。这些基准测试是在Nutanix NX-3155-G8节点上的实验室环境中执行的,该节点配备了两个NVIDIA A100 Tensor Core GPU 80GB,并且完全虚拟化在AHV虚拟化器上运行。

Oracle

Oracle Cloud Infrastructure(OCI)提供了AI基础设施、AI服务、ML服务以及在我们的Fusion应用中集成的AI。我们的AI基础设施组合包括了由NVIDIA H100(即将推出)、NVIDIA A100和NVIDIA A10 GPU提供支持的裸金属实例和虚拟机。

高端BM.GPU.H100.8和BM.GPU.A100-v2.8实例的推理基准测试结果表明,OCI提供的性能与其他本地和云基础设施上的部署相媲美。每个节点提供了八个NVIDIA GPU。此外,对于训练工作负载,每个节点可以使用高性能的RDMA网络将成千上万个GPU进行集群化。

GPU.A10.4的结果显示,在较小的AI模型推理工作负载上具有卓越性能。评估的裸金属实例配备了四个NVIDIA A10 GPU。OCI还提供了具有一个或两个NVIDIA A10 GPU的虚拟机。这三种OCI实例类型,基于NVIDIA A10 GPU,价格都低于其相应的配备NVIDIA A100或H100 GPU的OCI实例。

Qualcomm Technologies, Inc.

Qualcomm的云AI推理加速器充分发挥了该公司在先进信号处理和功耗效率方面的传统,以在云端和边缘提供高吞吐量、低功耗的AI推理处理能力。云AI产品支持各种AI推理工作负载,涵盖机器学习框架和网络模型,包括具有多加速器聚合的大型网络。

Qualcomm MLPerf v3.1推理结果展示了对所有ML基准的全面优化。我们的所有提交均显示性能、功耗效率以及NLP和计算机视觉网络的较低延迟有逐渐提升。Qualcomm的合作伙伴联想已经引入了新的数据中心服务器平台ThinkSystem SR665v1,搭载了五个Qualcomm云AI 100 PCIe Pro AI加速器。此外,Qualcomm与HPE合作,在其网络部门提交中新增了RetinaNet网络基准,除了BERT。我们的合作伙伴Dell则使用PowerEdge XR4520c服务器提交了Cloud AI 100标准加速器的结果。Qualcomm的AI软件合作伙伴Krai.ai在边缘类别和开放类别中提交了多个基于云AI加速器平台的结果。

Qualcomm MLPerf v3.1推理基准测试结果在多个类别中均超越了其以往的离线性能、功耗效率和较低延迟记录。搭载16个Qualcomm云AI 100 PCIe Pro(75W TDP)加速器的2U数据中心服务器平台在NLP和CV网络上的功耗效率进一步提高了15-20%。Gloria Highend、边缘设备平台在我们提交的所有三个神经网络类别中均取得了性能和功耗效率的最佳表现。所有平台上的RetinaNet性能已额外优化约12%。

Qualcomm不断创新和优化所有提交的AI解决方案。网络部门的适用于数据中心的部分已经扩展到包括RetinaNet网络,而不仅限于BERT。所有网络部门提交的结果几乎与封闭部门的结果相当。

所有这些提交都得到了KRAI X和KILT技术的支持。

Quanta Cloud Technology

Quanta Cloud Technology(QCT)是一家全球数据中心解决方案提供商,致力于支持多样化的高性能计算(HPC)和人工智能(AI)工作负载,并在由MLCommons发布的最新MLPerf结果中名列推理性能榜单。

QCT积极参与了最新一轮的MLPerf推理v3.1基准测试,并向数据中心封闭部门提交了四种不同系统配置的性能结果。

其中一种配置展示了QCT的尖端平台,该平台是QuantaGrid D54U-3U,配备了四个NVIDIA H100 PCIe GPU,并处于预览阶段。QuantaGrid D54U-3U是专为AI/HPC应用而设计的加速服务器。该3U系统支持两个第四代英特尔至强可扩展处理器,功耗最高可达350W,并具备32个DIMM插槽,支持四张双宽加速卡或最多八张单宽加速卡,为各种AI/HPC应用提供了全面而灵活的架构。

此外,QCT还呈现了QuantaGrid-D54Q-2U系统的性能结果,该系统配备了四个NVIDIA L4 Tensor Core GPU。得益于创新的硬件设计、精心的系统调整和软件优化,QCT在MLPerf推理v3.1中取得了出色的性能表现。

展望未来,QCT将继续致力于为学术界和工业界用户提供全面的硬件系统、解决方案和服务。公司将积极与MLCommons社区分享其MLPerf推理和训练基准测试的成果,推动这一领域的不断发展。

SiMa

SiMa.ai自豪地位于边缘AI技术的前沿,不断挑战性能和能效的极限。我们非常高兴在最新的MLPerf基准测试中分享我们的成绩,自2023年4月以来,我们的分数提高了20%。

在边缘AI领域,性能和能效都至关重要,关键的度量标准是每瓦每秒的帧数。这个度量标准衡量了我们的系统在每瓦电能消耗下能够处理多少帧,对于边缘AI工作负载至关重要。SiMa.ai的定制ML加速器是我们成功实现卓越功耗效率而不影响性能的关键因素。

自2023年4月以来,我们20%的改进是SiMa最新MLPerf结果中最令人振奋的方面之一。这一提高得益于编译器技术和内存管理系统的重大增强。这些基础性的改进优化了代码执行和资源分配,提升了我们硬件的整体性能。更值得注意的是,这些改进不仅在基准测试中体现,还在实际应用场景中得到了体现。我们能够增强在我们的硬件上运行的所有模型的性能,为我们的客户提供更多价值,并在各种应用中提供更多灵活性。

SiMa.ai在MLPerf中的持续参与和表现是更广泛增长战略的一部分,在这一战略中,我们将从16nm工艺迈向未来一代更先进的技术。这一举措不仅仅是技术升级,还是战略演进,旨在确保我们在性能、效率和创新方面继续领先。展望未来,我们的焦点依然明确:继续推动边缘AI在性能和易用性方面的可能性的极限。

Supermicro

Supermicro在为各种AI用例设计各种产品方面拥有悠久的历史。在MLPerf Inference v3.1中,Supermicro在数据中心封闭部门提交了四个系统。

Supermicro的使命是为各种工作负载提供经过应用程序优化的系统。例如,Supermicro为NVIDIA HGX H100 8GPU和4GPU平台设计和制造了四种类型的系统,具有16个连接,以确保数据流向加速器的畅通。这对于那些需要大量I/O并需要CPU和GPU性能平衡的AI工作负载非常理想。

Supermicro为客户提供了各种不同形式因子的CPU和GPU,以及数量。此外,Supermicro还提供了升级的电源供应,以便客户选择使用成本效益的电源供应或真正的N+N冗余,以最大化总拥有成本。Supermicro还为NVIDIA HGX系统提供了液冷选项,以帮助部署高TDP CPU和GPU而不会出现热节流。

对于那些寻求PCIe Gen5平台的人,Supermicro提供了一系列引人注目的替代方案。在MLPerf v3.1 Inference中,Supermicro提交了H100的结果,该结果是GPU SuperServer SYS-521GE-TNRT,这是一款紧凑型高性能服务器,采用5U机架式形状。该系统目前正在全球范围内发货。

Supermicro的GPU A+服务器AS-8125GS-TNHR(搭载AMD CPU)和SuperServer SYS-821GE-TNHR(搭载Intel CPU)都配备有8个H100 SXM5 GPU以及GPU-GPU互连功能,配备了NVLink和NVSwitch。此外,双根配置具有直接连接的8个GPU,以实现可能性最低的延迟,并提高性能,在机器学习(ML)和高性能计算(HPC)工作负载的严格场景中对我们的客户非常有益。这些型号在AI开发中表现出色。

Supermicro的承诺不仅限于这些特定型号,还包括适用于各种环境的大量基于GPU的服务器。这一坚定承诺通过一系列MLPerf测试展现出卓越性能。Supermicro承诺将继续提高卓越性能的标准,以满足用户在各种工作站和服务器中的不同需求。

TTA

韩国电信技术协会(TTA)成立于1988年,是一家非营利组织。其主要任务包括信息和通信技术(ICT)的标准化工作,以及对各种ICT产品、服务和数据进行测试和认证。

TTA还积极支持韩国服务器/存储硬件供应商在全球市场上推广和扩大市场份额。TTA深知在像MLCommons这样的平台上发布性能结果的重要性。在此次测试中,我们评估了由KTNF Co.,Ltd制造的KR580S1服务器。

KTNF成立于2001年,以“韩国技术和未来”的使命致力于成为服务器领域的领军者,凭借卓越的技术和专业知识脱颖而出。

KTNF是一家备受信赖的企业,不仅提供适用于云和边缘计算环境的服务器电路和系统技术,还依托其专业知识和高品质的服务来支持客户的业务,以适应快速变化的第四次工业革命环境。

在MLCommons推断v3.1中,我们使用了KR580S1服务器,该服务器适用于数据中心中的AI和云服务工作负载。

这款服务器基于Intel Xeon-SP构建,支持最多两个双插槽GPU。它配备了DDR4 DIMM内存和高性能NVMe SSD。作为一款高度耐热的服务器,它监测GPU卡以实现最佳性能。

我们使用了两种不同的GPU进行测试:NVIDIA A100(40G)用于边缘场景,NVIDIA Tesla T4用于边缘和数据中心应用。通过Tesla T4的测试结果显示,服务器在边缘服务器市场和数据中心服务器市场都具备良好的性能适用性,尤其在resnet50和bert-99等算法性能方面表现出色。

我们要感谢CTuning,他们帮助我们使用MLCommons CM自动化语言和CK播放场所自动化了我们的提交。

xFusion

xFusion Digital Technology Co., Ltd. 是一家全球领先的计算能力基础设施和服务提供商,致力于成为行业领域的佼佼者。我们秉承核心价值观,将客户置于首位,坚持以奋斗者为本,注重长期辛勤工作,倡导共赢合作。我们不断创造价值,加速数字化转型,以满足客户和合作伙伴的需求。

在MLPerf推断v3.1性能竞赛中,我们使用了全新一代GPU服务器产品,FusionServer G5500 V7,在各种GPU配置下对所有基准进行了性能测试,取得了卓越的表现。

FusionServer G5500 V7(G5500 V7)是一款4U 2插槽GPU服务器的新一代产品。它支持高达10个双宽GPU卡的配置。我们采用了Intel Xeon Platinum 6458Q CPU x2和8到10个A30或L40 GPU的组合来进行所有评估项目的测试。在相同的GPU硬件配置下,它在bert、dlrm-v2和gptj等模型的性能上表现出色,实现了62个测试项目的最佳性能。

FusionServer G5500 V7拥有高性能、灵活的架构、卓越的可靠性、易于部署和简化的管理。它为AI训练、AI推断、高性能计算(HPC)、图像和视频分析、数据库等应用提供了加速支持,适用于企业和公共云环境的部署。

供应商关于存储结果的补充声明(未经编辑)

美国能源部阿贡国家实验室(ANL)

我们在美国能源部科学办公室资助的阿贡国家实验室(ALCF)的Polaris超级计算机上进行了MLPerf存储基准测试的评估。ALCF是一个科研用户设施。我们的评估涵盖了Polaris存储系统在两种不同的MLPerf存储AI工作负载,即UNet3D和Bert上的性能。

Polaris光超级计算机是一台由HPE和NVIDIA合作构建的系统,拥有强大的计算能力,达到了44 petaflops,由560个NVIDIA DGX A100节点组成,并采用HPE Slingshot互连技术。每个节点都配备了两个容量为1.60 TB的NVMe驱动器。Polaris使用了Eagle Lustre并行文件系统,它位于HPE ClusterStor E1000平台上,具有高达100PB的可用存储容量,涵盖了8480个磁盘驱动器。此系统包括160个对象存储目标和40个元数据目标,并具有出色的总传输速率,达到了650GB/s。

我们的存储基准测试是在Eagle Lustre文件系统和节点本地的NVMe SSD上进行的,使用模拟生产用户的数据集,以模拟其在进行AI工作负载时的典型操作。我们的研究发现,对于UNet3D和Bert等工作负载,随着加速器数量的增加,I/O吞吐量呈现出明显的线性增长趋势。在Polaris系统上,高效处理I/O操作允许数据传输与计算任务并行执行,从而实现接近100%的加速器利用率。对于I/O密集型工作负载UNet3D,我们观察到在利用Eagle并行文件系统时,峰值吞吐量达到了200GB/s。而当使用节点本地NVMe SSD时,I/O吞吐量达到了800GB/s。对于不太I/O密集的Bert工作负载,我们也观察到了相同的理想I/O吞吐量扩展趋势。这些结果清晰地表明,ALCF架设的存储系统支持高效的AI应用程序I/O操作。

DDN

DDN很高兴提交了两种配置,使用AI400X2设备,在首届MLPerf存储基准测试中,进行了评估。这些评估旨在衡量在典型的小规模机器学习部署中,存储性能在单个AI400X2设备上的表现。我们提交了两种不同的测试场景,一种是使用单个GPU计算系统,另一种是使用GPU计算系统集群。

  • 在单个计算节点的基准测试中,一个DDN AI400X2 NVMe设备运行DDN的EXAScaler 6.2并行文件系统,为40个加速器提供了高达16.2GB/s的吞吐量。

  • 在多节点的基准测试中,一个DDN AI400X2 NVMe设备在十个GPU计算节点上,为160个加速器提供了高达61.6GB/s的吞吐量。

  • 值得注意的是,第二个基准测试提交受到了计算客户端性能的限制,而不是单个AI400X2系统,这进一步证明了这款2U设备的出色性能和效率。

AI400X2设备可以线性扩展,以增加性能或容量,以满足最具野心的人工智能项目的需求。

DDN非常高兴支持MLCommons正在进行的工作,旨在为AI/ML系统建立基准测试最佳实践,并允许AI/ML社区基于标准化的比较度量标准做出明智的决策。我们期待MLPerf存储基准测试的未来版本,其中将包括其他工作负载模型。

要获取有关DDN AI400X2的更多信息,包括配置、功能和用例,请访问https://ddn.com/a3i。

Micron

Micron 9400是专为处理最具挑战性的数据中心工作负载而设计的,特别是人工智能(AI)训练、机器学习(ML)和高性能计算(HPC)应用。这款固态硬盘提供了业界领先的30.72 TB存储容量和77%的每秒输入/输出操作数(IOPS)改进。Micron 9400是世界上速度最快的PCIe Gen4数据中心U.3驱动器之一,无论在哪个容量点上,都提供一致的低延迟性能。

Micron自豪地宣布,Micron 9400 NVMe SSD已获得首个MLPerf存储基准测试的成绩。

具有7.68TB容量的9400 Pro能够支持高达17个加速器,并实现每秒6.1GB的吞吐量。

Micron 9400的高存储容量和卓越性能可支持处理更大的数据集和更加高效的GPU计算。

与许多其他固态硬盘专注于特定读取或写入用途不同,Micron 9400专为真实世界的应用场景而设计。

Micron 9400 SSD采用了U.3形态因子,与U.2插槽兼容,并提供了从6.4TB到30.72TB的多种容量选择。这些选项使数据中心运营商能够根据需要部署最节能的存储,并在性能、容量和耐久性之间找到正确的平衡。这款多功能固态硬盘可满足关键工作负载的需求,无论是在本地服务器架构中、多租户共享的云基础设施中,还是在超大规模、云、数据中心、OEM和系统集成方案中进行灵活部署。

Nutanix

Nutanix Cloud Platform解决方案是一个混合多云平台,提供软件堆栈,支持AI/ML应用程序的整个生命周期。一致的操作模型有助于实现管理的便捷性,无论是在边缘数据收集阶段,将数据馈送到模型进行推断,还是在核心数据中心或公共云中对模型进行微调。

Nutanix Files存储在Nutanix Cloud Platform上,提供分布式、可伸缩的文件存储,支持NFS和SMB。该存储解决方案集成了网络安全和防勒索软件保护功能,提供高性能、低延迟以及本地快照和灾难恢复功能。

Nutanix Objects存储在Nutanix Cloud Platform上,提供分布式、可伸缩的S3兼容对象存储。它具备集成的网络弹性、加密和复制功能,为云原生、分析、AI/ML和归档应用程序提供高性能的对象存储。

Nutanix高兴地宣布首次发布的MLPerf存储基准测试结果。

以下是一些亮点:
  • 在Unet3d ML训练工作负载中,使用五个Nutanix NX-8170-G8节点和Nutanix Files Storage,采用标准的NFS协议,我们实现了65个加速器和25GB/s的吞吐量。
  • 在Unet3d ML训练工作负载中,使用四个Nutanix NX-8150-G8节点和Nutanix Objects Storage,采用标准的S3协议,我们实现了32个加速器和13GB/s的吞吐量。
  • 这些基准测试采用了我们的标准软件定义解决方案,在Nutanix Cloud Platform上运行,使用了AOS Version 6.7和AHV 9 hypervisor的Files Storage Version 4.3,以及使用了AOS Version 6.6.2.6和AHV 9 hypervisor的Objects Storage Version 4.0。

基准测试在实验室环境中进行,使用了传统的双端口100Gb/s数据中心网络基础设施。这个设置可以扩展到最多16个节点,以为更多加速器提供服务。

WEKA

WEKA是一家专注于数据平台软件的供应商,特别面向人工智能(AI)和其他性能密集型工作负载。

WEKA数据平台是专门为现代云端和AI时代的数据处理堆栈而构建的。它将过去静止的数据孤岛转化为高效的数据管道,为GPU提供强大的支持,并能够在云端、AI、机器学习(ML)和高性能计算(HPC)工作负载中实现无缝和可持续的数据处理。这个先进的云原生架构经过优化,旨在解决大规模和复杂数据挑战,提供了10-100倍的性能提升。无论是在本地环境、云端、边缘计算还是混合多云环境中,WEKA平台都能够表现出色。WEKA平台支持各种类型的IO操作,包括读写、小文件和大文件,而且具有低延迟的性能。这种性能提升的基础是其出色的大规模元数据性能以及多协议支持,能够消除在AI管道中不必要的数据复制。此外,WEKA平台无需复杂的调优,可以自动适应各种IO模式,允许混合多个AI IO模式在同一数据集和文件系统上运行,并且随着计算和存储实例数量的增加能够线性扩展,提供更多的容量和性能。

WEKA在单个主机上进行的此基准测试表现出色,实现了业内领先的7.3GB/s的吞吐量,可以为UNET3D模型提供20个加速器的服务同时还能够为IO密集的BERT模型提供24个加速器的服务,吞吐量为2.8MB/s。值得注意的是,这个单客户性能测试受到了可用客户端设备的核心数量和网络能力的限制,更多核心的客户端能够支持更多的加速器。

WEKA致力于支持MLCommons Storage基准测试的发展,并期待未来能够提供更广泛的分布式提交。


---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存