查看原文
其他

优化存储解决方案,加速AI数据管道 - Supermicro

常华Andy Andy730
2025-01-01

Supermicro公司的Wendell Wenjen和Paul McLeod探讨了AI和ML数据存储的难点和对策。Supermicro专注于提供服务器、存储、GPU加速服务器及网络方案,其中AI相关业务占其收入的一大块。

他们指出了AI与ML运营中,尤其是在数据管理方面的挑战,这涵盖了数据收集、转换以及将其输入GPU集群进行训练和推理的过程。他们还强调了处理AI数据管道各个环节需要大容量存储的重要性。

Supermicro拥有多款产品,旨在满足AI数据管道每一环节的需求,从大数据湖的数据摄入阶段,到模型开发和验证所需的大量数据保留的训练阶段。他们还谈到了高效数据存储方案的重要性,并介绍了“IO混合效应”(IO Blender)的概念,即多个数据管道并行运行,形成不同IO配置文件的混合。

Supermicro深入探讨了存储方案,重点介绍了他们与软件定义存储公司WEKA的合作,以及他们的架构如何针对AI工作负载进行优化。他们阐述了NVMe闪存存储的重要性,它能超越处理器的性能,并探讨了扩展这种存储方案的挑战。同时,他们还介绍了Supermicro丰富的存储服务器产品线,从多节点系统到PB级架构,旨在满足各类客户需求。

Supermicro的AI存储方案包含两层解决方案,集高性能的闪存存储与低成本、大容量的磁盘存储于一体。他们提到了GPU直接存储在降低延迟方面的作用,以及他们软件定义存储方案的灵活性。

演示最后总结了Supermicro针对不同AI和ML工作负载的产品线,覆盖从边缘设备到大型数据中心的各种存储方案。

-----

我们将探讨一些挑战,早些时候我们已深入探讨软件与闪存介质,现在将聚焦于支撑所有这些AI训练的系统,特别是与之紧密相连的存储部分。这些挑战涉及AI运营和MLOps的存储,以及传统存储方法存在的一些问题。值得一提的是,我们已和多个客户成功完成PB级部署,稍后我将详细解释其工作原理。

大约在两个季度前,我们在财报电话会议中提及,公司超过一半的收入来自于AI相关业务。当然,我们也生产大量的存储设备和服务器。我们起初是一家服务器公司,而真正推动我们迅猛发展的正是AI的部署。这正是我们今天在此讨论的焦点。我们的增长同样受到传统市场的影响,在云服务商市场、企业市场均有所建树,并在全球范围内拥有广泛的渠道业务,覆盖我前面提到的所有产品。但我认为,我们公司的独特之处在于,大约一半的员工都是工程师,他们专注于系统设计与开发。我们在提供生成式AI和大型语言模型平台方面位居前列,这一业务增长率高达500%,实在令人瞩目。

我们有一种非常独特的产品开发方式,称为模块化构建解决方案。我们研发这些可以在不同配置中重复使用的模块化组件,如主板、机箱和电源供应器等,实际上比这还要复杂得多。这些组件可以灵活组装成几乎定制化的解决方案,适用于存储、计算和GPU加速计算,这是我们产品开发的基石。我们在这一领域已深耕30年,而近10年来,我们更专注于将其打造为完全集成的机架解决方案。这是一个高达42U的机架,通过板条箱整体交付,并配备专业人员负责现场组装、上电,确保在第一天就能顺利运行。这确实是我们业务的一大重点。

我们支持并销售给众多大型客户、云服务商,同时也服务于广大企业和渠道客户,因此能提供丰富多样的解决方案。

第三点,我想谈谈我们CEO和创始人非常关注的绿色计算。我们追求能源使用的高效性,为此,我们为客户提供水冷系统,使数据中心运行更为高效。我们自主开发了电源供应器,事实上,在我们所有的竞争对手中,我们几乎是唯一一家从电源供应器、主板到整个系统都进行完整设计、开发和制造的公司。

观众:请澄清一下,你之前提到独特性,但又说几乎是唯一,那么你指的是独一无二还是相对罕见呢?

目前我所知,没有其它主要OEM在完全自主制造方面与我们相似。很多公司都依赖ODM和合同制造商,我过去也在这样的公司工作过,所以对这个市场相当了解。

观众:近年来,我们看到许多硬件制造商开始转向服务模式。Supermicro在这方面有所布局吗?还是说目前主要还是集中在设备销售上?

我们目前主要还是在向客户提供设备。

观众:那么,客户是直接购买设备,还是可以选择像HPE GreenLake或“Pure as-a-Service”这样的服务,即按照单价订阅,然后随着需求增长添加更多设备?

目前我们并没有推出类似的服务。在一定程度上,这种服务模式可能会与我们的一些客户,尤其是云服务商的业务产生竞争。

让我继续深入谈谈AI和ML的存储问题。我们的合作伙伴WEKA对1500名客户进行了调查,想要了解究竟是什么因素阻碍了他们的成功。计算性能无疑是一个方面,安全性也是另一个不容忽视的方面,毕竟可能涉及到公共模型数据的泄露风险。但真正最大的挑战其实在于数据管理,这包括数据的收集、ETL处理,以及将数据提供到GPU集群用于训练和推理。

我们针对AI数据管道中的每个阶段都推出了相应的产品。客户往往难以预测未来一两年内他们需要什么样的数据模型,因此他们通常会收集大量的数据,包括客户服务数据、制造数据等,这些在未来可能都具有极高的价值。因此,他们确实需要一个庞大的数据湖来存储这些数据。对于分布式非结构化存储而言,使用对象存储是一个理想的选择。正如我们之前讨论的那样,我们拥有高容量的90盘位磁盘系统,配备双路处理器,非常适合作为这种类型存储系统的基础。在数据清洗和转换方面,标注和ETL处理是不可或缺的环节。

我个人在另一家公司也有类似的经验。当时我们参与了一个概念验证项目,利用ML为电子束显微镜数据开发监督学习模型,用于检测晶圆上的缺陷。事实上,由于需要进行标注,我们需要专业人员告诉我们什么是缺陷。公司里只有少数工程师具备这样的专业知识,能够区分有缺陷和无缺陷的电子束扫描图像。对我来说,这些图像看起来都差不多,但他们显然对这些图像不感兴趣。对我们来说,处理这些图像需要耗费大量时间,而且我们也不会考虑将其外包给亚马逊等外部机构,因为这是非常专有的数据。因此,整个数据清洗和转换的过程,我们都有相应的系统可以应对,既可以使用闪存,也可以使用闪存和硬盘的组合。这是一个非常重要的领域,需要根据具体的模型类型进行考虑。

在训练和评估方面,我想说的是,除了训练数据(可能是标记的或未标记的)外,我们还需要保留这些数据用于整个模型开发周期。同时,我们还需要用于部署模型的数据以及可解释的AI所需的数据。因为如果我们在部署模型后得到了一些奇怪的结果,我们需要能够追溯到创建该模型的输入数据是什么。此外,我们还需要用于验证模型的数据,这些数据并没有用于训练。因此,所有这些因素都强调了需要非常大容量的存储。

在推理环节,许多工作其实可以在边缘端完成。接下来,我们会深入讨论我们专为边缘环境优化的产品组合。

说到内存和存储层次结构,我相信大家都不会陌生。现在,这个层次结构的每一层都面临着巨大的压力。举个例子,在芯片层面,核心数量的增加速度远远超过了内存带宽的提升速度,因此,他们不得不转向高带宽内存。然而,封装也有其局限性,包括容量和芯片数量的限制。这虽然解决了一部分问题,但当我们谈到需要用于数据摄取和传输到GPU集群的大型数据存储时,这些存储在性能和容量上都受到了很大的挑战。因此,我们认为最佳的方案是将闪存存储用于GPU集群的高性能需求,同时结合基于磁盘的存储来满足低成本高容量的需求。

在训练管道中,我们观察到一种称为“IO混合效应”的现象。在第一个管道中,我们可以看到AI数据管道的各个阶段,但这并不是唯一运行的管道。你可能还有第二个管道,可能稍有不同。因此,你可能会面临双IO配置,甚至后续的混合IO配置。这种情况下,多个这样的管道同时存在,可能是因为多个数据科学家在运行不同的模型或同一模型的不同版本,或者你可能处于需要多方访问数据的多租户环境。这就导致了不同IO配置的混合。

在与我们的合作伙伴WEKA部署的解决方案中,通过仪表板收集的数据显示,我们观察到了一种非常小的IO和大块IO的组合。这种混合对于传统的NAS解决方案来说并不理想。如果你打算将其用于实际部署,这确实是个需要解决的问题。这确实需要一种专为这种存储类型设计的解决方案。

观众:这就是当所有这些管道都在运行时,我们观察到的混合IO模式,对吧?

没错,这只是其中的一部分情况。我们其实还有更多的数据没有展示在这里,但这组数据已经很有代表性了。

观众:我有点惊讶,写速度竟然这么高,而写的数据块却那么小。是不是没有进行检查点操作呢?还是有其它原因……

实际上,我们是有进行检查点操作的,还有归档和ETL等步骤。我认为,关键在于这些IO模式很难预测,所以与其费尽心思去猜测可能会出错,不如设计一个能够应对各种IO模式的解决方案来得更实际。

在屏幕上展示的数据,其实只是整个数据集的一个子集。这也是大多数人在考虑大数据时常常忽略的一点。他们通常会认为,这些都是大文件,我们可以按顺序来移动这些文件。但实际上,数据处理的过程就像是一个搅拌机,各种大小的文件都会混合在一起。

这也是我们的合作伙伴WEKA早期就深入研究的一个方面。作为软件定义存储的合作伙伴,我们为这种环境提供的存储解决方案,目标就是能够适用于工作流程的所有不同阶段,以及同时发生的各种不同大小的文件。在这方面,WEKA做得非常出色。因为五六年前,当NVMe技术问世时,我们就看到了NVMe的存储速度第一次超过了处理器的处理速度,即使是一个NVMe设备也能超越处理器。所以,在处理这种数据集和这种性能要求时,如果你想进行扩展,就需要一种非常特殊的架构来实现。

如果我使用一个NVMe,性能表现会相当出色。但一旦我使用到1000个NVMe,就会遇到一些元数据方面的问题,这些问题通常在你要求“给我一个更快的东西”时是不会被考虑到的。要应对这种性能,就需要一种非常特殊的架构。我认为WEKA在结构设计上考虑得相当周到。

另一个设计得周到的部分是它与S3对象存储的集成。无论是闪存还是硬盘,它们都配有一个对象存储,这使得数据可以在基于文件的应用程序、云端或是环境中的任何地方轻松移动,而在那里,并不需要像在块设备中那样提供FIFO(先入先出)的保证。

而其中的另一个关键部分,特别是对于那些使用Nvidia GPU的工作负载来说,就是GPU直接存储。如果你对GPU直接存储不太了解,它基本上就是为应用程序提供了一个RDMA连接。如果你的存储支持这一功能,那么它实际上就能与GPU内存直接交互,这样你就能绕过CPU内存,直接与GPU协同工作。这也是减少延迟的一个重要步骤,因为在这个过程中的每个环节都可能增加延迟,尤其是在你尝试扩展时,这就是你可能会遇到问题的地方。

Supermicro在产品组合方面基本上定位得很准确,非常适合这种架构。从经济实惠且深入的3.5英寸存储,到高性能的闪存,由于我们的产品组合非常广泛,我们有多节点刀片系统,可以根据环境的需要选择最合适的存储单元大小来创建存储空间。我们可以在机架级别交付这些产品,并根据客户的具体需求来调整环境配置。因为并非每个客户都会购买SuperPOD,有些客户可能正在进行机架级别的AI集成,这种情况下,类似多节点的解决方案可能更适合他们的需求,而不是我们的PB级别产品。

就闪存产品而言,我们的产品线从多节点起步,一直覆盖到PB级别。而在硬盘方面,我们拥有一个庞大的3.5英寸存储服务器产品组合,其中4U机箱最多可容纳90个盘位。因此,是否已实施3.5英寸存储确实是一个需要考虑的问题。这也是Solidigm所面临的众多挑战之一。当然,如果有一个全新的环境,能够全面部署闪存,那无疑是非常理想的。将所有内容都存储在内存中固然是极好的选择,但还需考虑预算、项目是否为全新环境等实际因素。很多时候,我们的客户需要将已存在于3.5英寸存储中的数据集引入新系统,因此迁移到全新环境并非易事,这需要时间和努力。幸运的是,有些客户拥有全新环境的项目和充足的资金,他们可以选择全面部署闪存。而且,Solidigm分层闪存设备的一个优势在于,我可以在此放置成本更低的闪存,并将性能更高的闪存部署在靠近GPU应用程序的位置。

观众:这些会是WEKA集群上的节点吗?

是的,在闪存存储方面,如果回到前面的幻灯片,你会看到我们的产品线从多节点系统一直延伸到3.5英寸存储。3.5英寸存储通常与S3堆栈配合使用,我们并不希望GPU以随机方式从3.5英寸硬盘中提取数据。对于WEKA而言,所有文件都是可访问的。此外,还有其它平台,基本上你可以获取到S3存储设备或云中的文件句柄,并将其作为文件提取出来,从而刷新闪存。因此,首次操作基本上是从S3中刷新闪存,之后GPU就可以在闪存速度下运行了。所以,拥有能够满足所有这些不同需求的产品组合是构建高效管道的关键一环。

另一个关键部分是IoT边缘。如果你还没访问过我们的网站,建议你去浏览一下,你会惊讶于我们所拥有的服务器数量,这只是我们所覆盖市场的冰山一角。在这张幻灯片上,我主要展示了在远端边缘,我们提供了一款无风扇工业计算机,可以轻松放置在工厂车间。这只是一个你可能曾经见过甚至在其中一栋建筑物中使用过的盒子,它看起来像一个散热器,然后我们的产品线一直延伸到远端,包括在电信环境中使用的一些设备。在这些中心中,每个都会配备一些存储元素。虽然GPU更多适用于中等到大型范围,但也有少数非常小的设备带有GPU。不过,我不想给你留下任何误解,我们确实提供非常小的边缘和远端服务器,其中也配备了GPU。这些服务器的用例可能包括餐厅位置的订单系统等等。因此,这些数据与AI进行交互,因为所有这些位置的公司都在汇总这些信息,将其带到某个地方进行分析,以找出如何改进他们的业务。

而在中心部分,我们采用了那种架设在杆子上的架构,这就是一个典型的例子。其中包含了带有闪存和GPU的服务器,它们甚至可以放在户外使用。因此,我们真正关注的是所有不同领域的AI与硬件的交汇点,并为这些应用程序量身打造硬件。

回到主要议题上来,我们如何为AI打造主数据中心存储方案呢?Supermicro拥有丰富多样的GPU服务器产品组合,这也是我们在AI领域取得巨大增长和备受关注的原因之一。我们拥有各种形式的产品,可能要部署GPU的场合我们都能满足,与所有制造GPU的厂商都保持着紧密的合作关系。特别是在Nvidia环境中,这种GPU直接存储技术,我们的合作伙伴WEKA与Solidigm在高容量全闪存系统方面展开了深度合作,并能根据客户的具体需求调整环境配置。

最后,在数据湖环境中,通常采用的是3.5英寸存储部署方案,这可能是在云端实现的。同时,我们也与提供S3存储和高容量S3存储的众多合作伙伴保持着合作关系。因此,通常情况下,我们的客户已经部署了Scality集群或ActiveScale集群等对象存储解决方案,用于存储对他们业务至关重要的资产。接着,他们会在这些环境中添加AI元素。

这里我们进一步深入探讨了同一架构的细节。关于我们如何交付产品,我们提供的是完全集成的解决方案。我们的首选方式是交付一个带有所有软件和管道的完整机架,基本上我们负责将其滚动到位并安装好,然后将钥匙交给客户,让他们可以独立使用应用程序。当然,我们对任何形式的合作都持开放态度,这也是Supermicro与众不同的一点。我认为我们非常注重倾听计算机客户的需求和反馈。

在这个例子中,我们采用400G网络与闪存进行通信,再将闪存通过25G或100G网络连接至3.5英寸存储。随后,Supermicro会通过我们自有的交换机在机架级别完成交付。因此,客户几乎可以掌控他们想要控制的一切。我们越来越多地看到与OCP、OpenBMC等项目的合作,对此我们持开放态度,因为我们致力于确保客户得到他们完成工作所需的一切。

接下来,让我们深入了解一下我们的PB级闪存架构。这可谓尖端技术的代表,采用了最新的闪存创新技术。可能有人听说过EDSFF,也可能有人没听说过,但EDSFF是一种全新的闪存设备外形规格。Solidigm在这个领域处于领先地位,英特尔也是,而我们从一开始就一直是这个领域的佼佼者。因此,过去的五六年里,我们一直在生产采用这项技术的服务器。

随着PCI总线速度的不断加快,其重要性日益凸显,引领着行业发展。目前,可用的U.2驱动器似乎已触及性能瓶颈。闪存设备的连接器在热环境中的表现方式并不理想,因为目前大多数闪存部署在专为机械硬盘设计的盒子中,这并非最佳方案。因此,通过PB级架构,我们正在研究PCI总线如何通过处理器移动,因为我们将在存储和网络之间放置一个处理器,而该网络可能是更先进的网络,如DPU,实际上具有加速和内置安全协议。从底层架构的角度来看,我们希望均衡PCI通道。在图片的右上角,可以看到我们在处理器环境中尽可能实现了均衡。

我们这种架构的另一个优势在于,CXL作为下一代内存技术,也被封装在EDSFF中,因此这基本上是已经到来的未来技术。我们的大型客户正密切关注这一点,因为这个架构在一个2U的封装中最多可以容纳32个NVMes,非常前沿。

这是对该32个驱动器封装的近距离观察。这是一个AMD系统,因此具有独特性。我们可以通过二分法来实现,既可以提供一个拥有32个NVMes的服务器,如果客户更看重高容量方面,也可以制作一个具有16个驱动器的1U服务器。在这两种情况下,这些驱动器的性能都是等效的。

我可以通过将两个相同的16驱动器单元组合起来,实现所需的性能。这通常是我们的客户需要作出的决策,我们会给予指导,告诉他们如何实现,以及如何与像WEKA这样的软件定义供应商合作,通过测试和调整这些系统,选择最佳组件,从而构建出适合客户环境的存储解决方案。

这是一款1U服务器,它实际上采用了E1 NVMe EDSFF的外形尺寸。再次强调,EDSFF的外形尺寸是改变游戏规则的关键因素,未来这个领域将会发生许多新变化。正如我之前提到的,Solidigm从一开始就在这个领域内占据重要位置。

观众:1U的容量是多少?

1U服务器目前主要搭载E1驱动器,每个驱动器的最大容量可以达到7TB。

观众:所以是7乘以16吗?

我们更高配置的版本是搭载16个E3驱动器,E3是Solidigm的驱动器,容量高达30TB。如果你了解驱动器的发展路线图,由于像之前我们看到的QLC这样的技术,这些数字还会不断攀升。你可以选择更适合大容量的驱动器,或者选择更适合高性能的驱动器,可能还具备更高的耐用性。

观众:EDSFF支持你提到的QLC和TLC,那它是否也支持类似SLC的驱动器,可以在上面使用CSAL等技术?

这些都是Solidigm家族的产品,因此它们具备相似的特性。

观众:它们也支持SLC、TLC和其它类型的驱动器吗?

当然,市场上还有其它供应商,因此客户有很多不同的选择。

这是新技术,目前我们使用的是PCI Gen 5,而Gen 6也即将问世。我们再次看到PCI总线速度在快速提升,我认为这是对AI需求的直接反应。现在我们已经是Gen 5了,EDSFF连接器也已经为Gen 6做好了准备。因此,如果你想了解有关架构的更多信息,我们有一份详细的文件,介绍特定架构以及我们如何在一位关键客户那里部署它。

总之,总的来说,使用像WEKA这样的架构,真正考虑了从顶层到底层如何部署整个结构,这比单纯购买某种设备并尝试选择适合的工作负载要有效得多。之前我们讨论过关于如何分割和准备这些不同的系统来处理各种工作负载的问题,这也是WEKA成立时的初衷之一。我们不想纠结于这些复杂的问题,只想简单地部署存储,让集群来处理,解决IO混合效应。作为一个两级解决方案,它在数据移动方面非常灵活。S3已成为我们今天移动数据的标准方式,因此我们可能不再使用磁带库,而是将数据备份到S3云中。在采用和使用S3方面,它是集成到平台中的一种高效方法。当然,我们拥有支持客户所需的各种配置的投资组合,从边缘到数据中心的大规模配置都能满足。


---【本文完】---

近期受欢迎的文章:

  1. NVIDIA DGX H100 系统(BasePOD)+ WEKA 参考架构

  2. 加速GPU环境下的存储IO(57页PPT)

  3. WEKA公司AI解决方案深度解析(PPT)

  4. VMware公司AI解决方案深度解析(PPT)

  5. 并行软件存储架构的创新



更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存