Pure Storage:我们致力于成为领先的AI数据平台
Pure Storage将自己定位为“AI数据平台”,为AI训练和推理工作负载提供数据存储和供应服务,无论是在公有云、本地数据中心、大型还是小型边缘IT站点。它为裸金属、虚拟机或容器化的AI工作负载提供存储服务,并作为AI生产工作流中不可或缺的集成组件。
生成式AI正在深度改造业务智能领域。它能将关于业务问题的口头式请求转化为详尽的SQL代码,执行查询,并最终以文本形式返回答案。
这些LLM的训练过程需要大量资源,往往需要通过配备数百甚至数千个GPU的处理系统反复处理海量(EB级)数据集。在这一过程中,成本高昂的GPU需要稳定、快速地获取通用数据以完成训练任务,这可能需要数小时甚至数天的时间。期间产生的中间结果会存储在系统中,以防止因故障导致整个训练过程重启。
当训练好的LLM应用于处理用户请求时,其响应速度会大幅提升,通常能在几秒钟内完成。这些响应可以通过结合用户自有的专有数据集进行增强,即检索增强生成(RAG),而RAG所需的数据则是由存储系统向LLM提供的。
这便是当前GenAI的基本情况。LLM的处理可以在公有云或本地私有云环境中进行,也可以在混合云环境中同时利用两者。公有云为GPU和存储提供了强大的按需扩展能力,而本地环境则能更好地控制数据,并为边缘IT站点的AI推理工作负载提供更快速的响应。
Chris Mellor与Pure Storage的研发副总裁Shawn Rosemarin深入探讨了Pure Storage在AI数据存储与供应方面的专业能力与未来愿景。
-----
Chris Mellor:作为用户应该如何处理生成式AI的训练工作负载?是在本地运行还是选择在公有云中运行?有哪些决策的参考依据?
Shawn Rosemarin:显然,成本是一个重要的考量因素。如果我们考虑到本地的成本,选择资本支出将意味着巨大的投资,尽管像Pure的Evergreen//One这样的服务模式正日益受到青睐。但问题并不仅仅局限于设备的成本。我们还需要考虑是否有足够的空间、电力和冷却设施来支撑这种AI基础设施。我认为这一点在之前业界的讨论中基本上被忽视了。
此外,问题不仅仅在于是否有足够的电力供应。还要考虑的是电力密度。如果我们以传统数据中心建设的功率为X兆瓦来计算,每个机架的密度通常在14至16千瓦之间,那么这个AI基础设施可能轻易就会消耗掉一个机架内六至八个机架单元的电力密度,这实际上相当于机架物理空间的六分之一。
接下来,企业必须自问:是否有预算来支付持续的电费?是否有办法随着时间推移增加电力供应?更具体地说,考虑到现有应用程序集所需的电力和空间,企业是否能够承担得起这样的开销?
总的来说,我认为电力供应是一个容易被忽视的关键因素。
在公有云方面,情况相对较好,因为企业不需要提前购买所有基础设施。但是,即使我们可以获得无限的规模,如果没有正确控制资源使用,最终可能会收到非常吓人的账单,就像上世纪90年代初人们通过手机观看世界杯时收到的巨额账单一样。他们当时并没有意识到这将是一场极其成本高昂的比赛。因此,我认为成本控制也是公有云中的一个重要考量因素。
Chris Mellor:关于可扩展性,我们还需要了解什么?
Shawn Rosemarin:在考虑规模时,我们不仅要考虑它最终会有多大。可能从块存储开始,然后逐渐转向文件或对象存储。可能从Nvidia GPU开始,几年后,也可能会有其它替代基础设施可供选择。我认为这非常重要,因为这些AI应用程序可能比成熟的应用程序经历更多的重新调整和重新平台化的过程。
Pure多年来在帮助客户管理规模和数据迁移方面所积累的经验和能力,无论是容量还是性能,都是我们在决策时需要考虑的关键因素。
Chris Mellor:还有没有其它需要考虑的第三个因素?
Shawn Rosemarin:第三个决策因素主要围绕安全性和合规性。我对RAG非常感兴趣,因为它能够使用传统的LLM并让其学习专有数据——“黄金”。我认为企业在将专有数据集放在云中时会非常谨慎。
他们可能会选择在云中运行LLM,但使用“直连”功能将数据保留在本地,并将结果也保留在本地,同时利用云中的大量通用库。当然,在卷和阵列级别的加密也将是确保数据安全的关键措施。
Chris Mellor:Pure是否有办法,无论是在本地环境还是在云端,帮助降低资金成本和电力供应及相关成本?
Shawn Rosemarin:许多这些服务都是基于独立的基础设施提供的。在多数情况下,如果你想将数据集用于AI,你必须进行迁移,以便从存储中获取足够的计算能力来为GPU提供数据。
当我们观察Pure的产品和平台时,我们通过允许客户将他们的AI工作负载与生产工作负载并行运行,来消除这些复杂的数据迁移需求。我们提供了足够的冗余空间、容量和性能,因此这些迁移变得不再必要。
此外,我们还非常注重在规模扩展时的能源利用和密度问题。事实上,我们最新的ESG报告显示,我们的效率比传统存储基础设施高出80%。在某些情况下,甚至更高。
这样做的好处是释放了存储通常消耗的能源,使客户能够承担得起在他们的环境中启动GPU的费用。
另外,多数这些环境在运行容器时,容器与存储之间的交互方式存在许多低效之处,这主要通过容器存储接口(CSI)驱动程序实现。实际上,通过Kubernetes和存储之间的CSI传输层,你会损失很多存储效率。
在规模扩展方面,我们看到Portworx容器存储技术作为专有CSI的更好选择。当结合我们的电力和密度节约措施时,它能为客户提供一种更负责任和更高效的方式来扩展AI工作负载。
Chris Mellor:你是说,由于Pure的存储效率提升如此之大,以至于可以将部分原本预计用于存储和电力的预算转移到运行GPU计算上?
Shawn Rosemarin:确实如此。事实上,我们正处在能源危机的边缘。我深信,AI的潜在杀手正是对电力的需求。我们已经看到这个问题的苗头。几周前,微软Azure甚至购买了一个核电厂,以确保他们的设施电力供应。
我们需要时间来开发替代能源,但我相信最终我们会通过创新来解决这个问题。当前企业面临的挑战是“我能让那座桥维持多久?”因此,如果我按照过去的消费方式,假设八个月后我将耗尽电力,对吧?然而,当我启动AI工作负载和GPU时,我将不得不决定在我的环境中哪些应用程序我可以关闭,或者哪些我可以从数据中心中移除,以释放可用的电力。
另一种选择是:我购买一堆具有传统电源供应的数据中心,或者我购买一个核电厂,或者我在其它国家开设办事处,这些国家仍然向数据中心提供可用的电力——但这种机会正变得越来越少。
此外,让我们坦诚一点:我们有责任确保我们不会将过多的电力分配给AI,以至于危及市民的电网。
Chris Mellor:在公有云中运行AI训练与在本地环境运行时,存储的考虑因素有何不同?
Shawn Rosemarin:我认为这两者确实有所区别,但这些考虑因素本身相当微妙。无论是在云中还是本地,我们都可以选择机械硬盘、固态硬盘以及持久性内存。目前,我们观察到公有云和超大规模云服务商中大约60%至80%的存储仍然是机械硬盘。他们似乎是坚守在基于闪存的存储转变中的最后一批群体。
尽管如此,随着固态硬盘价格的持续下降,越来越多的工作负载需要访问能效高、性能强的存储。Pure的Direct Flash Modules在闪存容量上具有显著优势,现在已达到75TB,并计划扩展到150TB、300TB甚至更大。我们坚信,无论是在云环境还是本地环境,这种密度优势将成为Pure在性能、密度和效率方面的关键支撑。
此外,与竞争对手的固态硬盘寿命通常为五年相比,Pure的Direct Flash Modules(DFM)的寿命长达十年,这对长期总体拥有成本具有显著影响。
考虑到公有云及其投资方向,它们会设计并投资于5年、7年、10年的机架规模设计。他们对这些DFM非常感兴趣,因为这些DFM将帮助他们在长期内实现更低的运营成本。
想象一下,如果我是一家超大规模云服务商,我的当前机架密度可能只允许我使用机械硬盘或普通固态硬盘将机架填充到50%。然而,有了Pure的Purity OS和DFM,我可以将该机架的利用率扩展到80%或90%。这实际上给我带来了显著的好处——不仅在密度和功率方面,而且因为我可以在相同的能源和占地面积上销售两到三倍的容量。
另外,在云中,我们需要考虑存储的扩容和扩展,同时必须平衡GPU与交换机和存储之间的关系。连接两者的网络速度是多少?流量是南北向还是东西向?对于AI来说,性能考虑因素相当复杂,并可能挑战传统的网络拓扑。
关键在于,灵活性至关重要。对我而言,增加额外的存储、添加额外的节点、连接到可能存在其它数据集的其它设施有多容易?这对Pure来说是一个真正的机会。在过去的15年里,我们采用了对存储的非破坏性升级,并成功交付了超过30000次升级,这使得非破坏性升级和迁移成为我们的核心能力,确保我们的客户可以在无任何中断的情况下升级其环境。
我们认为这是一个巨大的机会,因为这个市场的新颖性——可能会发生许多变化,而我们在非破坏性升级和迁移方面的丰富经验将是一个有力的证明。
Chris Mellor:RAG是否对这些方面有影响?
Shawn Rosemarin:我认为它的影响是巨大的。因为将能够采用专有数据集,对其进行向量化,并使其能够增强LLM,而LLM可能部署在云中。在本地和云之间拥有一致的数据平面将使这种架构变得更加简单。
如果有特定的边缘站点,并希望出于多种原因(可能是物理因素、成本考虑或合规性要求)在边缘保留数据,可以轻松实现。但如果想将这些数据集移到云端以提高性能,拥有一致的数据平面将大大简化这一过程。
看看我们在Cloud Block Store方面所取得的成就,以及我们最近在Azure Cloud Block Store上推出的基于云原生基础设施,我们致力于提供这种简单、易于操作的数据平面——Purity,它是FlashArray和FlashBlade的核心,并轻松允许客户将这些卷放置到他们所需的任何地方,无论是与MSP合作在云中还是本地。
Chris Mellor:与AI训练相比,AI推理在处理和存储需求方面有何不同?
Shawn Rosemarin:哦,这两者在很多方面都有很大的差异。有训练阶段,有推理阶段,还有归档阶段。训练阶段需要大量的计算资源,这正是GPU和TPU大显身手的地方。它还需要访问大量数据。这是模型的初始训练过程,需要高容量和快速I/O,其中数据访问速度至关重要。
而推理阶段,实际上是利用训练好的模型来做出预测和决策。无论是应用程序向模型提问,还是你和我进入ChatGPT并提问,我们都需要一个相当快的响应时间。与训练相比,推理与存储容量和带宽的需求不太相关,而更多关注于延迟和响应时间。
在观察这两种不同的模型时,整个行业目前非常关注训练阶段。在Pure,虽然我们看到了解决训练问题的巨大竞争,但我们对长期来看,市场上大部分需求将利用AI进行推理持乐观态度。
随着时间的推移,推理的规模将远远超过早期任何训练环境的规模。因此,我们非常专注于训练和推理市场。
Chris Mellor: 对于AI训练而言,计算需求庞大,这使得公有云的可扩展性显得尤为吸引人。然而,对于推理而言,情况则有所不同。推理是否更应该在本地进行,而非依赖公有云?
Shawn Rosemarin: 我认为推理更适合在本地进行。此外,推理还涉及到捕获推理结果的问题。企业想要知道向模型提出了什么问题,模型给出了什么答案,以及客户在得到答案后有何行动?他们最终购买了哪些产品?他们是否放弃了购物车?
我希望不断优化我的模型,即使它在技术上按照设计运行,但如果没有给出我期望的结果——这关乎增加收入、降低成本和降低风险。因此,我认为数据组织会非常关心推理环境的详细情况,比如被询问的内容和输出。我会基于本地推理模型中发生的情况进行这些发现,并用于重新训练。
Chris Mellor: 你认为企业中推理发生的地点,会在一定程度上受到可用存储和计算资源的影响吗?比如,在数据中心的边缘位置?
Shawn Rosemarin: 我认为我们会在边缘位置看到一些训练过程。数据集的开发和向量化工作可能会首先在边缘位置进行。
考虑到计算资源的闲置情况,如果电力资源有限,而我们又有大量的训练任务需要完成,我们需要找到闲置的计算和处理能力。
我认为你会看到训练过程被拆分成多个阶段,其中一些阶段会在边缘位置进行。如果能在边缘进行训练并精简数据,我们可以节省数据传输成本。
我们真的需要深入思考训练过程的结构,如何构建它,以及如何让每个特定的训练元素在最适合的平台上运行。
推理不仅会被人类使用,也会被机器使用。机器可以查询推理模型,获取下一步行动的指导。无论是在工厂车间还是偏远地区。
在考虑推理模型时,关键是要捕获模型的输入和输出,并将它们带回中央存储库,与其它输入和输出关联,以便优化下次的模型训练。
Chris Mellor: 目前,对于生成式AI训练工作负载,GPUDirect是否已成为标准配置?
Shawn Rosemarin: 确实如此。毫无疑问,GPUDirect是为了提高GPU与网络接口和存储之间的数据传输效率。现在,包括Pure在内的大多数供应商都支持并获得了GPUDirect的兼容性和认证。事实上,我们已经推出了BasePod,最近还推出了OVS认证解决方案。因此,确保GPU与存储之间的最佳数据传输路径已成为标准配置。
然而,这并不意味着这就是未来的唯一选择。目前,只有Nvidia提供CUDA(允许CPU与GPU通信的编译器)。但网上有传言称,有些GitHub项目正尝试让CUDA指令和编译器与其它处理器兼容。虽然这些项目的有效性尚待验证,但值得我们关注。
我很期待看到这是否会成为一个通用标准,就像Docker在容器领域所做的那样。或者,这是否仅限于Nvidia。CUDA是否会变得更加开放?AI应用商店的概念是否会延伸到GPU领域?性能是否会成为通用标准?还是平台会限制选择?我认为这些都是未来三到五年内需要探讨的问题。
Pure始终致力于提供高效且节能的存储解决方案,以满足客户对任何GPU市场的需求。AMD、Intel和Arm都有GPU产品,而AWS、Azure和谷歌也在秘密研发自己的GPU芯片。
我们非常重视与Nvidia的合作,确保我们的OVX、BasePod和所有架构都获得认证,并构建参考架构,以满足客户的需求。如果客户希望我们集成特定的解决方案,我们将确保我们的解决方案在任何平台上都能保持高效、操作便捷且节能。
Chris Mellor: 从我所了解的情况来看,Pure致力于保持其作为数据存储供应商的领先地位。它旨在提供全方位的数据存储服务,无论客户希望将数据存储在哪里。目前,在AI领域,Nvidia是主要的玩家,但未来两三四年内,公有云可能会加入竞争,并配备自己特色的GPU处理器,比如AMD、Intel或Arm。当Pure需要为实现这样的目标提供支持时,不论需要何种形式的支持,我们都会全力以赴。
Shawn Rosemarin: 我非常赞同你的观点,但我想对Pure的规模和愿景有一个更宏观的认识。你经常会听到我们谈论数据平台,尽管现在“平台”这个词被用得泛滥。但我想从一个更宽广的角度来思考。
在考虑DFM的进展时,别忘了效率这个关键因素。再考虑到闪存的十年生命周期,加上Purity操作系统的优势,我能够在管理闪存方面实现显著的效率提升。此外,有了FlashArray和FlashBlade这两个强大的部署组合。再加上Portworx,能够解决并将这种效率带到几乎任何外部存储容器中。
现在,Pure推出了Fusion,旨在帮助客户实现自动化编排和工作负载的调整。当然,存储只是其中的一部分,但总的来说,Pure致力于为企业和超大规模云提供高效访问闪存的数据平台,无论数据存储在本地还是云端。此外,企业还可以通过我们的Evergreen//One服务消费模型获得灵活的消费方式,并由SLA进行管理。因此,我希望你能将Pure视为一个数据平台,而不仅仅是另一个存储设备供应商。
Source:Chris Mellor; Pure Storage: We are the AI data platform; April 11, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)