VAST Data赋能大规模AI运营
利用VAST Data
实现人工智能的规模化发展
VAST Data深耕人工智能工作负载领域,自2016年创立以来,业绩持续增长,取得了骄人的成绩。不仅以91亿美元的估值成功完成C轮融资,其软件销售年增长率更是翻倍甚至翻三倍,现金流表现积极。目前,该公司在全球范围内已部署了高达10EB的数据,其中60%的业务聚焦于高性能计算和人工智能工作负载。
VAST Data宣布与专注于人工智能工作负载的云服务商Lambda、Core42和Genesis Cloud建立合作伙伴关系,并透露了如Zoom和Pixar等知名企业客户正在利用VAST进行人工智能/机器学习工作负载。
VAST Data愿景是打造数据中心规模的计算机或“思考机器”,
VAST Data制定了从存储系统到数据管理能力和事务性存储系统的全面发展规划。
VAST Data的架构采用分离式共享一切模型,实现了逻辑与存储的分离,从而确保了系统的可扩展性、可靠性和经济效益。这种架构为公司带来了诸多新能力,包括推出了一款符合SQL标准、高度可扩展的事务性数据库——VAST DataBase,以及用于事件驱动处理的VAST DataEngine。
VAST Data还将Apache Spark和Kafka集成到其平台中,实现了容器化计算引擎与存储的并行运作。这种方法支持复杂的数据工作流程,例如在数据摄入时触发函数进行处理和元数据生成,旨在为用户提供一个超越传统存储解决方案的综合数据平台。
我想给那些之前对VAST Data不太了解的朋友们简单介绍一下。而且,今天我们还准备了一些令人振奋的合作公告,将与我们的重要合作伙伴共同发布,这无疑是一个突破性的好消息。
在接下来的会议环节,我的同事Neeloy将为大家深入解析AI管道的真实面貌。我们与众多领先的AI公司建立了合作关系,不仅涵盖基础设施公司,还包括那些真正投身于AI实践的公司。过去的一年半里,我们积累了丰富的经验,并期待与大家分享这些成果。
VAST Data自2015年创立以来,经历了飞速的增长与巨大的成功。在初创的几年里,我们致力于产品的研发与完善。就在上个季度,我们以高达91亿美元的估值成功完成了E轮融资。这个估值可能让很多人感到惊讶,对我来说也是如此。我从未想过我们能取得如此辉煌的成就,但这正是基于我们在市场上的卓越表现与持续发展。
从商业层面来看,我们的发展速度令人瞩目。进入市场仅四年时间,我们的软件收入年增长率便实现了翻番甚至翻三倍。在短短四年里,我们的软件销售额便达到了约10亿美元,这无疑让我们跻身了令人难以置信的公司行列,也得到了大多数分析师的认可。
而最让我们引以为豪的是,我们在保持财务稳健的同时实现了这样的增长。在过去的近八个季度中,我们的现金流始终保持正值,甚至可能更久。稍后VAST团队会为我核实这一数据。我们在企业市场上赢得了众多客户的青睐,稍后我也会和大家分享一些客户案例,以及我们与不同云服务商的合作情况。
那么,从产品角度来看,这意味着什么呢?拥有充裕的资金固然重要,但更重要的是我们的产品实力。目前,我们已在全球范围内部署并存储了约10EB的数据。尽管我们在企业级存储领域有着深厚的底蕴,但自我们的首个产品上市以来,大部分部署都集中在AI和HPC工作负载领域。事实上,仅在过去的一周内,我们的业务中就有60%是由HPC和AI工作负载或应用所构成的。去年对我们而言,在AI领域取得了标志性的成果。
具体来说,您可能已经发现,目前市场上掀起了一股热潮,那就是大家对GPU访问权的热切追求。因此,众多新兴的云服务商应运而生,他们专门为AI组织提供大量的GPU资源。我们已成功与四家以上专注于AI工作负载的公有云服务商建立了合作关系,包括Lambda、Core42、CoreWeave、Genesis Cloud等,实际上还有更多,但目前暂时无法透露。
这些云服务商的特别之处在于,他们并不仅仅满足于解决您可能认为的快速临时存储需求。他们对我们有着更全面的认识。我们还为这些服务商提供了诸多能力,这使得我们在多租户、安全性、服务质量等方面独具特色。CoreWeave就是一个很好的例子。我们与他们携手合作,共同设计解决方案,如今我们几乎占据了他们数据中心50%以上的份额,支持着数以万计的NVIDIA GPU,正在开展一些非常前沿的工作,稍后我会详细分享。
此外,我们还拥有像Zoom这样的知名企业客户。如果您正在使用Zoom,那么您可能已经注意到,这些天应用程序中增加了许多高级的AI功能,从有趣的手势识别到文本转语音,再到会议笔记摘要等。Zoom也在内部为众多AI/ML工作负载使用了VAST Data。
Pixar其实已经是我们的客户几年了,但他们最近才允许我们公开谈论这段合作关系。我猜想他们可能还没准备好称之为一次胜利。Pixar一直走在媒体和娱乐领域的前沿。不知大家是否看过Pixar最近几部电影,这些电影都采用了高级的渲染算法。像《灵魂》这样的作品,真正让Pixar声名大噪,它采用了体积渲染技术,所取得的成果真是令人叹为观止。而VAST也在Pixar的环境中发挥了重要作用。
现在,我想简单回顾一下公司的发展历程,特别是创始人Renen在2015年创办公司时的初衷。这个故事我会结合我的个人经历来讲述。记得2016年,我在圣何塞的一家咖啡店里见到了Renen。他并不喜欢喝咖啡,但他向我分享了他的一个大胆想法。那时他刚刚离开上一家公司,打算创立这家新企业,并打造一些与众不同的产品。实际上,这三张幻灯片是他2016年向投资者展示的原始材料,非常有趣,值得一看。
Renen的构想是构建一个数据中心规模的计算机,让它成为一个能够思考的机器。那么,什么是思考机器呢?简而言之,思考机器就是一种能够处理数据、输出数据,并利用这些数据反馈来完善自身对数据理解的机器。虽然这个想法在现在看来可能已经很普遍,但在2016年,AI尚未在主流中流行起来。Renen有一个清晰的路线图,因为很多人问我们,尽管不是所有存储公司都在引领这场对话,但我们开玩笑说VAST不仅仅是VAST存储,更是巨大的数据处理中心。他有一个明确的计划和愿景,他认为从路线图的角度来看,他需要做些什么来实现这个数据中心规模、永续思考机器的愿景。
仔细观察您会发现,首先,当然是要开发一个存储系统。其次,必须构建数据管理能力。此外,还要构建一个事务性存储系统。这些都是Renen在2016年就已经深思熟虑的内容。显然,这些都不能一蹴而就。罗马不是一天建成的,但Renen从公司创立之初就有了这样的方向和愿景。
从时间线来看,公司成立于2015年,产品于2019年首次推出。我于2020年2月加入公司,所以至今已过去了四年。我当然希望能早点加入,但产品在2019年推出并投入使用,我认为第一笔收入是在2020年实现的,这标志着我们成功的开始。之后,我谈到了我们在那四年里取得的成功,但我们一直在努力向市场的其他部分证明我们的实力。我们构建了一些非常独特的产品。您可以称我们为第一家通过NVIDIA认证、由NVIDIA测试并超级认证的企业级存储系统。对于那些不了解的人来说,SuperPOD是NVIDIA的DGX SuperPOD,可以说是他们的顶级产品。这是大规模AI基础设施应该具有的巅峰之作。直到今天,我们仍然是唯一一家使用标准企业级存储协议如NFS来实现这一目标的公司。但如果您回溯到去年夏天,我们开始逐步展示Renen在2015-2016年的宏伟愿景。
我们成功举办了这次发布活动,相关内容在YouTube上随处可见,您可以轻松查找并观看。我称这次活动为“Build Beyond”活动,在此活动中,我们首次介绍了一些新功能,我们称之为VAST DataBase功能,比如VAST DataSpace和DataEngine。
那么,这些功能究竟是什么呢?为什么我们要在AI的背景下谈论它们?其实原因很简单,如果您想象一下那台思考机器,所有这些功能实际上形成了一个良性循环,一个反馈机制,使我们成为永续运转的机器。
我们已经开始将核心存储产品重新塑造为DataStore品牌。DataStore是我们的核心。从存储的角度来看,业界对我们的能力都有所了解,我们能够提供企业级NAS,支持NFS、SMB协议,还能提供对象存储。我们甚至从零开始,自主研发了一套符合S3标准的对象存储系统。不仅如此,我们还开创性地建立了使用类似NFS的方式,以本地NVMe速度运行的新方法。因此,我们成为了首个重新振兴NFS等RDMA技术的公司,也是首个成功构建了解锁NFS并实现超高速运行的驱动程序的公司。这对于驱动许多GPU机器来说是至关重要的。
我们还将讨论块存储。目前,我们的客户也在使用我们的产品进行Kubernetes部署。我们引入了一些新概念,比如数据库,在Neeloy的部分我们会深入讨论其重要性。如果您还记得我之前向您展示的Renen 2015年的投资者幻灯片,那种整合系统中事务数据的想法至关重要。我们正在使用数据库,它实际上是一个完全事务性和ACID兼容的表格系统,但能在数据湖、EB规模上运行。请想象一下,就像VAST早期在性能、规模和成本之间打破平衡一样,我们现在在结构化或半结构化数据领域也在做同样的事情。设想一下,能够对EB级别的数据进行精细访问,快速地从一堆数据中找到所需信息。这是为大量非结构化数据提供结构的基础,对于任何类型的AI/ML工作和深度学习工作都至关重要。
接下来,我们要谈谈DataEngine,我们会在这里详细介绍,并在后面的部分给大家举一个生动的例子。
观众:我必须给予你充分的认可,因为你帮助我更好地理解了你们在市场上的定位。将你们的产品与市场上的其他产品进行比较,我认为一个很好的参照对象是Snowflake这样的产品。那么,与Snowflake相比,你们的产品在市场上的定位如何呢?
我们经常用金字塔结构来描述存储领域的层次关系,分析领域也有类似的概念。想象一下,你有事务处理系统,有分析系统等等。对于我们来说,你提到了Snowflake。Snowflake是一个非常流行的基于SaaS的数据仓库,使用起来非常方便。它们所处理的工作负载类型很有趣,更倾向于高性能查询,而不是处理数据湖规模的数据。
当我考虑数据仓库和数据湖之间的区别时,数据仓库倾向于速度快,但数据集大小较小,数据湖往往非常大,是一个大容量的数据存储平台,用于存储所有数据,它们最终变得更慢、批处理导向或运行时间更长。我们认为有一种方法可以兼得,两全其美。所以,当我说可以处理事务的数据湖,达到EB级别规模时。您希望能够将所有数据存储在一个地方,这是显而易见的,就像一个储物间和档案馆,但您也希望能够任意查询并立即找到任何数据。这就是我们正在构建的。
观众:这就是你们正在构建的,还是已经构建的?
这是我们已经构建的。我们的客户实际上已经在使用这项技术了。这项技术在基础层面上的另一个有趣之处是,我们引入了新的能力。例如,对于数据库的一个场景,我们称之为VAST Catalog。所以,现在我们在我们的产品中维护了一个自我索引的目录。您可以向我们的系统投放数百PB的数据,我们可以存储所有这些数据,我们还可以自动为您目录化整个命名空间,您可以向目录提问。因为它是建立在数据库上的,我可以给你一个答案。我可以找到您上周创建的具有某些属性的任何文件,并立即将答案返回给您,这在文件系统级别根本上是集成的。
这是一个应用实例,但是如果现在您将这个想法应用到客户领域内的特定应用程序中,他们可以获得同样的好处,并将任何类型的数据放入其中。一个例子是,我们现在针对这种数据库表格格式与数据准备、数据管道阶段非常流行的工具,如Apache Spark进行了集成。我不会在这里抢尽风头,但我们在那里有一些集成,现在我们可以通过使用我们系统内部的基础数据库格式来加速许多相同的工具。
观众:帮我让我从工作流程的角度来理解这个问题。我将一堆,比如说,相对结构化的图像文件放入一个目录。那么,我要如何将这个过程从仅仅是一个具有普遍可用性的文件系统转变为从数据库角度具有更高级别功能的系统?
一个很好的例子就是有两个方面。所以,你在文件系统级别放了一堆图像。我们会自动对所有的POSIX文件系统属性进行目录化,这在基础架构层面上更多。这就是我们的目录,我们会自动完成,客户不必做任何事情。所以,如果你正在寻找一些特定大小的文件,这就是我们可以用目录实现的一个例子。
然而,同样的数据库功能也可以用于存储用户可能想要运行的自定义元数据。例如,也许你想应用一个推理引擎来分析一堆人的照片。你想要了解他们的情绪:他们是开心的,还是悲伤的,他们是男性,还是女性?然后你可以运行所有这些,并将那些元数据存储在同一个数据库中。这样,你就不再需要去查看一堆文件并做出判断;这已经被你想要的算法预先计算过了。
观众:这样的API是什么样的?所以,如果我想对成千上万的图像数据库进行对象保护之类的操作,我将会生成与每个对象相关的大量数据。那么,这是什么样的数据库?SQL?
是的,它完全符合SQL标准,并不是NoSQL。它是基于ACID的,具有完全的事务性。我们提供了多种方式来访问这个SQL数据库。
观众:你提到的SQL兼容性?
就是指它基于SQL。你可以将其想象成一个巨大的表,拥有成千上万的列和亿万行数据。
观众:它并不是你所说的向量数据库?
向量数据库是一个可以在多种数据存储上运行的语义层,目前我们还未推出这一功能,但正在积极研发中。
观众:你也可以在这个数据库上进行列查找。不过,数据并不像列存储那样持久化?
它是以我们自己的格式和表格形式存储的。
DataEngine是最后一个部分。回到你的问题,DataEngine是我们目前开始预览的内容,你可以将其视为一个事件引擎。当你上传一个图像时,我们希望你能触发一个事件,然后运行推理模型进行分析,并将结果存储到数据库中。
观众:这真是太棒了!是不是这样:我有了VAST,也有了文件系统,然后存储一个文件时,触发器就会在总线上创建,接着Lambda捕获它,Lambda处理它并告诉我,哦,这里有一个新的图像文件,让我来对它进行推理。然后,把元数据添加到已存储的数据库中。
没错,这正是VAST Data平台未来发展的完美例子。
观众:那么,对象检测等服务器功能是在哪里运行的呢?实际上,它并不是在VAST解决方案上运行的。
我们为客户提供了一个框架,让他们可以在其中运行自己的代码。客户可以将函数加载到我们的系统中,特别是DataEngine中,然后文件系统会创建一个触发器来调用这个客户定义的函数。我们并不提供这些功能,也不从事编写推理模型的业务。如果客户需要运行推理作业,并且他们的存储上有GPU,那么推理作业将在适当的地方运行。
观众:甚至提供存储设备的基础设施也有些牵强。
我们不再是一家存储设备公司,我们正在构建一个平台。这是我认为最重要的一点。正如我之前展示的Renen的愿景,我们不会止步于存储;存储只是实现其他功能的基础层。
但是,我们并没有重复造轮子。以DataEngine为例,我们从Kafka开始,它是一个广受欢迎的事件处理框架。我们基于它进行开发,尽量避免不必要的重复工作。
观众:如果你身处一个云原生基础架构友好的环境,比如你是一个先进的托管服务提供商,想要提供这样的服务,那么你现在可以扩展...可以使用VAST Data平台作为存储实际数据的仓库,并且通过扩展,也获得了数据库功能。然后,我可以提供安全摄像头服务,无论是零售安全还是其他场景。我可以在实例中使用计算机视觉技术,无论是C3还是其他情况,现在有了这种扩展功能,我不需要回头去创建自己的数据平台,或者被锁定在Snowflake或其他平台上。
没错,你刚刚提到的问题非常关键。我之前展示了我们与云服务商合作取得显著成果的一年。你所说的正是我们获得如此多成功的原因所在。
这些服务商,我并非特指像AWS这样拥有自己平台的巨头,但其他竞争对手确实需要的不只是作为服务的GPU。仅仅依赖GPU是远远不够的。我们需要更全面地思考问题,包括整个技术管道。
观众:如果我要与S3竞争,它提供了许多原生功能,而不仅仅是存储功能,对吧?
我们还得与其他方面的服务竞争,比如他们拥有的分析引擎、基于触发器的事件引擎等各种功能。如果你们在公有云中享受这种体验,那么想象一下,作为企业,在自己的数据中心里却没有与之匹敌的体验。因此,这正是我们努力发展的方向。
观众:你们的Spark工作负载是在哪里运行的呢?是在VAST内部的计算层中运行,还是Spark在外部运行,毕竟Spark本身就是一个计算引擎?
是的,我们目前正在进行一个项目,就是将Spark集成到我们的计算节点中。所以,将在不久的将来...
观众:那Kafka方面的情况呢?Kafka是作为一个单独的集群运行,还是怎样的情况?
这正好引出了下一张幻灯片的内容,因为它提醒了我们架构是如何运作的。你刚提到的许多计算引擎,如Spark和Kafka,它们都可以被容器化。如果你们一直关注VAST的话,就会知道我们的软件都是100%容器化的,我们会将容器部署到不同的专用机器中。对于那些不太了解我们进展的人来说,这实际上是我上一张幻灯片中展示的所有功能的基础,这些功能我们即将推向市场。这种分离式共享一切架构,让我想起了我和Renen的第一次会议。他并非只是简单地涂鸦或空谈,而是向我描述了这个概念。当时它还没有一个营销名字,但我有计算机科学的背景,所以我知道,如果这个问题能够得到妥善解决,它实际上会解决长期困扰存储系统的许多计算机架构难题。在我看来,这确实是我们最大的区别所在。即使这是深度技术,也是我们的核心,正是它让我们能够做到在上一张幻灯片中讨论的所有事情。
分离式共享一切,简而言之,其实就是将逻辑或处理(你可以想象成文件服务器)与集群中的每个硬盘驱动器分离开来。而不是那种无共享系统,通常是把一个CPU和固定的一些硬盘绑在一起,然后复制出去。这种架构没有那种紧密耦合,每个CPU都能看到、访问每个硬盘,感觉就像整个集群的硬盘都是本地连接的一样,通过非常快速的传输实现。这样一来,我们获得了更好的扩展性,没有流量瓶颈,系统更可靠。因为当某个节点、实例或容器出问题时,不需要重新构建本地连接的硬盘,因为这里根本就没有本地连接的硬盘。这种架构还有很多其他好处。
观众:这听起来很耳熟,是不是和XtremIO有点像?似乎有些相似。
XtremIO?我之前还真没听说过。
观众:它是拉动式存储吗?
不,XtremIO……嗯,我记得它是块存储。
观众:你们从Ceph那里学到了很多并进行了扩展,这真的很棒。
这并不奇怪。Renen也来自XtremIO,所以有些传承,但我认为在架构上,这次是个很大的变革。Renen重新调查了市场,验证了客户需要什么。所以,这不仅仅是重复过去做过的事情。而是重新评估市场,了解客户现在的需求以及近年来出现的新技术可能性。
我认为最大的区别,而且Renen讲述这个故事时非常生动。他当时环游世界,用以前雇主的钱,只是去采访了一大群客户。基本上,他们说的第一件事是:“我们不需要更高性能;我们需要更经济的解决方案。闪存已经足够快了;我们需要更经济的东西。”因此,我们非常关注这一点,从系统设计到软件架构,都是基于我们能否利用这一点来构建更便宜的产品。
观众:我们中的一些人确实喜欢XtremIO。我们喜欢那个想法,因此,看到它的种子和那些想法再次出现是很好的。
我认为Renen也会首先承认,显然,他在以前的雇主那里有很多这样的想法,但是当你有一个成熟的产品、庞大的安装基数和数十亿美元的销售额时,你不会轻易改变整个架构。所以,在他这里,这个设想才得以实现。这确实很难。
运行的端到端解决方案
VAST Data与NVIDIA双方合作将数据平台解决方案与NVIDIA的BlueField数据处理单元(DPU)进行整合进行了深入讨论。在数据中心应用DPU的优势与技术细节,利用DPU加速并卸载基础设施任务(如网络、存储和安全)的重要性。 如何借助BlueField-3 DPU实现数据平台的高效运行,展示了将存储与数据紧密贴近计算层的策略,从而提高了大型AI基础设施部署的效率、安全性和服务质量。 节能的潜力,以及与NVIDIA的软件框架DOCA集成的块存储服务。
---
今天,我们很高兴地宣布,我们已成功构建了一个新的VAST Data平台解决方案,它现在可以在NVIDIA的BlueField DPU上实现端到端的运行。对于正在进行的大规模AI基础设施建设来说,这无疑是一个极为出色的解决方案。稍后,我会详细阐述它带来的显著优势。不过在此之前,我想邀请NVIDIA的存储营销总监John Kim先生加入我们的对话。
很高兴与大家见面。我是John Kim,担任NVIDIA的存储营销总监。我主要在网络部门工作,专注于DPU以及存储解决方案和存储合作伙伴。
我记得您在加入NVIDIA之前曾在Mellanox工作,是吗?
是的,确实如此。我一直从事网络方面的工作,而在Mellanox之前,我还曾在一家企业级存储公司任职。
哦,原来是Mellanox,而不是XtremIO,对吧?
您说得没错。嗯,我确实曾在EMC工作过一段时间,但不是在XtremIO部门。
好的,可能有些代表对DPU还不太了解。尽管CPU和GPU大家已经很熟悉了,但DPU可能还是个新名词。John,您能否简要解释一下DPU是什么,它的作用是什么,以及它存在的意义?
当然可以。我想大家应该对CPU和GPU都有所了解。那么,DPU就是数据处理单元,它主要用于加速和卸载数据中心的基础设施任务。这里所说的基础设施,通常包括网络、存储和安全等方面的任务,还可能涉及远程管理。今天,我们特别提到了BlueField的相关公告。
那么,您能否详细介绍一下NVIDIA的BlueField产品呢?
BlueField是NVIDIA推出的DPU产品。目前,我们最新的一代是BlueField 3。它主要用于加速数据中心的基础设施。具体来说,它首先处理网络任务,然后是存储、安全和管理等方面的任务。我们非常高兴地看到,现在BlueField已经成功运行了VAST的代码。因此,这是一种将数据更紧密地集成到计算过程中的方式,无论是将计算资源靠近数据,还是将数据和存储资源靠近计算资源。与VAST合作的这种解决方案,实际上是将存储和数据带到GPU所在的计算层的一种有效途径。
是的,我稍后会展示一张幻灯片,展示新的VAST解决方案。DPU实际上是一个数据处理单元,它具备一些特殊功能:一方面,它可以作为网卡使用;另一方面,它还具备卡上的处理能力。
没错,DPU集成了智能网卡。你可以用它来加速网络和处理一些数据加密工作。而且,它还拥有可编程的CPU核心。在NVIDIA BlueField的情况下,这些核心采用的是Arm架构,非常先进,最多可以有16个。这些核心可以运行存储软件、管理任务或其他类似的应用程序,包括其他类型的数据加速或数据卸载工作。
好的,这让我想起了超大规模数据中心在其数据中心内部进行特殊处理的方式。情况是不是这样?
事实上,很多超大规模数据中心,甚至可以说大部分,都在使用某种形式的DPU。可能是NVIDIA的,也可能是他们自己研发的。
好的。
在他们的基础设施中,这样做是很有道理的。当你拥有一个非常大规模的云基础设施时,每个服务器都希望拥有加速的网络、加速的存储功能,比如虚拟化,或者加速的加密功能。举个例子,如果你去看AWS,他们在AWS云中的几乎每个服务器上都安装了一种DPU,这在如此大规模的情况下是非常合理的。
好的,在大规模计算中这样做确实很有意义。那么,作为超大规模云服务商,主要的好处是什么?他们为什么会这么做?
首先,当然是为了获得加速的网络和存储功能。同时,还能进行加密和安全工作。但更重要的是,DPU能提供功能上的隔离。比如,租户可以租用裸金属服务器,从他们的角度来看,服务器上不会运行任何代理、额外的超级监控程序或容器管理,只运行租户需要的东西。但与此同时,云服务商可以通过这个DPU进行管理、安全启动、隔离诊断或网络遥测等工作,而不会干扰租户对服务器的使用。
好的,这非常有趣。我知道这些答案,我显然是提前准备这些问题的。这些都是大家很关心的问题。
就像我之前所说的那样,在过去的12到18个月里,我们一直在与众多云服务商紧密合作,能这样做我们深感荣幸。这个想法我们已经酝酿了一段时间了,如今,我们已经有了像CoreWeave这样的客户,他们在生产环境中使用了我们的产品。
这看起来有些新颖。您可能还记得我之前展示的关于我们DASE架构的幻灯片,顶部是一堆容器,底部则是一堆硬盘。实际上,我们现在已经做到了让我们的CNode容器或逻辑容器直接在BlueField DPU上运行。
BlueField DPU通常部署在AI系统中,通常与NVIDIA GPU一起使用。这为我们带来了许多好处,正如John所提到的那样。您可以获得诸多安全上的优势。您可以提供裸机访问,最大化GPU性能,同时确保租户的安全,没有任何妥协。因此,我们实现了一种零信任的安全方法。
此外,我们还获得了数据中心效率的大幅提升。经过计算,当采用这种模式时,实际上我们是用功率更大的设备替换了以前基于x86的处理节点或CNodes,但总体来说,这将为数据中心节省约5%的功耗。当谈到兆瓦时级别的能耗时,这无疑是一笔可观的节省。通过采用这种架构部署模型,您可以节省数百千瓦的功率。
另外,作为我们软件架构的一个副产品,您还可以获得大量的QoS保障。因为每个BlueField实际上就像是为那台客户机器专门配置的数据服务器,不与其他机器共享资源,您可以想象每台服务器,客户端服务器,在其PCIe总线内部都有专用的数据服务。
最后,可能您还不知道,我们还与软件框架DOCA进行了集成,DOCA实际上允许我们提供块存储服务来引导。这是一个两层意思,意味着您可以从BlueField设备引导,而无需在机器内部配置本地NVMe硬盘。对于服务商而言,特别是那些不希望在切换租户时反复配置机器的服务商来说,这些功能至关重要。
因此,我对此感到非常兴奋。我相信这将对服务商和企业都带来巨大的收益。
观众:John,我想请问,你是否已经将在x86服务器上的VAST提供的功能的集群节点功能转移到了DPU上?
是的,我们已经将其精简并整合了。它并不是一个完全相同的复制版本,但我们将I/O功能特别是直接转移到了DPU上,
观众:目的是释放x86 CPU的计算能力?
这样,就可以摆脱其中的大部分负荷。没错,它确实释放了x86 CPU的计算周期,这意味着它们可以用来执行更多的AI任务或其他管理任务,而与存储无关的任务。它还将存储控制器直接引入GPU服务器中。
您提到的x86核心,是指GPU服务器中的还是VAST集群中的?
观众:是指VAST集群中的。
在传统模式下,您通常会在这里部署一个x86服务器,形成一个层次结构,但采用这种新模型后,很多这样的层次都消失了。现在,I/O处理功能实际上是在主机上的DPU上运行的。空间中的很多其他文件系统仍然需要在主机操作系统上运行。例如,如果您正在运行一个并行文件系统,那么您必须在主机操作系统上运行它,这既不安全,也会消耗客户机器的资源。而我们的解决方案则能够解决所有这些问题。
观众:你是说DPU不需要单独的客户机器吗?
DPU是集成在客户机器内部的。在传统的架构中,GPU服务器会先访问VAST CNodes或控制节点,然后再访问VAST存储盘。这种方案相当不错,实际上已经有客户按照这种方式部署了GPU服务器与VAST。但现在,这个方案进一步整合,将控制节点直接引入了GPU服务器。我们已经在很多AI服务器中部署了BlueField DPU。因此,在我们的HGX服务器中,我们已经宣布了MGX和OVX服务器,预计今后,NVIDIA会将BlueField纳入更多我们自己的AI服务器,或是我们合作伙伴设计的AI服务器中。现在,VAST软件可以直接在GPU服务器上运行,而不是作为一个独立的层级。
观众:就像DGX SuperPOD可以在带有VAST存储服务的DPU上运行一样?
你说得对,平台服务,不管怎么称呼,概念上确实如此。目前的DGX实际上还没有配备DPU,但HGX OEM服务器可以,很多基于HGX服务器设计构建的、搭载NVIDIA GPU的OEM设计中都包含了BlueField。
观众:总的来说,这真的很酷。一直以来,我们都希望像BlueField DPU这样的设备能够更靠近服务器,这样客户端或服务器上那些增加价值的服务就能从CPU中卸载出来,让CPU有更多的计算周期来执行它的主要任务。AWS已经在他们的平台上实现了这一点,所以能在数据中心看到这样的实际产品真的很棒。绝对是一件大事,真的非常重要。
VAST Data DASE架构
针对Supermicro超大规模进行了优化
VAST Data的John Mao与Supermicro的Lawrence Lam深入探讨了双方的战略合作伙伴关系,重点聚焦于人工智能与存储解决方案领域。他们着重强调了Supermicro在人工智能领域的卓越表现和技术领先地位,以及公司整体业务的快速增长,特别是在人工智能和数据中心两大板块。即便在人工智能和机器学习尚未风靡之时,Supermicro便前瞻性地投资GPU技术,这使得他们在竞争中脱颖而出。此次合作关系的宣布,包括双方共同开发联合解决方案,将VAST Data的平台软件与优化后的Supermicro基础设施完美结合,以及在三月份GTC上亮相的全栈AI参考设计与架构。
此次会谈还触及了快速存储模型对于向加速器提供数据以支持人工智能训练的重要性,以及数据中心正逐步转向液冷技术,旨在突破冷却GPU的物理限制,从而提升其利用率。Mao详细阐述了VAST Data的软件定义解决方案是如何针对超大规模进行优化,以满足互联网规模和超大规模客户对服务性和可扩展性的需求。此次合作旨在结合Supermicro的硬件创新与VAST Data的软件优势,以应对人工智能基础设施不断增长的需求,预示着未来GPU服务器可能会整合BlueField优化技术,进一步提升性能。
------
我们今天非常高兴地宣布与Supermicro达成了一项激动人心的战略合作伙伴关系。我想在座的各位可能也有所耳闻,而我对Supermicro一直有着深厚的感情和信任。我个人长期以来都是Supermicro的坚定拥趸,一直在内部积极倡导与其合作,因为我发现,无论我们寻找人工智能交易的脚步走到哪里,Supermicro都如影随形,无处不在。显然,他们是这一领域的主要供应商和技术领导者。
我是Lawrence Lam。在Supermicro,我主要负责管理众多存储盘箱产品的设计和研发工作,同时也在EMEA、北美和亚太地区为Supermicro负责很多解决方案级的销售业务。John之前提到的HGX和MGX,我早在一年多前就已经深入参与其中了。因此,我们一直在HGX和MGX上运送DPU,并在我们大规模GPU部署中也同样如此。
我对Supermicro的最初印象,要追溯到我年轻得多的时候。那时,我有一块Supermicro的主板,用于我当时亲手组装的个人电脑。显然,如今Supermicro的业务领域已经远远超出了主板制造。不知现在你们还销售主板吗?可能单独的主板已经不卖了吧。但无论如何,最近这些年来,Supermicro自身也在持续成长壮大,真的非常祝贺你们。Lawrence,在你看来,公司这些年的快速增长,主要归因于哪些因素呢?
人工智能无疑是推动我们增长的一大动力。我们在疫情时期开始显著增长,当时正值芯片短缺的困境,但Supermicro展现出了出色的管理能力。大约在2019年、2020年左右,由于远程办公的普及,CSP和数据中心的需求量激增,对存储、计算和虚拟机的需求也大幅上升。因此,我们在那个时候迎来了巨大的增长,这种增长势头一直持续到2022年底。随后,我们又看到了人工智能领域的增长,特别是训练方面。许多训练公司纷纷找到我们,希望与Supermicro合作设计他们的数据中心,这种趋势一直持续到现在。
我们确实有一些共同的客户,他们从你们那里购买了成千上万个GPU用于你们的系统。那么,让这些公司倾向于选择Supermicro的原因是什么呢?毕竟市场上还有很多其他供应商。我只是好奇,是什么让Supermicro在人工智能市场上具备独特的竞争优势?
Supermicro大约在六到八年前就开始在GPU领域进行大量投资。我们从V100开始,随后紧跟Tesla时代的A100和H100,我们在GPU市场上倾注了大量研发资源,将这些资源投入到多个平台,包括1U、2U、4U平台以及当时的GPU产品上。尽管当时人工智能和机器学习并不流行,但我们公司仍然在这些领域投入了大量研发资金。然后在2020年和2021年左右,Supermicro对我们来说变得至关重要,我们终于在投资五年后看到了回报。
我们采用了很多模块化设计,灵活的电气设计、热设计、机械设计,这种模块化方法使我们能够加速当前产品的设计,并为下一阶段的产品做好准备,因此我们在产品推出方面总是能够领先竞争对手。所以你们看到了这趟列车的到来,而你们早早地进行了投资,这非常明智。
今天我们实际上宣布了两项重要合作。一是我们正在共同打造一个全新的联合解决方案,将VAST Data平台软件与经过优化的Supermicro基础设施相结合,推出一种全新的产品。在我们结束采访后,我会详细为大家介绍这个解决方案的具体内容。此外,我们还携手合作,构建了一种全栈人工智能参考设计和参考架构,这将在三月的GTC上正式揭晓。
你的职位非常特别,因为你处于人工智能和存储的交汇点。从你的对话中,我了解到你会到世界各地与众多客户交流。那么,从你的角度来看,这两者对于我们的客户来说,在我们这次合作中向前迈进时,具有怎样的意义呢?
当前面临的一大挑战是,存在许多不同的训练模型,这些模型需要极快的数据来供应高速运算加速器。因此,我们需要一种快速的文件系统,它支持NVMe或Flash,能够持续为这些成千上万的GPU提供数据,以确保我们的最终客户能够按时满足其上市时间表。这就是为什么快速存储模型对你们来说至关重要。
刚才在前一节与NVIDIA讨论的内容是,VAST是一家软件公司,我们拥有软件定义的解决方案。我们刚刚与NVIDIA宣布了一个新的BlueField优化版本的产品。而与Supermicro的合作,我们实际上正在打造一个超大规模优化版本的产品。
我们目前正在构建的这个版本,是应一些超大规模的互联网规模客户的要求而设计的。尽管传统部署非常灵活,允许您根据任何类型的工作负载需求调整硬件,但当规模达到超大型互联网级别时,我们还需要考虑其他因素,比如可维护性,以及如何有效地跨多个机架的设备进行扩展。因此,我一直在与Supermicro团队合作,致力于打造出极致优化的产品。
作为客户,您享有极大的灵活性,这完全取决于您的需求和目标。不论是哪种部署方案,软件及其解决方案的原则都是通用的。您可以获得同样规模的服务,享受相同类型的容器间通信。对此,我们感到非常兴奋。
观众:会有BlueField优化的Supermicro系统吗?
虽然我不能做出任何承诺,但您可能会看到一种组合方案,包括配备BlueField的GPU服务器与这种超大规模的结合。
观众:工作负载优化与超大规模优化是两种不同的策略?
对于工作负载优化,我们现在有专用的CNode,它们提供了强大的x86性能,让您能够独立扩展性能容量。这无疑是我们的核心竞争力,非常出色。有些客户的比例是4:1,而有些则是1:4,这种灵活性使得我们在极端规模上也能应对自如。我现在说的是非常极端的规模,比如数百PB,甚至EB级的数据处理。这种灵活性意味着,您不能仅仅添加一个CNode就期望在EB级上轻松应对,因此您需要考虑更多因素。
观众:这就像是一个超融合的解决方案?
尽管从软件角度看它是融合的,但非常重要的是,即使在这种模型中,我们也没有改变软件架构。我们部署的这两个容器仍然在同一物理服务器上运行,但它们仍然是逻辑实体,它们在代码级别不混合,彼此逻辑上抽象,这意味着这个超大规模优化版本中的每个CNode仍然可以看到整个集群中的所有硬盘。
观众:物理形态因素方面的超大规模优化,比如是否采用开放计算类型标准?
我们从Supermicro开始选择了特定的平台,但实际上已经与他们达成了协议,可以在他们的整个产品组合中寻找更广泛的选择。因此,今天它可能从一个1U系统开始,但随着时间的推移,我们可能会进行更多的演变和添加。
观众:看到ISV如何利用每种不同的组件提供成套系统将会非常有趣。当我们考虑在一个安全系统中,或者是一个类似Amazon的“即插即用”视觉计算系统中如何利用这一点时,例如在体育场等使用场景中,与Amazon Fresh店相似,客户只需走进去,拿走所需物品,这种情况仍然非常具有吸引力。
您在行业中有着丰富的经验和见解,我们之前也讨论过不少话题。现在,我特别想请教您,对于未来12个月在AI领域的发展,您有什么大胆的预测吗?
在AI基础设施领域,我们观察到GPU、CPU以及整个计算加速器市场似乎都遇到了物理极限,这使得进一步冷却GPU变得相当困难。因此,未来我们共同的客户,他们正积极准备进入机架级别的液冷领域,以追求更高的效率。
当这些客户开始使用Supermicro机架规模的液冷技术时,他们可以将设备利用率大幅提升到90%左右,这相比传统的空气冷却方式,7%的利用率无疑是一个巨大的飞跃。这意味着他们可以在有限的空间内放入更多的设备,虽然无法让数据中心获得更多电力,但却能够运行更多的GPU,这是当前我们观察到的明显趋势。
总之,我对未来AI领域的发展充满期待。再次感谢您的光临和合作,希望我们今年还能继续携手前行。
在大规模环境中
利用VAST Data和Run:ai运行全栈AI
在这次讨论中,来自VAST Data的Neeloy Bhattacharyya和来自Run:ai的Sandeep Brahmarouthu深入探讨了规模化高价值应用场景中部署AI所面临的复杂性,重点聚焦在数据在AI流程中的流动与管理。他们指出,在大多数组织中,数据准备、模型训练与推断往往相互分离,导致效率大打折扣。他们强调了理解数据溯源和谱系的重要性,这对于有效利用AI,特别是针对创新应用场景来说,是至关重要的。
VAST Data的方法在于通过更紧密地整合数据捕获、准备、训练和模型服务流程,从而简化AI数据管道,凸显了传统数据存储和处理方法的低效性。Bhattacharyya介绍了“数据邻近性”的概念,即某些功能在靠近数据存储位置时运行更为高效,这有助于提升处理时间和结果质量。
Brahmarouthu则详细讨论了Run:ai在AI工作负载的GPU资源管理方面的作用,解决了组织内部有效调度和利用GPU的挑战。他特别强调了Kubernetes在资源管理中的核心地位,尽管它在处理AI特定工作负载时存在一些局限性。他还介绍了Run:ai如何增强Kubernetes的功能,以更好地服务于AI应用程序。
此外,讨论还触及了在企业内部部署AI的运营挑战,如需要适应AI实验性质的DevOps模型。他们讨论了基础设施和技术合作伙伴关系的重要性,例如VAST Data和Run:ai之间的合作,旨在共同构建高效、可扩展的AI部署策略。
-----
我们已经探讨了数据管道及其与AI的关联。根据我与众多客户的实际交流,尽管有人明白数据与AI模型训练推理之间的联系,但在实际操作中,处理这些事务的组织往往是分离的。传统的大数据分析团队通常负责数据准备工作,而模型训练和推理则更多由学术界的专家参与。在学术界,由于时间和资金的限制,他们往往只能处理公开的数据集。然而,若想在高价值的应用场景中部署AI,情况则有所不同。
事实上,德勤去年底发布了一份深入调查此领域的报告。报告显示,目前AI的70%至80%的应用集中在效率和成本节约方面。仅有30%的应用是针对更高价值的创新应用场景,将AI融入服务或用于开发新服务。
要进入这些高价值应用场景,掌握自己的数据至关重要。我们需要了解数据的来源和谱系。为了更深入地分析这个问题,我们采取了一系列措施。比如,在与众多客户交流后,我们制作了一张关于数据流动的幻灯片,从数据捕获和原始收集,到数据准备阶段、训练量化,再到模型服务的分解。你会发现,随着数据在流程中的推进,其所需量逐渐减少,但到达模型服务阶段时,由于需要进行审计,你必须追踪从推理中获得的所有提示和响应。
AI及其管道的另一个独特之处在于,传统的企业用户习惯于软件部署的线性流程:部署软件、执行操作、发现问题、修复缺陷或错误,然后推出新版本。但AI不同,它充满了不确定性,因此具有实验性质。当你穿越这个管道,完成AI部署并开始处理下一个模型时,你需要来自模型服务推理阶段的反馈,因为这些反馈会影响你评估训练模型的方式。无法保证新模型一定比原始模型工作得更好或更准确。因此,在这个领域,数据的流动、零信任和传承是在高价值应用场景中部署AI的巨大挑战。目前,我们传统的AI工作负载部署方式尚未解决这些问题。
我们提到了在VAST平台上运行的功能与外部功能之间的平衡问题。传统的做法存在诸多不足:数据进入后会存储在对象存储中,若需通过NFS消费或使用其进行处理,则需复制数据。这些数据被存储在大型文件中,扫描时需使用高内存服务器。同时,还需部署专用存储用于检查点。在进行推断时,又会创建这些大型文件,涉及大量的存储、移动和操作。
VAST正在做的事情,其核心目的就是为了简化您在这个领域的操作。请注意,这并不是我们为您提供的完美解决方案。您完全可以在我们的平台上运行某些功能,同时也可以在平台外部运行它们。至于如何选择,这主要取决于您的系统架构。一般来说,当功能与数据越接近时,在平台上运行它们会更有意义。特别是当您需要移动大量数据到服务器进行分析或研究时,如果能在数据附近执行这些功能,那么您的整体处理流程将会更加高效。
首先,让我先为大家概述一下关键点,然后我会请Sandeep上台继续讲解。我们之前和Keith讨论过的DataSpace,是AI管道面临的一个关键挑战。因为计算资源分散,而我们希望这些资源都能访问公共数据。VAST DataSpace就解决了这个问题,它让您能把数据集中存储在一个地方,所有集群都能访问。
我们之前谈到了DataStore和如何高速地为GPU提供数据。甚至在AI训练和模型开发时,您都可以使用相同的存储来设置检查点。当然,还有数据本身。我们有一个称为数据库的工具,它能以结构化的方式在平台上存储数据。在进行数据准备时,我们可能会遇到数据密集型或数学密集型的查询。因此,VAST特别针对数据准备阶段,在Spark和VAST数据库之间建立了集成,您可以直接在平台上执行相关的查询和数据处理。另外,我们还集成了Rapids,这样对于计算密集型的工作,您可以利用GPU来执行。您可能会从我们这里,以及John的发言中了解到,我们还能在平台上运行Spark查询。
那么,我们为什么要这么做呢?这并不是说我们认为所有的Spark都应该在VAST Data平台上运行。但如果您想想看,当您需要执行某个功能并需要一些计算资源时,为什么要把数据发送到其他地方去执行这个功能,然后再写回VAST呢?直接在数据附近执行不是更高效吗?
此外,我们还谈到了DataEngine在平台上提供的功能和触发器,这些都可以作为推理和模型服务的一部分。有些功能和活动在数据准备阶段就能完成。总的来说,关键是要在整个AI管道中找到工作分配的平衡点,既要考虑到数据的位置,也要考虑到计算的效率和资源分配。
观众:到目前为止,我们的讨论主要集中在与基础设施管理员的沟通上,确保他们能在需要时运行正确的技术堆栈。不过,从这次的演示中,我看到了一个与DevOps更紧密的联系。尽管我们还没有直接讨论到DevOps的话题,但我对你们在此方面的看法非常好奇,希望能听到更多想法。
好的,我明白了。因此,我们意识到,Sandeep的加入将为我们提供一个很好的介绍机会,我们的平台拥有众多不同的出色功能。然而,我们所缺乏的是让人们以高效的方式使用这些技术的方法。针对您的观点,存在这种合并……
让我先退一步。让我们思考一下传统的HPC场景。在那种场景中,科学家们会获得一段时间的GPU硬件使用权。他们通常使用名为Slurm的工具来排队提交作业。这些作业在整个使用期间会保持100%的GPU利用率,然后将使用权交给下一个人。但这并不是企业AI的运行模式。企业AI涉及到许多不同的、相互竞争的优先事项,通常需要快速响应。它们需要一个DevOps模型,但这种模型与AI的试验性质相结合,使得情况变得复杂。因为AI不同于DevOps,我不能简单地将更新后的模型提交到代码库,然后期望它立即得到应用。不,您会对模型进行更改,这些更改将被用于实验。您会使用不同的数据集来评估模型,并决定是否采用该模型,或者可能您想要一个不同的模型。失败可能是常态,甚至每天多次发生。
明确地说,我们意识到除了需要基础设施合作伙伴和围绕NVIDIA等技术建立的伙伴关系外,我们还需要一个运营合作伙伴。因此,我很高兴地宣布Sandeep加入我们的团队。实际上,我们在二月中旬就已经宣布了与Run:ai的合作伙伴关系,但我们觉得Run:ai对于完善我们的整体战略非常关键,所以我们今天特别邀请Sandeep来与大家分享。
让我们深入探讨一下。我们刚才谈到了Slurm、Kubernetes和AI工作负载,以及企业在这些方面面临的挑战。这些都是你们每天在工作中需要面对的问题,所以请分享你们的看法。
我先简单介绍一下,我是Sandeep Brahmarouthu,我在Run:ai负责合作伙伴关系。我们其实是一个针对AI工作负载的GPU资源管理平台。GPU对于AI工作负载来说至关重要。我们看到了大量的需求,并与NVIDIA等合作伙伴紧密合作,它已经成为从数据准备到模型构建,再到模型训练,乃至推理等多个环节的标准工具。现在市场上存在一个挑战,那就是如何获取那些非常稀缺的计算资源,特别是在AI开始飞速发展的时候。越来越多的数据科学团队在组织中涌现,他们都需要访问计算资源来构建和训练模型,并贯穿整个生命周期。在这方面,我们观察到一个巨大的挑战,那就是企业如何提供对这些计算资源的访问,以便他们能够更快地创新,获得更好的基础设施投资回报率,并向业务提供价值。因此,我们看到了很多有趣的机会。我们正在与VAST一起探索如何帮助我们的客户更快地将他们的模型推向市场,并实现最佳的投资回报率。
从用户视角来看,这确实是个颇具挑战性的问题。你们团队里有AI专家、科学家和研究人员,他们早已习惯了使用像Slurm这样的工具,那对他们来说就是舒适区、安全区。同时,你们还有数据科学家,他们某种程度上已经被AWS、GCP、Databricks、Snowflake等工具宠爱有加。他们依赖这些工具集,已经构建好了对应的管道和整个工具链,专注于自己的特定领域。现在,我们引入了Run:ai这个基于Kubernetes的平台。虽然Kubernetes在企业环境中管理资源争用和资源管理方面表现出色,但它与人们以往的习惯有所不同。那么,你们打算如何帮助大家克服这个障碍,又正在做些什么来推动这种过渡呢?
确实,这是个值得深入探讨的问题。很明显,Kubernetes已经成为许多不同工作负载的编排平台的事实标准,但它并没有为AI特定的工作负载量身打造。当我说具体时,指的是如何更有效地调度AI工作负载,讨论整个生命周期,以及如何最大化利用GPU处理能力、分数层等方面。
Run:ai的作用正是在这里。我们构建了一个软件平台,它高效地运行在Kubernetes之上,并为Kubernetes层带来了额外的增强功能,特别是针对GPU的Run:ai工作负载。举个例子,我们在Kubernetes中进行了扩展,提供了先进的调度功能,因此可以更高效地在GPU上调度工作负载,能够对GPU进行过度配置,能够进行分数化,因此这些调度功能非常重要,特别是当不同的数据科学团队运行不同类型的AI工作负载时。
有些人可能正在运行需要大量GPU计算资源的训练工作负载,有些人可能只是在构建数据模型或使用Jupyter Notebook作为服务的模型构建,只需要一小部分GPU,另一些人可能需要运行大量并发的推理作业。那么,如何管理这些纷繁复杂的工作负载?如何以更高效的方式调度它们?这确实是个挑战。因此,我们将这些调度功能引入了Kubernetes。特别是对于生成式AI,我们看到许多这样的工作负载都是构建在Kubernetes上的容器之上的。因此,拥有先进的调度功能至关重要,这样你们就可以高效地将计算资源民主化,让他们能够更快地、更高效地构建模型,并获得投资回报率。
没错,确实是这样。Keith,几周前我们聊天时,你曾问起我们是如何解决数据引力问题的,实际上,我们是分几个步骤来解决的。对,DataSpace让每个人都清楚哪些数据是可用的,但就像你提到的,数据是有重量的,数据需要移动,而且不能瞬间完成,没有大量的带宽是不可能实现的。
通过与Run:ai的合作,我们现在能够实现的是,我们有了GPU的可用性和调度功能,它知道何时将工作负载放置到合适的环境中,并与VAST、VAST Data平台集成,它知道如何获取数据。所以,现在你可以在工作开始前就将正确的数据发送到正确的位置。结果是,你能通过正确调度工作负载来看到GPU利用率的提升。我这里说的“正确”是指有一个理解业务需求的层次,知道如果推理工作负载激增,那么这些工作负载可以抢占一些可能正用于模型训练的资源,因为模型训练可以推迟到明天,而我必须立刻满足更多的模型服务需求,因为我有紧迫的用户需求。所以,这实际上是我们如何将所有的要素整合在一起,无论是技术能力还是操作能力,都需要确保客户能够最有效地利用这些数据平台的能力。
观众:我特别想了解一下,当两个与推理相关的应用程序同时需要有限资源时,会发生什么情况?以及如何确定这些应用程序的优先级?另外,从数据移动的角度来看,如何在必须移动数据的时间内,与调度实际工作负载进行协调?
实际上,在GTC发布时,我们会发布一套与Run:ai合作的蓝图,一部分针对企业用户,一部分针对服务商。我们不会夸大其词说已经解决了所有问题,但这些蓝图确实为构建这些能力提供了一个很好的基础。那么,现在有哪些服务集成呢?我需要与哪些其他平台集成,以便Run:ai能够做出正确的决策?我不知道你是不是有什么想法想分享一下。
我来补充一下。这也是我们经常听到客户提出的问题,特别是随着不同数据科学团队在不同模型和应用程序上的工作越来越多,另一个企业面临的重大问题是,它似乎失去了对AI工作情况的可见性。如何从AI角度整合基础架构,并应用正确的策略,确保那些进行高优先级项目的人在需要时能够获得计算资源,而其他人可能只是在做一些不那么紧急的事情?因此,与VAST合作,我们为客户提供了一种蓝图,让他们可以在我们的控制平面内应用策略,以便在需要时获得计算资源,并优先处理不同类型的工作,确保在关键时刻能够获得所需的计算资源。
观众:我大约三年前曾与乔治亚理工学院的人工智能系主任交流过,他是最早获得H100的研究人员之一,他遇到了一个很实际的问题:“我有这么多研究人员,如何在这个非常宝贵而又稀缺的超级计算资源上合理划分和优先处理工作负载?”
这确实是一个棘手的问题,也是我们经常遇到的应用场景。这涉及到资源争用、数据科学家数量和计算能力的问题,随着越来越多人从事AI工作负载的工作,问题变得愈发突出。我们与VAST合作不仅仅是从计算机的角度,还要从数据的角度。毕竟,最终你需要数据来构建和训练这些模型,然后才能用它们进行推理。
观众:我想进一步探讨Keith的问题,并重申他之前提到的观点,但将其提升至组织成熟度的新高度。很高兴能够继续参与后续的讨论。
我认为这也映射了当前市场上的真实情况,这有点回归到我们之前讨论的蓝图问题。我看到很多客户都在问:“我该如何启动这个过程呢?因为我这里有很多不同团队在进行各种领域的AI计算,有的在云端运行,有的则在本地进行。你们能告诉组织如何开始吗?”
这是一个很有深度的问题。我观察到,已经有不少组织开始使用我们的平台了。同时,我认为我们还有很多工作可以做,因为确实存在一些摩擦。
我认为每个人经历混合云的旅程是一件积极的事情,因为当人们开始独立操作,这个精灵已经从灯里逃出来了。当你试图证明混合云策略或云门户能够统领所有资源时,证明投资回报率变得异常困难,你几乎在打乱每个人的节奏。如今,我们已经有了平台工程的发展,内部开发人员门户的概念也逐渐普及。我们现在有能力帮助组织建立这样的内部开发人员门户,即使他们使用的所有服务都来自外部,或者他们可能没有任何GPU资产,我们也要帮助他们更好地迎接AI时代的到来。因此,我非常期待能继续深入讨论这个话题。
接下来,我们对今天的讨论进行总结。
我也认为,在AI准备这个主题上,人们存在一个误区,认为只要堆砌一堆GPU就能轻松赢得AI竞赛。但我们都清楚,数据才是AI的核心驱动力。而且,不仅仅是数据,高质量的数据才真正至关重要。我认为,无论组织是否准备好进行AI科学研究,他们都应该踏上一段旅程,使他们的数据为AI做好准备,无论他们是否选择这条道路。
总结一下,就是这三张幻灯片所展示的:我们不再仅仅是一个存储公司。我们终于开始向世界展示我们的全面能力,这就是我们的愿景。
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)