查看原文
其他

VAST+NVIDIA:面向超大规模AI的企业级数据管理

常华Andy Andy730
2025-01-01
Jeff Denworth

VAST Data联合创始人

题目:Enterprise Data Management for Exascale AI

日期:2024年3月

当我们探讨生成式AI所处的阶段时,很明显的一点是,随着生成式AI日益受到公众关注,模型开发初期的一些实践做法将不得不做出改变。一个典型的例子是,去年春天,Sam Altman在国会上的演讲,引发了广泛讨论,这些讨论涉及该技术的潜力,以及政府监管如何真正有助于控制市场,并帮助消费者和用户建立并增强对生成式AI的信任。随着模型功能日益强大,对其应用的控制也愈发重要。

模型的功能日益强大的同时,越来越多的控制措施也在逐步实施。在审视当前模型开发中的数据管理重点时,我们发现有几个维度是早期从事AI训练和AI推理的研究团队并未特别重视的。

第一个是“网络安全韧性”(Cyber Resilience)。考虑到勒索病毒的影响,我们不时地看到各大语言模型构建者发出的通告,内容是用于训练模型的数据集与现代模型的内在架构同样强大。各个团队花费了大量时间标记、筛选和调优用于AI训练的最佳数据集。这些数据集成为模型构建者和模型调整者在训练和完善AI模型时所使用的核心资源之一。但一旦这些资源受到网络犯罪活动的攻击,从数据保护的角度来看,就会成为一个严重的薄弱环节。我们预测,2024年,网络安全韧性将成为企业级数据管理平台的关键点。

其次是“数据溯源”(Data Provenance),即能够追溯数据的来源和历史。随着其它类型的攻击手段不断出现,围绕数据篡改和模型篡改的攻击变得日益重要。显然,这是我们所有人都希望避免的。

如果将这个讨论推向最终的结果,我们会发现,随着这些模型越来越受信任,它们也将受到越来越严格的监管。届时,监管机构希望能够几乎即时地重现模型(Model Reproducibility)。这一概念类似于汽车制造商必须回溯汽车的早期CAD设计,也同样适用于AI模型。监管机构不仅要检查开发这些模型的代码,还要检查与AI训练相关的数据集,这两者同等重要。随着他们开始审查所构建的内容,这些都将是监管机构希望重现的。当我们迈入2024年时,版本控制将成为一项关键的任务。

我们是一家专注于简化数据管理堆栈的公司,为客户提供了前所未有的数据存储和处理方式。这一切始于2016年,也就是AI和深度学习时代的初期。我们喜欢将其视为一种AI原生架构,它起源于存储,但如今已远远超越了存储的范畴。

我们的产品基本上是一个集成系统,它涵盖了“原始数据”(raw data)和训练数据的存储,同时还包含了用于结构化数据的数据库基础设施。

我们发现,用于训练的原始数据与用于推理的原始数据之间存在着密切的联系,同时,由此产生的学习成果需要高性能的事务和分析数据库基础设施来支持其展现。这就是我们使用VAST DataBase构建的内容。这一内容与我们系统的另一个重要组件相结合,共同构成了我们所说的VAST Data Platform。而该平台的核心,则是VAST DataEngine。这个引擎的核心功能是将原始数据进行提炼,转化为可以通过触发器和系统内部函数进行查询和理解的数据形式,从而支持AI推理应用和分析应用等工具的使用。这一切的操作均可在全局范围内进行。

VAST DataSpace则代表了我们在跨越多个地理区域、不同云平台和本地数据中心之间的无缝连接能力,以及这些连接中所包含的所有内容。简而言之,这就是VAST Data Platform的核心理念。

我们的战略涉及多个方面。战略的首要目标是真正释放数据的访问能力。在反思分布式系统架构时,我们意识到,对于AI和深度学习领域而言,“规模”是一个关键因素。Google在20年前通过引入Google File System,为分布式系统的构建设定了标准,为数千种技术的诞生和数千亿美元基础设施的部署奠定了基础。然而,Google当时的发明是基于网络速度远不及底层存储设备速度的背景。因此,将计算带到数据附近成为了一种高效的做法。

当时间推进到2016年,也就是我们开始VAST项目的那一年,我们发现了构建全新分布式系统的机会。我们希望能够重新构想这一领域,并克服Google在奠定这一变革性概念时所做的20年妥协所带来的限制。我们称之为DASE,即Disaggregated And Shared Everything(分离式共享一切)。

我们的系统具有显著的优势:系统中没有东西向流量,读取路径中的任何CPU之间也没有通信。这体现了有史以来最真实的并行存储架构。因此,我们构建了一个大规模可扩展的系统。现在的集群拥有数十万个核心运行我们的软件,并依托EB级数据为它们提供动力。每个CPU都是集群中提升性能的线性单元。这也是我们为何被用于一些世界上最大的AI基础设施的原因。

深入解析这种新型分布式系统架构的各个组件。在架构的顶层,是无状态容器。这些机器的所有功能逻辑都集成在标准的Linux镜像中,能够灵活地部署在CPU、DPU以及未来的GPU上。想象一下,成百上千甚至数万台这样的机器,它们不仅能为应用程序提供数据、文件、对象、表等多种功能,还能够以VAST DataEngine的形式运行系统逻辑。

这些机器是无状态的,也就是说它们内部不存储任何数据。它们不存储元数据、缓存或其它任何内部数据。它们仅仅是执行计算逻辑的无状态容器。这些容器都通过名为NVMe over Fabrics的下一代存储协议进行连接,连接至一组成本极低的NVMe SSD,这些SSD存储于服务器或JBOF中。这种分布式集群架构实现了计算与存储的解耦,并成功应用于数据中心规模。NVMe over Fabrics的优势在于,它可以在标准以太网或InfiniBand网络上运行。这样就几乎实现了一个可扩展至数据中心规模的“计算背板”(computational backplane)。

我们构建的机器的第一个应用是提供文件和对象服务。这一切都基于一个彻底改变了状态管理方式的架构。另一方面,SSD以极高的密度存储在存储服务器或JBOF中。这些SSD组合在一起,形成了一个全局数据卷。与之前提到的Google式架构不同,这里没有分区或其它固有的概念。NVMe over Fabrics的优势在于,远程容器访问远程SSD的时间几乎等同于通过主板访问的时间。

我们的第二项工作是构建新的数据结构,这些数据结构直接存储在SSD中,使得所有容器可以直接与存储层通信,而无需相互协调。由于无需协调,我们能够构建出以前无法实现的大规模且线性可扩展的系统。我们称这个概念为DASE。在初期阶段,我们的主要关注点是数据访问。

"数据访问"是一个非常有意思的术语。实际上,公司刚成立时,我们就对NVMe和NVMe闪存技术非常热衷。我们得出结论,如果能让应用程序实时访问数据,那么对于那些不想等待硬盘旋转延迟的训练和推理工作负载来说,这将是最佳的选择。

实际上,现在还有多少开发者在装有硬盘的电脑上工作?当他们构建基础设施时,可能甚至不会考虑这些概念。但当达到PB和EB的存储规模时,成本显然变得至关重要。我们在早期投入了大量时间,以协调成本高昂的闪存与客户原本为基于硬盘的基础设施所支付的费用之间的关系。我们的做法是,通过一系列创新降低了闪存的交付成本,使客户无需在性能和容量之间做出选择。他们可以通过一个统一的系统同时获得高性能和大容量。这涉及到重新思考数据在SSD上的布局方式,以便我们能够利用成本最低的闪存。通过这种方式,我们可以将客户购买的硬件利用率延长约10年,这是一个颠覆性的创新,特别是在考虑设备更新周期和本地部署场景时。

其次,我们重新定义了数据保护的概念,特别是关于RAID编码技术。我们引入了一个名为“本地可解码纠删码”(Locally-Decodable Erasure Codes)的新概念,该概念将数据保护的开销降低至仅3%。这大约是其它系统数据保护资源开销的十分之一,我们实现了全新的低成本水平。

此外,我们还引入了一种新型的数据缩减技术,该技术并非简单地等同于本地压缩或全局去重。我们建立了一种全局细粒度数据压缩方法,在客户群体中,实现了约4:1的数据缩减。对于模型构建者而言,我们观察到数据缩减率通常在2:1到3:1之间。这成为将闪存的交付成本降低到一定程度的关键创新,使客户无需因成本原因而在闪存和硬盘之间做出选择。我们不断听到客户对我们构建的这种名为“相似性”(Similarity)的新型数据缩减技术的讨论。该技术使他们能够处理甚至压缩和预压缩的数据,这一点正如能源部的引用所证实的那样。

我们的目标是向市场推出一种统一的数据管理方法,这种方法具备高度可扩展的AI训练基础设施性能。支持RDMA接口的AI存储,如GPUDirect Storage,同时支持企业级数据管理和存储访问协议,使客户可以通过NFS和SMB存储并访问数据。此外,我们还提供了一个高性能的S3实现,非常适合通用数据湖,以及高性能的数据库基础设施,使客户可以使用SQL实时访问数据。

从成本效益和规模的角度来看,我们构建了一个可扩展至归档级别的系统,并构建专门处理不同风格数据管理和访问需求的数据基础设施层。这始于统一所有协议,并进一步统一所有层级。最终,我们推出的是一个不需要客户在性能与企业级别易用性之间进行权衡的平台。通过使用VAST,客户可以同时享受到这两者的优势。

我们正在探讨许多创新技术。其中之一是我们现在实现了一个功能,即可以将我们的软件——系统的逻辑——直接部署到正在构建的GPU集群的主机上。该软件目前已支持NVIDIA的BlueField-3。它支持将所有数据服务推送到主机。如果利用我们引入的并行架构,那么这意味着没有一台主机需要与存储或数据库级别争夺数据访问权。它们都有自己专用的资源。这得益于分离式共享一切架构,但除此之外还有更多的好处。

我们所做的另一件事是消除了在集群交换机组的后端集群网络的必要性。与NVIDIA合作的好处在于,随着客户部署大规模基础设施,网络非常适合NVMe over Fabrics应用。集群网络同时也是数据网络,而且性能非常高。同时,我们无需为了文件和存储服务而部署x86系统,这不仅节省了大量成本,还节省了电力、空间和冷却成本。

这与我们过去一年半左右合作的存储扩展柜相结合,这些存储扩展柜也配备了NVIDIA BlueField DPU。我们认为,如果将所有东西都解耦,那么持有SSD并位于网络上的系统就不需要大量的计算能力,而NVIDIA的BlueField架构非常适合我们以非常低的规格尺寸和低的功耗占用提供对SSD的冗余访问。

所有这些都与完全基于NVIDIA基础设施的架构相结合,旨在实现与企业AI和超大规模AI相关的规模水平,同时带来了前所未有的数据管理能力。

我们将这些部署在何处呢?我们非常荣幸能与一些全球最大的AI云构建者合作。我们与CoreWeave的合作非常愉快。CoreWeave正在建设每个数据中心都拥有数万个GPU的设施。在今年夏天,他们选择了VAST作为支持所有这些大规模GPU计算机的数据平台。值得一提的是,CoreWeave一直是我们实施合作伙伴,在我们制定这种新的BlueField端到端架构时,他们给予了我们极大的支持,特别是当我们将这种下一代技术尽可能接近GPU时。

与BlueField方案相关的另一个要点是,从历史上看,将存储服务放入主机对于需要在多租户环境中强制执行零信任的云存储服务商来说显然不可行。但我们平台的优势在于,我们不会引入主机中的并行文件系统客户端。相反,我们仅使用NFS,而NFS在提供和读取文件时对底层存储基础设施一无所知。同样,S3和SQL客户端也具备这种无感知性。使用VAST Data Platform的各种服务时,客户端或应用程序访问无需了解存储层面发生的事情,这消除了当今最大的AI云服务商面临的主要安全威胁。

第一阶段的目标是激活并解锁对数据的访问。第二阶段是激活数据。我们注意到非结构化数据市场大约是结构化数据市场的20倍。在这个领域,有标准业务智能系统,如Snowflake和Databricks。我们意识到,AI的超级能力实质上允许企业利用所有原本不适合数据仓库的非结构化数据,包括视频、图像、音频、机器数据或任何其它数据类型。这种思维方式认为,深度学习最终将把市场机会扩大至今天的20倍。

我们专注于提供工具,让客户能够让数据流经我们的平台,并使用函数进行编程,利用数据目录工具来理解和分析数据,并最终通过事件触发器等方式将数据传送至一系列处理环节。这是一个统一的平台,其中的存储系统不仅是企业记录系统,还是一个可以将所有训练应用程序带入其中并实时处理数据的系统,而无需构建独立的额外训练基础设施。这是一个数据仓库,不仅适用于Spark SQL,还支持Apache Arrow,并且与Spark RAPIDS兼容。全面利用VAST DataSpace,该实时数据处理引擎,可以在边缘站点、主数据中心和云端部署。

谈到Spark,我们与NVIDIA在RAPIDS工具包上进行了深入的合作。这是一个高性能的数据科学工具包,旨在加速Spark应用程序。当思考VAST与NVIDIA在这种情境下的结合时,真正令人惊叹的协同效应便显现了。大家知道到NVIDIA一直在优化复杂查询,但这仅仅是数据科学领域中一个具有挑战性的领域。VAST真正致力于解决的是I/O问题,这是GPU无法直接应对的问题。而我们则更侧重于优化选择性和特定查询。

当将这两个方面结合成一个统一的整体时,就会产生奇妙的“化学反应”——用户将获得数据科学领域两个关键方面的优化体验。NVIDIA为加速计算带来了新技术,而VAST使用新数据结构来更快地加速计算过程。

我们构建了这种新的表格数据结构,旨在执行高度选择性的操作。当与Spark RAPIDS结合使用时,与经典的Spark和Apache Hive案例相比,我们发现性能优势高达约5倍,而后者是大多数人今天用于标准数据科学工具包的工具。我们与标准的Hadoop基础设施上的RAPIDS进行比较,性能提升高达约140%。当我们开始考虑更选择性的操作时,这些优势将更加明显。特别是在对比TPC-DS这样一个行业标准测试套件中的一些最具选择性的查询时,当我们将行业标准情况与RAPIDS和VAST DataBase相比较时,我们发现性能加速可以高达几十倍。

关于加速,我们今年分享了许多更激动人心的故事。当将这些元素综合起来时,构成了一个极其简洁的方案,我相信这将会深受客户们的喜爱。与过去不得不分别构建数据湖环境、管理Kubernetes卷等不同类型的基础设施、处理AI训练的并行文件系统、使用企业存储用于主目录,以及设计低成本的归档方案相比,现在只需一个系统,就能满足数据准备、容器化、高性能训练、企业级数据管理和归档的所有需求。这正是VAST和NVIDIA一直努力的方向。我们真心希望能简化企业AI的使用体验。

谈到2024年的一个重点,那就是数据治理。过去用于经典AI研究的工具在应用于企业应用程序时显示出诸多不足。我们充分考虑了零信任和企业安全性问题,并为端到端加密提供了企业级功能,允许客户携带和轮换自己的密钥,提供勒索病毒检测和避免数据泄露的工具,同时提供审计工具,与标准身份验证及云身份验证提供商紧密合作,还有多租户工具、租户隔离和安全操作系统等。这些都是我们关注的统一解决方案中的一部分。

当我们回顾今年的进展时,我们发现这些努力与VAST Data Platform的一些功能高度契合。网络安全性得到了保障,因为我们有异常检测功能,并能支持防篡改的快照,使其无法被恶意行为者破坏。数据血缘(Data lineage)得到了清晰记录,这得益于我们的数据篡改保护和监控(data tampering protection and monitoring)机制。在数据传输过程中,我们提供了加密保护。我们还具备高级别的蠕虫锁定保护机制,确保文件内容不被非法篡改。此外,我们还有审计跟踪功能,可以随时查看数据的所有操作。

关于模型可重现性,我们提供的是一个集成文件、对象、数据库基础设施和代码执行基础设施的系统,为模型可重现性提供极大的支持。这些基础设施都集成在统一的数据平台中。客户无需再为大型对象或其它数据集创建复杂的Python数据集。也许他们的代码存放在其它MLOps存储库中。但现在,客户可以将这些元素全部整合在一起,仅通过指向数据的指针即可实现。通过使用我们称之为VAST DataSet的工具,客户可以拥有达到EB规模的数据的物化视图,该工具创建了指向所需训练元素的指针。它还允许包含正在训练的代码,并创建这些数据的版本列表,从而避免了数据管理的复杂性。

因此,客户无需在训练之间复制数据,也无需处理复杂的列表管理问题。客户可以实时创建数据增强,并将其作为新代码添加到训练过程中。想象一下,一个可扩展至EB级别的数据集,这无疑是一个颠覆性的概念。而且,我之前提到的所有WORM保留功能都可以在此平台上得到应用。这为企业提供了在需要时复制任何训练运行的能力,因为所有内容都已通过VAST DataSet进行了保留和版本化管理。

这就是我们的核心理念。今年我们正在全球范围内推动企业应用生成式AI。这一举措起源于构建超大规模基础设施的需求,并涵盖了所有需要高度重视AI应用和AI治理的企业级数据保护措施。我们正在向世界展示,如今用户能够无需权衡各种因素,便可将AI应用于所有数据。


--【本文完】---

近期受欢迎的文章:

  1. GPU计算的工作原理

  2. Google下一代存储:为未来设计存储解决方案

  3. Ceph:存储界的Linux

  4. Dell+NVIDIA: AI工厂(5篇)

  5. 存储器大战:NAND闪存和DRAM



更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存