5篇VAST Data的报告:思考AI基础设施的新方式
【ANDY】公司创始人的认知水平和洞察力是公司发展潜力的第一要素,然后是经营能力。
VAST 揭示AI数据平台愿景及新数据库 VAST Data 瞄准分析和人工智能 VAST 重返舞台,聚焦数据与人工智能 VAST Data 刻意模糊存储与数据库之间的界限 分析师圆桌论坛 - 压缩数据堆栈复杂性
1.《VAST 揭示AI数据平台愿景及新数据库》
Source: Chris Mellor, VAST reveals AI data platform vision and new database, August 1, 2023
VAST Data宣布新的AI数据库软件,作为即将推出的超级数据平台的一部分,揭示了数据存储和数据库本身如何融合为一个整体平台。
该数据平台套件被比作曾经的超级计算公司Thinking Machines的概念,基于其NAS DataStore、VASTOS存储软件和经过认证的单层QLC闪存硬件基础与数据目录软件。
该平台最终将由现有的硬件、操作系统和数据目录组成。VAST目前正在添加数据库部分,并开发DataEngine部分 —— 最终的计算层。这个“存储-数据库混合”平台只有在明年DataEngine软件组件发布时才完整。
VAST的首席执行官兼联合创始人Renen Hallak表示:“我们从第一天开始就一直在朝着这一时刻努力,我们非常兴奋地推出了世界上第一个从头开始为下一代AI驱动的发现构建的数据平台。”
VAST DataBase是一个综合性的事务性和分析性数据库,具有可扩展的ACID事务分布式设计,采用了适用于闪存的百亿级列式数据结构。VAST表示,它的架构能够实现快速数据捕获,并集成了标准数据库、数据仓库和数据湖的特性。
该公司正在通过将应用程序触发器和基于Python的函数原生地添加到VAST数据平台中来开发VAST DataEngine。其目的是将其打造成一个全局功能执行引擎。
这个DataEngine将在VAST DataStore上运行,实时处理丰富内容、物联网数据和文本流。该软件将通过关联VAST存储群集的所有元数据、访问群集的全局位置以及包括存档数据在内的方式做出决策。
VAST声称,一组全局联邦机器将在全局范围内计算一组全局数据,以发现最大的洞察并实现最大的基础设施效率。将有一个全局命名空间,一个称为“DataSpace”的地方,“允许每个位置存储、检索和处理来自任何位置的数据,并具有高性能。”
这意味着,分布式的VAST DataStore群集将进行计算,而不再是单一的数据中心。
DataEngine软件在DataSpace内运行,创建了一个计算资源(CPU、GPU和DPU)的网状结构,可以将数据移动到计算(当计算引力更大时)或将计算移动到数据(当数据引力更大时)。
正如我们的姊妹刊物The Next Platform所指出的,AI工作负载需要大量数据来构建模型,需要大量计算资源来对新数据进行推断,还需要大量的性能。而“所有这些都对存储系统施加了巨大的压力,以提供信息。” VAST Data表示,其Universal Storage是NFS的一种非集成共享实现,其底层具有非常精细的准对象存储,可以处理这些请求。
VAST表示,其DataStore将通过将可查询的语义层嵌入到数据本身中来理解自然数据。它将在实时中不断地递归地对数据进行计算,并随着每次互动而演变。
Hallak说:“将从自然数据中创建和编目理解的能力封装到全局范围内,我们正在整合整个IT基础设施类别,以提供一个能够递归计算的思考机器,以推动以前难以想象的新发现。通过VAST数据平台,我们正在使AI的数据基础设施民主化,重新构想一个以不断加速的速度进行发现的世界。”
Hallak认为,未来的AI系统可能会在从数据中综合和学习方面比今天的大型语言模型更进一步。这将需要一个平台,可以摄取“自然数据的整个数据谱 - 以视频、图像、自由文本、仪器数据形式的结构化和非结构化数据类型”,这将从世界各地产生,并使用实时推断和不断递归的AI模型训练进行处理。这就是函数和应用程序触发器的作用所在,因为VAST系统生成新数据,这些数据用于触发新的处理程序。
该公司的DataBase产品现已上市,一些客户已在生产中使用。DataEngine将在2024年初推出。
2.《VAST Data 瞄准分析和人工智能》
Source: Adam Armstrong, Vast Data sets sights on analytics, AI, 08 Aug 2023
随着新产品的推出,VAST Data正在将存储和数据管理融合在一起,缩小了两者之间的差距,而AI继续迅速扩展市场。
VAST Data的Universal Storage是一种全闪存、共享一切、可扩展的文件系统,已经成为VAST Data Platform,为其现有的存储产品增加了数据库管理和分析能力。这些新功能不会改变VAST的纯存储产品的价格,对于将VAST作为存储厂商的客户来说,不一定需要使用这些新功能。这一举措是在AI需求激增的时候进行的,这已经引发了对存储及其在未来角色的重新思考。
IDC的分析师Dave Pearson表示:“目前一些最有趣和增长最快的工作负载主要集中在高级分析领域,尤其是围绕AI、通用AI、机器学习和高性能计算。”
尽管它们可能最有意思,但它们并不是最大的容量构成,也不是存储的大部分场景,Pearson表示。
超越存储,应对AI
麻省理工学院的物理学教授和AI研究员Max Tegmark在VAST最近的Build Beyond发布会上表示:历史上,我们利用人类智慧推动了社会发展,而AI将放大这一点,可能更快地带来解决方案。寻找处理数据的新方法是释放AI潜力的关键。
“唯一重要的是信息处理的结构,其它一切都不重要。”Tegmark说。
最初,VAST为文件和对象提供了一个元素存储和一个增加了数据保护和加密等功能的写缓冲区,以提高QLC的效率。
VAST的联合创始人兼首席执行官Renen Hallak在Build Beyond展示中表示:通过VAST Data Platform,添加了一个表格和标准查询协议。这些新的功能允许在文件和对象元数据上运行SQL查询。
VAST的联合创始人兼首席营销官Jeff Denworth表示:这种能力使得非结构化数据可以更快地进行分析和处理,考虑到非结构化数据是现代深度学习的所有形式的基础,这对于AI工作负载至关重要。
DataStore是该厂商的高性能存储,具备NAS协议、用于并行文件处理的NAS协议、高性能计算和对新兴AI工作负载的支持。
AI的输出具有变革性,而存储继续在中心基础设施角色中发挥作用,Denworth表示。他补充道,尽管VAST Data被归类为存储厂商,但其关注点一直在于如何最佳地存储数据以服务于应用程序。存储在AWS、Azure、Google Cloud Platform和Oracle上的数据对公司的核心业务至关重要,但是没有一个云厂商主要被视为存储厂商。
“存储是系统的核心,但系统不仅仅是存储,”Denworth说道。
VAST扩张,存储市场保持稳定
Denworth表示,从Universal Storage过渡到VAST Data Platform是对VAST已经提供的技术的扩展,而不是转变。
“扩张是在业务上添加层的最简单方式,这也适用于产品[比如这个] —— 它是能力和客户群的扩展,”Denworth说道。
根据NAND Research的分析师兼创始合伙人Steve McDowell的说法,新的数据平台是VAST业务的自然延伸。VAST正在从大型、高速存储转向与分析和AI相邻的快速存储场景。
分析技术栈很复杂,将数据移动到分析层更近可以提供更好的性能,McDowell说。
“通过压缩堆栈,这简化了分析,”他说道。
作为一个整体,存储市场不会转向提供合并的数据管理和存储服务,但其它公司将会效仿VAST,提供旨在简化分析的产品,McDowell表示。他认为,跟随VAST的可能主要是文件系统厂商,如Weka、Panasas或IBM。
VAST Data Platform的发布是该厂商试图适应市场走向的尝试,IDC的Pearson表示。IT在存储大量非结构化数据和使用关系数据库方面表现出色;将这两者结合起来将是下一步。
Pearson 表示:“在进行高级分析时,我们目前正在寻求将这两者叠加在一起,同时避免两者的常见限制。”
融合新旧,保持传统
在Denworth看来,分析和存储的结合可能会改变数据的存储方式。随着AI变得更加普及,公司将会发现他们通常会归档的数据有新的需求。例如,随着越来越多的数据暴露给学习模型,深度学习将得到改善。
“我认为经典的存储范式不一定适用于不断变化的应用范式,”Denworth说道。
Pearson表示,公司的存储策略仍然取决于其使用场景。仍然有许多例子是存储规模、密度和归档是主要驱动因素。数据管理是全局数据存储的重要组成部分,但并不会挤压其它存储工作负载。在过去的20年里,数据增长一直是存储的主要驱动因素,而数据管理不会是最终目标。
“数据增长是使所有存储厂商受益的上涨潮水,”他说。“但是找到在存储中提供真正商业价值的领域,将区分厂商并增加收入。”
一个领域是生成式AI,在这个领域,存储厂商正在考虑如何“连接它们的车厢”,McDowell说道。VAST已经在性能和文件系统方面取得了一席之地。其它厂商将专注于将数据交付给AI。VAST Data Platform为元数据编目,以便快速检索和传递给分析。虽然这是一个有趣的产品,但它只是一个小众市场,他说道。存储和分析结合的市场在目前只有那么大。
一个领域是生成式AI,存储供应商正在探索如何与其紧密结合,McDowell表示。在这方面,VAST已经通过其性能和文件系统实现了紧密关联。其它供应商将专注于为AI提供数据。VAST数据平台可以对元数据进行目录化,以便快速检索并将其交付给分析。尽管这是一个有趣的产品,但这只是一个小众领域,他指出。目前,存储和分析的组合市场规模有限。
3.《VAST 重返舞台,聚焦数据与人工智能》
Source: Stephen Foskett, VAST is Back with Emphasis on Data and AI, August 1, 2023
VAST Data是企业存储领域的领先创新者之一,凭借其可扩展的存储平台赢得了客户和伙伴关系。但是,该公司正在强调他们名称中的“数据”部分,推出了一个旨在支持数据、分析和AI的新平台。VAST DataPlatform旨在合并存储和数据,以支持AI辅助计算。让我们来看看这个新的VAST DataPlatform的核心特点以及它可能对数据和AI领域的影响。
AI专注数据平台的需求
存储和数据解决方案之间的历史分割继续影响数据分析的实际影响。即使是最先进的存储阵列在很大程度上也忽略了它们所保存的内容,大多数使用的协议与分析引擎不兼容。同样,数据平台(如Snowflake和Databricks)本质上并不是为支持AI的需求而设计的。VAST Data意识到了现有平台的局限性,并着手创建一个数据计算解决方案,以满足深度学习和AI驱动应用的独特需求。其目标是开发一个有效支持各种数据类型、填补事务性和分析性处理之间差距、并实现非结构化和结构化数据的无缝集成的平台。
这并不是存储公司第一次尝试推出面向数据的产品。事实上,我们已经看到许多公司尝试为数据和分析场景以及法律、医疗、媒体和娱乐等工业领域市场推出存储解决方案。但是,许多这些产品实际上并不是为这个市场设计的,它们不支持所需的API和协议,并且没有得到落地使用。过去的努力中,营销也是一个主要问题,公司们仍然在“谈论存储”,而不是使用数据或应用客户能理解的术语和概念。我们与VAST Data的初步交流是积极的,该公司似乎理解了进入这个新市场面临的挑战,并准备投入资金使其成为现实。
VAST DataPlatform 的组成部分
VAST DataPlatform包括几个核心组件,创建了一个统一的、可扩展的、以AI为重点的数据基础设施:
VAST DataStore:VAST DataStore是一个为非结构化数据设计的可扩展存储架构。与传统存储系统不同,它消除了存储分层,并提供企业级文件存储和对象存储接口。这个特性可以高效地管理大量的非结构化数据,并为AI模型训练提供了强大的基础。
VAST DataBase:新的VAST DataBase引入了一个本地化集成到系统中的语义数据库层。通过将数据库、数据仓库和数据湖的特性结合成一个简单、分布式、统一的数据库管理系统,VAST试图解决实时分析和实时数据捕获与目录化之间的分隔问题。
VAST DataEngine:VAST DataEngine充当全局函数执行引擎,支持SQL和Python等流行的编程语言。它促进了快速的数据捕获和大规模的快速查询,简化了AI流程,并增强了AI和ML模型的管理。
VAST DataSpace:VAST DataSpace提供了一个全局命名空间,允许在各种环境中无缝存储、检索和处理数据,包括本地化数据中心、边缘环境以及AWS、Microsoft Azure和Google Cloud等领先的公共云平台。
构建以AI为重点的数据平台的一个基本挑战是开发支持事务性和分析处理的数据库。VAST Data采用了独特的策略来应对这一挑战。交易首先以行形式在写缓冲区中执行,然后在闪存存储中转换为高效的列式格式。这种列式格式的大小仅为32KB,而传统的Parquet格式为128MB,这增强了数据处理效率,实现了实时分析。
Stephen 观点
VAST Data Platform是一个非常有趣的新产品,模糊了存储和数据之间的界限。通过统一存储、数据库和虚拟化计算引擎服务,支持各种数据类型,VAST Data创造了一种对于开发数据和AI应用的公司应该很有吸引力的平台。像这样的解决方案的挑战一直在于跨越这个分界线的沟通,从产品开发到销售,并吸引开发人员和数据科学家使用新工具。加强针对这些社区定制的营销内容的关注将是一个迹象,表明该公司有望在其它公司失败的领域取得成功。
4.《VAST Data 刻意模糊存储与数据库之间的界限》
Source: Timothy Prickett Morgan, VAST DATA INTENTIONALLY BLURS THE LINE BETWEEN STORAGE AND DATABASE, August 1, 2023
数据库是一种复杂的存储系统,或者存储是数据库的一种简化。在现实世界中,数据库和存储是分开的,两者之间存在着合作的连续性,毫无疑问。关系型数据库无疑在与存储系统的创建中起到了同样重要的作用 —— 与文件服务器和对象服务器的工作负载一样 - 并将它们引向了非常不同的方向。
如果你不必做出这样的选择呢?如果你的存储是真正的、纯正的、真实的数据库呢?如果VAST Data,这家制造全闪存存储集群的新兴公司,其NAS的表现比更复杂(也不太有用)的NoSQL或对象存储更好,从创立之初就考虑到这一点,创建一种新类型的存储来驱动一种新类型的嵌入式数据库,这一直是计划吗?如果AI一直是计划中的,而HPC模拟和建模也可以随之而来呢?
好吧,正如现在称之为存储-数据库混合体的VAST Data Platform一直是计划中的。而且,该计划一直不仅仅局限于Universal Storage,这是由联合创始人Renen Hallak(公司首席执行官)、Shachar Fienblit(研发副总裁)和Jeff Denworth(产品副总裁兼首席营销官)于2016年初构思的,并于2019年2月推出的。这是一种独立的下一代平台,这意味着它还必须在计算方面做出精心的设计。所以,最后,它可能只会被称为VAST平台?但是让我们不要超越自己。
但另一方面,为什么不呢?VAST Data的联合创始人早在很久以前就有了这样的想法。
“回到2015年,我的推介幻灯片中,整个幻灯片中只有一张关于存储的幻灯片,一共可能有十五张幻灯片,”Hallak告诉The Next Platform。“其中一张包含了存储,其它幻灯片中还有需要构建的其它部分,以便这场AI革命真正以应该发生的方式发生。八年前,AI是YouTube视频中被识别为猫的猫。它与今天的情况相去甚远。但很清楚的是,如果在未来的二十年里,IT行业要发生重大变化,那就是AI,我们想要成为其中的一部分。我们想要引领它。我们想要让其他人参与这场看起来可能局限于一些非常大的组织的革命。而我们不喜欢这样。我们想要使这项技术大众化。”
这意味着不仅仅是创建一个下一代、高度可扩展的基于闪存的NFS文件系统和对象存储系统。这意味着要在堆栈中的更高层次上进行思考,将数据存储和数据库的概念与日益支撑AI应用的自然世界中的大型数据集相结合。
数据不再局限于数据库中行或列中的有限数量的文本和数字,而是高分辨率数据 —— 视频、声音、基因组等 —— 这些数据会使普通的关系型数据库崩溃。AI工作负载需要大量的数据来构建模型,并且需要大量的性能来驱动模型的训练,有时还需要大量的计算来对新数据进行推断,因为它进入模型。所有这些都对存储系统产生了巨大的压力,以提供信息 —— 而VAST Data的Universal Storage正好可以应对这种压力,它是一种解耦合的共享一切的NFS实现,其底层具有非常精细的准对象存储。
“数据比计算更具引力,” Hallack补充道。“数据更大,更难以移动。所以为了在AI领域发挥作用,我们不能仅仅局限于数据部分。我们必须了解数据是如何组织的并且对此有洞察。这涉及到了权衡的打破,而且不仅仅是一个存储问题。如果你去掉存储这个词,用数据库这个词替代,同样类型的挑战也适用。成本、性能、规模、弹性、易用性 —— 这些不是存储术语,它们是非常通用的计算机科学术语。”
VAST Data Platform的第一个线索出现在今年2月引入的VAST Catalog中,基本上是在Universal Storage的NFS文件系统和对象存储基础上添加了SQL前端和语义系统。这是第一个暗示,Universal Storage下面是一个支持SQL查询的新引擎。现在,VAST Data正在完全揭开面纱,揭示数据存储和数据库是如何融合成一个单一平台的,以及它最终将具备计算层。
正因为如此,我们将像对待服务器计算引擎发布一样对待VAST Data Platform的公告,首先进行概述(就是你正在阅读的这篇文章),然后在我们深入研究架构之后进行深入探讨。从技术上讲,我们正在美国南卡罗来纳州希尔顿海德岛度假,有孩子们在海滩上玩耍。...
确实是一个完整堆栈的问题
正如Nvidia的联合创始人Jensen Huang喜欢说的那样,AI是一个完整的堆栈,而VAST Data,就像Nvidia一样,从一开始就考虑了整个堆栈。据我们所知,VAST Data对于制造计算、存储或网络硬件没有兴趣,完全愿意将这些交给其它公司。因为,坦白地说,它有更重要的事情要做。
就像将等级世界的存储与本地化数据库混合在一起,摆脱像AWS中这样的AI工作流程:
但它不仅仅是这样。它是关于理解大量的数据。
“GPT-3是在大约45TB的数据上训练的,我认为在更大的背景下这不是很多数据,” Denworth告诉The Next Platform。“我们现在正在与一系列正在构建基础模型的人合作 —— 像Inflection AI这样的组织 —— 我们开始看到多EB的单一数据存储的计划。在大约八周的时间里,我见过的最大的业务正在发生。问题是:为什么?”
答案是,这一切都太难了,太昂贵了,必须有一种方法来使它变得更容易、更快、更便宜。更像这样:
据我们所知,第一次尝试创建这样一个数据平台是很久以前了 —— 至少相对于计算机行业的时间框架而言 —— 并且在一定程度上在其自身的背景和限制内起作用。我们知道的第二个例子是彻头彻尾的失败,第三个例子性能如此糟糕,以至于已经没有人再谈论它了。
早在1978年,IBM创建关系型数据库时,首先并没有将其商业化,而是在当时的可敬的System/370主机上,而是在一个很少使用但在体系结构上很重要的机器System/38上。这台机器的亮点在于操作系统中嵌入了一个关系型数据库,并且可以像平面文件存储一样访问它,但它具有所有这些SQL扩展,允许用户以实际上无法在平面文件存储中执行的方式查询数据。实际上,关系型数据库就是文件系统,没有一种存储数据的方式是不能查询的。这种方法的唯一问题是它需要大量的计算,而且按MIPS计算,System/38加载了一个关系型数据库堆栈,比当时的System/370主机贵2到3倍。直到IBM于1988年宣布AS/400,计算成本下降到足够实际的程度,但它仍然是一个缓慢的文件系统。到了20世纪90年代末,IBM将OS/2并行文件系统与OS/400操作系统融合在一起,以便拥有一个适当的互联网文件系统,数据库只能用作数据库。
IBM确实有正确的想法,但它领先于当时的计算预算。就像在20世纪80年代创建的AI算法基本上可以工作,但它们需要更多数量级的数据和更多数量级的计算来驱动神经网络实际工作一样。
微软在20世纪90年代“Cairo” Windows和Windows Server内核中具有“Object File System”的正确想法,该想法在21世纪初的“Longhorn” Windows和Windows Server版本中以WinFS的形式重生。微软也明白,我们都需要在同一个数据库/数据存储中存储结构化、半结构化和非结构化数据,并允许使用SQL进行查询。
最后,还有Hadoop,Google MapReduce数据查询算法和大规模分布式非结构化数据存储的克隆。最终,Hadoop上添加了各种SQL覆盖层,包括Hive、HBase、Impala和Hawq,虽然这些覆盖层起作用,但性能非常糟糕。与Hadoop相比,关系数据库的扩展性远远不及,而Hadoop在查询数据方面的速度比关系数据库慢了几个数量级。
这将我们带到了今天和VAST Data Platform。VAST Data团队正在尝试另一个理念,并且他们拥有独特的存储架构,这可能会将这个古老的愿景变为现实。
我们期待着深入研究并弄清楚如何以及为什么。
5.《分析师圆桌论坛 - 压缩数据堆栈复杂性》
Source: https://video.cube365.net/c/946714
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解