查看原文
其他

5篇VAST Data的报告:思考AI基础设施的新方式

常华Andy Andy730 2024-03-16

【ANDY】公司创始人的认知水平和洞察力是公司发展潜力的第一要素,然后是经营能力。

参考
  1. VAST Data Timeline 全景视图
  2. VAST Data 的未来:不是一家存储公司


目录
  1. VAST 揭示AI数据平台愿景及新数据库
  2. VAST Data 瞄准分析和人工智能
  3. VAST 重返舞台,聚焦数据与人工智能
  4. VAST Data 刻意模糊存储与数据库之间的界限
  5. 分析师圆桌论坛 - 压缩数据堆栈复杂性



1.《VAST 揭示AI数据平台愿景及新数据库》

Source: Chris Mellor, VAST reveals AI data platform vision and new database, August 1, 2023

VAST Data宣布新的AI数据库软件,作为即将推出的超级数据平台的一部分,揭示了数据存储和数据库本身如何融合为一个整体平台。

该数据平台套件被比作曾经的超级计算公司Thinking Machines的概念,基于其NAS DataStore、VASTOS存储软件和经过认证的单层QLC闪存硬件基础与数据目录软件。

该平台最终将由现有的硬件、操作系统和数据目录组成。VAST目前正在添加数据库部分,并开发DataEngine部分 —— 最终的计算层。这个“存储-数据库混合”平台只有在明年DataEngine软件组件发布时才完整。

VAST的首席执行官兼联合创始人Renen Hallak表示:“我们从第一天开始就一直在朝着这一时刻努力,我们非常兴奋地推出了世界上第一个从头开始为下一代AI驱动的发现构建的数据平台。”

VAST DataBase是一个综合性的事务性和分析性数据库,具有可扩展的ACID事务分布式设计,采用了适用于闪存的百亿级列式数据结构。VAST表示,它的架构能够实现快速数据捕获,并集成了标准数据库、数据仓库和数据湖的特性。

该公司正在通过将应用程序触发器和基于Python的函数原生地添加到VAST数据平台中来开发VAST DataEngine。其目的是将其打造成一个全局功能执行引擎。

这个DataEngine将在VAST DataStore上运行,实时处理丰富内容、物联网数据和文本流。该软件将通过关联VAST存储群集的所有元数据、访问群集的全局位置以及包括存档数据在内的方式做出决策。

VAST声称,一组全局联邦机器将在全局范围内计算一组全局数据,以发现最大的洞察并实现最大的基础设施效率。将有一个全局命名空间,一个称为“DataSpace”的地方,“允许每个位置存储、检索和处理来自任何位置的数据,并具有高性能。”

这意味着,分布式的VAST DataStore群集将进行计算,而不再是单一的数据中心。

DataEngine软件在DataSpace内运行,创建了一个计算资源(CPU、GPU和DPU)的网状结构,可以将数据移动到计算(当计算引力更大时)或将计算移动到数据(当数据引力更大时)。

正如我们的姊妹刊物The Next Platform所指出的,AI工作负载需要大量数据来构建模型,需要大量计算资源来对新数据进行推断,还需要大量的性能。而“所有这些都对存储系统施加了巨大的压力,以提供信息。” VAST Data表示,其Universal Storage是NFS的一种非集成共享实现,其底层具有非常精细的准对象存储,可以处理这些请求。

VAST表示,其DataStore将通过将可查询的语义层嵌入到数据本身中来理解自然数据。它将在实时中不断地递归地对数据进行计算,并随着每次互动而演变。

Hallak说:“将从自然数据中创建和编目理解的能力封装到全局范围内,我们正在整合整个IT基础设施类别,以提供一个能够递归计算的思考机器,以推动以前难以想象的新发现。通过VAST数据平台,我们正在使AI的数据基础设施民主化,重新构想一个以不断加速的速度进行发现的世界。”

Hallak认为,未来的AI系统可能会在从数据中综合和学习方面比今天的大型语言模型更进一步。这将需要一个平台,可以摄取“自然数据的整个数据谱 - 以视频、图像、自由文本、仪器数据形式的结构化和非结构化数据类型”,这将从世界各地产生,并使用实时推断和不断递归的AI模型训练进行处理。这就是函数和应用程序触发器的作用所在,因为VAST系统生成新数据,这些数据用于触发新的处理程序。

该公司的DataBase产品现已上市,一些客户已在生产中使用。DataEngine将在2024年初推出。

2.《VAST Data 瞄准分析和人工智能》

Source: Adam Armstrong, Vast Data sets sights on analytics, AI, 08 Aug 2023

随着新产品的推出,VAST Data正在将存储和数据管理融合在一起,缩小了两者之间的差距,而AI继续迅速扩展市场。

VAST Data的Universal Storage是一种全闪存、共享一切、可扩展的文件系统,已经成为VAST Data Platform,为其现有的存储产品增加了数据库管理和分析能力。这些新功能不会改变VAST的纯存储产品的价格,对于将VAST作为存储厂商的客户来说,不一定需要使用这些新功能。这一举措是在AI需求激增的时候进行的,这已经引发了对存储及其在未来角色的重新思考。

IDC的分析师Dave Pearson表示:“目前一些最有趣和增长最快的工作负载主要集中在高级分析领域,尤其是围绕AI、通用AI、机器学习和高性能计算。”

尽管它们可能最有意思,但它们并不是最大的容量构成,也不是存储的大部分场景,Pearson表示。

超越存储,应对AI

麻省理工学院的物理学教授和AI研究员Max Tegmark在VAST最近的Build Beyond发布会上表示:历史上,我们利用人类智慧推动了社会发展,而AI将放大这一点,可能更快地带来解决方案。寻找处理数据的新方法是释放AI潜力的关键。

“唯一重要的是信息处理的结构,其它一切都不重要。”Tegmark说。

最初,VAST为文件和对象提供了一个元素存储和一个增加了数据保护和加密等功能的写缓冲区,以提高QLC的效率。

VAST的联合创始人兼首席执行官Renen Hallak在Build Beyond展示中表示:通过VAST Data Platform,添加了一个表格和标准查询协议。这些新的功能允许在文件和对象元数据上运行SQL查询。

VAST的联合创始人兼首席营销官Jeff Denworth表示:这种能力使得非结构化数据可以更快地进行分析和处理,考虑到非结构化数据是现代深度学习的所有形式的基础,这对于AI工作负载至关重要。

DataStore是该厂商的高性能存储,具备NAS协议、用于并行文件处理的NAS协议、高性能计算和对新兴AI工作负载的支持。

AI的输出具有变革性,而存储继续在中心基础设施角色中发挥作用,Denworth表示。他补充道,尽管VAST Data被归类为存储厂商,但其关注点一直在于如何最佳地存储数据以服务于应用程序。存储在AWS、Azure、Google Cloud Platform和Oracle上的数据对公司的核心业务至关重要,但是没有一个云厂商主要被视为存储厂商。

“存储是系统的核心,但系统不仅仅是存储,”Denworth说道。

VAST扩张,存储市场保持稳定

Denworth表示,从Universal Storage过渡到VAST Data Platform是对VAST已经提供的技术的扩展,而不是转变。

“扩张是在业务上添加层的最简单方式,这也适用于产品[比如这个] —— 它是能力和客户群的扩展,”Denworth说道。

根据NAND Research的分析师兼创始合伙人Steve McDowell的说法,新的数据平台是VAST业务的自然延伸。VAST正在从大型、高速存储转向与分析和AI相邻的快速存储场景。

分析技术栈很复杂,将数据移动到分析层更近可以提供更好的性能,McDowell说。

“通过压缩堆栈,这简化了分析,”他说道。

作为一个整体,存储市场不会转向提供合并的数据管理和存储服务,但其它公司将会效仿VAST,提供旨在简化分析的产品,McDowell表示。他认为,跟随VAST的可能主要是文件系统厂商,如Weka、Panasas或IBM。

VAST Data Platform的发布是该厂商试图适应市场走向的尝试,IDC的Pearson表示。IT在存储大量非结构化数据和使用关系数据库方面表现出色;将这两者结合起来将是下一步。

Pearson 表示:“在进行高级分析时,我们目前正在寻求将这两者叠加在一起,同时避免两者的常见限制。”

融合新旧,保持传统

在Denworth看来,分析和存储的结合可能会改变数据的存储方式。随着AI变得更加普及,公司将会发现他们通常会归档的数据有新的需求。例如,随着越来越多的数据暴露给学习模型,深度学习将得到改善。

“我认为经典的存储范式不一定适用于不断变化的应用范式,”Denworth说道。

Pearson表示,公司的存储策略仍然取决于其使用场景。仍然有许多例子是存储规模、密度和归档是主要驱动因素。数据管理是全局数据存储的重要组成部分,但并不会挤压其它存储工作负载。在过去的20年里,数据增长一直是存储的主要驱动因素,而数据管理不会是最终目标。

“数据增长是使所有存储厂商受益的上涨潮水,”他说。“但是找到在存储中提供真正商业价值的领域,将区分厂商并增加收入。”

一个领域是生成式AI,在这个领域,存储厂商正在考虑如何“连接它们的车厢”,McDowell说道。VAST已经在性能和文件系统方面取得了一席之地。其它厂商将专注于将数据交付给AI。VAST Data Platform为元数据编目,以便快速检索和传递给分析。虽然这是一个有趣的产品,但它只是一个小众市场,他说道。存储和分析结合的市场在目前只有那么大。

一个领域是生成式AI,存储供应商正在探索如何与其紧密结合,McDowell表示。在这方面,VAST已经通过其性能和文件系统实现了紧密关联。其它供应商将专注于为AI提供数据。VAST数据平台可以对元数据进行目录化,以便快速检索并将其交付给分析。尽管这是一个有趣的产品,但这只是一个小众领域,他指出。目前,存储和分析的组合市场规模有限。

3.《VAST 重返舞台,聚焦数据与人工智能》

Source: Stephen Foskett, VAST is Back with Emphasis on Data and AI, August 1, 2023

VAST Data是企业存储领域的领先创新者之一,凭借其可扩展的存储平台赢得了客户和伙伴关系。但是,该公司正在强调他们名称中的“数据”部分,推出了一个旨在支持数据、分析和AI的新平台。VAST DataPlatform旨在合并存储和数据,以支持AI辅助计算。让我们来看看这个新的VAST DataPlatform的核心特点以及它可能对数据和AI领域的影响。

AI专注数据平台的需求

存储和数据解决方案之间的历史分割继续影响数据分析的实际影响。即使是最先进的存储阵列在很大程度上也忽略了它们所保存的内容,大多数使用的协议与分析引擎不兼容。同样,数据平台(如Snowflake和Databricks)本质上并不是为支持AI的需求而设计的。VAST Data意识到了现有平台的局限性,并着手创建一个数据计算解决方案,以满足深度学习和AI驱动应用的独特需求。其目标是开发一个有效支持各种数据类型、填补事务性和分析性处理之间差距、并实现非结构化和结构化数据的无缝集成的平台。

这并不是存储公司第一次尝试推出面向数据的产品。事实上,我们已经看到许多公司尝试为数据和分析场景以及法律、医疗、媒体和娱乐等工业领域市场推出存储解决方案。但是,许多这些产品实际上并不是为这个市场设计的,它们不支持所需的API和协议,并且没有得到落地使用。过去的努力中,营销也是一个主要问题,公司们仍然在“谈论存储”,而不是使用数据或应用客户能理解的术语和概念。我们与VAST Data的初步交流是积极的,该公司似乎理解了进入这个新市场面临的挑战,并准备投入资金使其成为现实。

VAST DataPlatform 的组成部分

VAST DataPlatform包括几个核心组件,创建了一个统一的、可扩展的、以AI为重点的数据基础设施:

  • VAST DataStore:VAST DataStore是一个为非结构化数据设计的可扩展存储架构。与传统存储系统不同,它消除了存储分层,并提供企业级文件存储和对象存储接口。这个特性可以高效地管理大量的非结构化数据,并为AI模型训练提供了强大的基础。

  • VAST DataBase:新的VAST DataBase引入了一个本地化集成到系统中的语义数据库层。通过将数据库、数据仓库和数据湖的特性结合成一个简单、分布式、统一的数据库管理系统,VAST试图解决实时分析和实时数据捕获与目录化之间的分隔问题。

  • VAST DataEngine:VAST DataEngine充当全局函数执行引擎,支持SQL和Python等流行的编程语言。它促进了快速的数据捕获和大规模的快速查询,简化了AI流程,并增强了AI和ML模型的管理。

  • VAST DataSpace:VAST DataSpace提供了一个全局命名空间,允许在各种环境中无缝存储、检索和处理数据,包括本地化数据中心、边缘环境以及AWS、Microsoft Azure和Google Cloud等领先的公共云平台。


构建以AI为重点的数据平台的一个基本挑战是开发支持事务性和分析处理的数据库。VAST Data采用了独特的策略来应对这一挑战。交易首先以行形式在写缓冲区中执行,然后在闪存存储中转换为高效的列式格式。这种列式格式的大小仅为32KB,而传统的Parquet格式为128MB,这增强了数据处理效率,实现了实时分析。

Stephen 观点

VAST Data Platform是一个非常有趣的新产品,模糊了存储和数据之间的界限。通过统一存储、数据库和虚拟化计算引擎服务,支持各种数据类型,VAST Data创造了一种对于开发数据和AI应用的公司应该很有吸引力的平台。像这样的解决方案的挑战一直在于跨越这个分界线的沟通,从产品开发到销售,并吸引开发人员和数据科学家使用新工具。加强针对这些社区定制的营销内容的关注将是一个迹象,表明该公司有望在其它公司失败的领域取得成功。

4.《VAST Data 刻意模糊存储与数据库之间的界限》

Source: Timothy Prickett Morgan, VAST DATA INTENTIONALLY BLURS THE LINE BETWEEN STORAGE AND DATABASE, August 1, 2023 

数据库是一种复杂的存储系统,或者存储是数据库的一种简化。在现实世界中,数据库和存储是分开的,两者之间存在着合作的连续性,毫无疑问。关系型数据库无疑在与存储系统的创建中起到了同样重要的作用 —— 与文件服务器和对象服务器的工作负载一样 - 并将它们引向了非常不同的方向。

如果你不必做出这样的选择呢?如果你的存储是真正的、纯正的、真实的数据库呢?如果VAST Data,这家制造全闪存存储集群的新兴公司,其NAS的表现比更复杂(也不太有用)的NoSQL或对象存储更好,从创立之初就考虑到这一点,创建一种新类型的存储来驱动一种新类型的嵌入式数据库,这一直是计划吗?如果AI一直是计划中的,而HPC模拟和建模也可以随之而来呢?

好吧,正如现在称之为存储-数据库混合体的VAST Data Platform一直是计划中的。而且,该计划一直不仅仅局限于Universal Storage,这是由联合创始人Renen Hallak(公司首席执行官)、Shachar Fienblit(研发副总裁)和Jeff Denworth(产品副总裁兼首席营销官)于2016年初构思的,并于2019年2月推出的。这是一种独立的下一代平台,这意味着它还必须在计算方面做出精心的设计。所以,最后,它可能只会被称为VAST平台?但是让我们不要超越自己。

但另一方面,为什么不呢?VAST Data的联合创始人早在很久以前就有了这样的想法。

“回到2015年,我的推介幻灯片中,整个幻灯片中只有一张关于存储的幻灯片,一共可能有十五张幻灯片,”Hallak告诉The Next Platform。“其中一张包含了存储,其它幻灯片中还有需要构建的其它部分,以便这场AI革命真正以应该发生的方式发生。八年前,AI是YouTube视频中被识别为猫的猫。它与今天的情况相去甚远。但很清楚的是,如果在未来的二十年里,IT行业要发生重大变化,那就是AI,我们想要成为其中的一部分。我们想要引领它。我们想要让其他人参与这场看起来可能局限于一些非常大的组织的革命。而我们不喜欢这样。我们想要使这项技术大众化。”

这意味着不仅仅是创建一个下一代、高度可扩展的基于闪存的NFS文件系统和对象存储系统。这意味着要在堆栈中的更高层次上进行思考,将数据存储和数据库的概念与日益支撑AI应用的自然世界中的大型数据集相结合。

数据不再局限于数据库中行或列中的有限数量的文本和数字,而是高分辨率数据 —— 视频、声音、基因组等 —— 这些数据会使普通的关系型数据库崩溃。AI工作负载需要大量的数据来构建模型,并且需要大量的性能来驱动模型的训练,有时还需要大量的计算来对新数据进行推断,因为它进入模型。所有这些都对存储系统产生了巨大的压力,以提供信息 —— 而VAST Data的Universal Storage正好可以应对这种压力,它是一种解耦合的共享一切的NFS实现,其底层具有非常精细的准对象存储。

“数据比计算更具引力,” Hallack补充道。“数据更大,更难以移动。所以为了在AI领域发挥作用,我们不能仅仅局限于数据部分。我们必须了解数据是如何组织的并且对此有洞察。这涉及到了权衡的打破,而且不仅仅是一个存储问题。如果你去掉存储这个词,用数据库这个词替代,同样类型的挑战也适用。成本、性能、规模、弹性、易用性 —— 这些不是存储术语,它们是非常通用的计算机科学术语。”

VAST Data Platform的第一个线索出现在今年2月引入的VAST Catalog中,基本上是在Universal Storage的NFS文件系统和对象存储基础上添加了SQL前端和语义系统。这是第一个暗示,Universal Storage下面是一个支持SQL查询的新引擎。现在,VAST Data正在完全揭开面纱,揭示数据存储和数据库是如何融合成一个单一平台的,以及它最终将具备计算层。

正因为如此,我们将像对待服务器计算引擎发布一样对待VAST Data Platform的公告,首先进行概述(就是你正在阅读的这篇文章),然后在我们深入研究架构之后进行深入探讨。从技术上讲,我们正在美国南卡罗来纳州希尔顿海德岛度假,有孩子们在海滩上玩耍。...

确实是一个完整堆栈的问题

正如Nvidia的联合创始人Jensen Huang喜欢说的那样,AI是一个完整的堆栈,而VAST Data,就像Nvidia一样,从一开始就考虑了整个堆栈。据我们所知,VAST Data对于制造计算、存储或网络硬件没有兴趣,完全愿意将这些交给其它公司。因为,坦白地说,它有更重要的事情要做。

就像将等级世界的存储与本地化数据库混合在一起,摆脱像AWS中这样的AI工作流程:

但它不仅仅是这样。它是关于理解大量的数据。

“GPT-3是在大约45TB的数据上训练的,我认为在更大的背景下这不是很多数据,” Denworth告诉The Next Platform。“我们现在正在与一系列正在构建基础模型的人合作 —— 像Inflection AI这样的组织 —— 我们开始看到多EB的单一数据存储的计划。在大约八周的时间里,我见过的最大的业务正在发生。问题是:为什么?”

答案是,这一切都太难了,太昂贵了,必须有一种方法来使它变得更容易、更快、更便宜。更像这样:

据我们所知,第一次尝试创建这样一个数据平台是很久以前了 —— 至少相对于计算机行业的时间框架而言 —— 并且在一定程度上在其自身的背景和限制内起作用。我们知道的第二个例子是彻头彻尾的失败,第三个例子性能如此糟糕,以至于已经没有人再谈论它了。

早在1978年,IBM创建关系型数据库时,首先并没有将其商业化,而是在当时的可敬的System/370主机上,而是在一个很少使用但在体系结构上很重要的机器System/38上。这台机器的亮点在于操作系统中嵌入了一个关系型数据库,并且可以像平面文件存储一样访问它,但它具有所有这些SQL扩展,允许用户以实际上无法在平面文件存储中执行的方式查询数据。实际上,关系型数据库就是文件系统,没有一种存储数据的方式是不能查询的。这种方法的唯一问题是它需要大量的计算,而且按MIPS计算,System/38加载了一个关系型数据库堆栈,比当时的System/370主机贵2到3倍。直到IBM于1988年宣布AS/400,计算成本下降到足够实际的程度,但它仍然是一个缓慢的文件系统。到了20世纪90年代末,IBM将OS/2并行文件系统与OS/400操作系统融合在一起,以便拥有一个适当的互联网文件系统,数据库只能用作数据库。

IBM确实有正确的想法,但它领先于当时的计算预算。就像在20世纪80年代创建的AI算法基本上可以工作,但它们需要更多数量级的数据和更多数量级的计算来驱动神经网络实际工作一样。

微软在20世纪90年代“Cairo” Windows和Windows Server内核中具有“Object File System”的正确想法,该想法在21世纪初的“Longhorn” Windows和Windows Server版本中以WinFS的形式重生。微软也明白,我们都需要在同一个数据库/数据存储中存储结构化、半结构化和非结构化数据,并允许使用SQL进行查询。

最后,还有Hadoop,Google MapReduce数据查询算法和大规模分布式非结构化数据存储的克隆。最终,Hadoop上添加了各种SQL覆盖层,包括Hive、HBase、Impala和Hawq,虽然这些覆盖层起作用,但性能非常糟糕。与Hadoop相比,关系数据库的扩展性远远不及,而Hadoop在查询数据方面的速度比关系数据库慢了几个数量级。

这将我们带到了今天和VAST Data Platform。VAST Data团队正在尝试另一个理念,并且他们拥有独特的存储架构,这可能会将这个古老的愿景变为现实。

我们期待着深入研究并弄清楚如何以及为什么。

5.《分析师圆桌论坛 - 压缩数据堆栈复杂性》

Source: https://video.cube365.net/c/946714

>> 好的,大家欢迎回到我们在Palo Alto CUBE工作室的现场直播。我是John Furrier,旁边是Dave Vellante。今天是一个很棒的日子。VAST呈现的Build Beyond发布会。我们在这里有最后的分析师小组讨论。我们有Dave Vellante,Rob Strechay,他代替了无法出席的Merv Adrian。他有一些个人挑战要处理,他将要在家里照顾一些事情。还有Sanjeev Mohan,CUBE的老友。感谢你们的到来,非常感谢。
>> 非常感谢。我非常高兴能够在这里。
>> 所以你一直在观察和了解所有的数据。Dave和我已经谈论了几个月关于数据开发者的问题。Rob,我们在Linux基金会上也谈到了这个。数据开发者,新概念,以及存储公司如何成为一个平台。Sanjeev,你的分析是什么?
>> 这是我职业生涯中最独特的事情。我见过很多数据公司开始扩展他们的核心能力,进入堆栈,你可以这样说。这是我第一次看到一个存储公司进入这个领域,并开始提供所有这些新的能力。而且这些新能力本身并不是新的,他们提供这些能力的方式非常新颖。例如,今天我听到的否定比我过去听到的都要多。例如,我们对数据进行层级分区。在这种情况下没有分区。我们为了性能而缓存数据,这里没有缓存。我们在操作和数据农场之间移动数据,没有ETL,没有数据移动,没有数据副本。我们对数据进行分区以使其在地理上可用,但没有分区。这是六个我们认为理所当然的事情,在这个新的VAST平台中都没有发生。对我来说,这是相当独特的。
>> 已经有几十亿美元的产业是基于所有这些否定的。为了解决所有这些问题。
>> 剧本已经翻转。我们之前听到CEO Renen早些时候说:“我们正在颠覆一切。”这是一个有趣的颠覆。
>> 嗯,你有Snowflake从数据管理的角度出发。我猜云服务提供商也是如此。你从Databricks从数据科学的角度出发。现在你从VAST从存储的角度进入。我曾经以为EMC会这样做。他们收购了Greenplum,对吧?还记得那个吗?当Pat收购了Greenplum,HP收购了Vertica和其它基础设施公司。但他们不知道该怎么做。他们实际上并没有涉足数据平台,除了存储数据,Rob,对吧?
>> 我是说,是的。我认为许多其它公司正在尝试朝这个方向发展。我认为,就像你之前谈到的,你知道,我提出了一个四分图,你知道,存储厂商是否在朝着数据平台移动,以及数据平台,数据湖,数据仓库,数据网格的人是否朝着存储移动。我认为这个是最远的,我认为这归结于他们为最终用户提供的透明度。
>> 当你说最远的时候,你是指愿景吗?
>> 从愿景的角度来看,是的。我认为从愿景的角度来看,执行还有待考验。我认为我们会看到。但是能够透明地一直到数据开发者这里是巨大的。我认为这样你就不必担心,而且我认为我们之前谈过这个问题,文件的大小,你知道,低于Parquet文件级别,具有那种性能,或者没有那些"否定"之一,嘿,元数据实际上可以跨越。这是巨大的。我认为这是巨大的。
>> 好的,你提到了Greenplum和Vertica,它们都是列式数据库。所以性能很出色。但我们听到Jeff Densmore说,每个事务性的方面是他们的优势。有一些互补的地方。这是我想听听你们的观点的一个点。第二个问题是,虽然有很多不同意的声音,但他们仍然在使用NAS。所以我们也听到Jeff说现在可以在任何地方使用NAS。那么这种与架构有关的转变,以及你所提到的所有这些因素,是否使得NAS在大规模上变得可行?
>> 我认为是这样,但是它的可行性是如何的呢?当我们进行NAS时,会有很多智能进入其中。比如,我们如何分发数据?VAST所做的是将所有这些都抽象出来了。所以有了全局命名空间的概念,他们可能在幕后做了NAS,但作为终端用户,我不关心。所以我在没有支付代价的情况下获得了NAS。
>> 所以NAS并没有被颠覆,只是被抽象了。
>> 是的,没错。
>> 所以这很有趣,Dave。因为我们听到有人说:“哦,我们要颠覆NAS市场,让它消失。”
>> 但为什么要颠覆呢?在现实生活中,颠覆不是很酷的事情。(大家都笑了)你希望你的家庭发生颠覆吗?
>> 我们喜欢颠覆。我们是CUBE,CUBE靠颠覆生存。(笑)
>> 正是。我们喜欢颠覆。这就是为什么我们有工作的安全感,因为…
>> 混乱等于现金。有人写了一篇文章谈到这个。
>> 这只是其中之一。
>> 但是同样的方式,市场上的许多颠覆都来自于非颠覆性的。
>> 是的,如果可以以更为平稳的方式来做,为什么不呢?
>> 我的意思是,备份的例子,比如Data Domain和Avamar,对比一下。Data Domain基本上看起来像是一个磁带接口。那是一个比较窄的例子。但是Avamar,你必须改变一些东西,你知道谁赢了,对吧?
>> 不,我认为这是一个很好的观点。他们在与Allen Institute的一位客户一起时提到,我认为那个生命科学的场景非常有趣,他们谈到基因测序仪,它们每天会产生数TB的数据。与此同时,最后会有一些元数据文件,告诉你,嘿,所有的文件都在那里,这些是文件,并提供所有文件的元数据和描述,然后你可以对这个项目进行数据科学分析。我认为真正有趣的是他们谈到这是一个文件。它们都是文件。这是一个文件场景,接近基因,你知道,测序仪,并能够知道并触发这一点。因此,将触发器,将这些功能提升到测序仪是这些公司的速度分析和药物发现速度的巨大提升。我认为这正是这个平台而不仅仅是存储。
>> 是的。我认为故事,我不开玩笑,我确实喜欢创新的颠覆。因为事情确实会被颠覆。遮蔽是颠覆。非颠覆性意味着运营。他们有了所有的标准,他们勾选了所有的选项。但是我认为引起我注意的是数据引擎的想法,与Nvidia的关系,以及Nvidia是投资者和平台的主要参与者,以及他们的客户正在经历规模上的价值。所以问题是,这是否为新的商业方法开启了一种可能性,这将开启业务方面,说:“嘿,让我们重新思考如何处理我们的数据。”因为AI也正在推动着很多变革。Sanjeev,你的观点是什么?
>> 是的,确切地说,与你的观点一样。我们可以看到市场上存在着大量的类别混淆。那么我在哪个类别中?而且类别一直在不断变化。一旦你认为一个产品公司已经实现了一个类别,每个人都会加入,然后变得过于拥挤。然后你会赶快找到一个新的类别。优势在于你可以拥有一个完整的堆栈。所以我们都成长于OSI七层堆栈。所以在底部,你有物理层,所有的芯片,不管是Nvidia还是TPUs,或者是Inferencia 2,或者无论是什么。所以你有了物理层,你有了数据层。
>> 所以你必须拥有数据层。今天VAST展示了他们的整个数据库和数据存储。然后你有了元数据层。就像你所说的,元数据层和数据层应该共存。它不应该是你的元数据坐在某个SharePoint文件中。它已经过时了。所以如果你沿着这个堆栈向上走,你就有了AI层,今天很多活动都在这个层面上。但是如果AI层没有与这些其它层面连接,那么它就是一个独立的东西,对吧?然后你进入应用程序层,然后是生态系统,你有了七层堆栈。如果一个公司可以在这个堆栈中运作,那就是成功的道路。
>> 实际上,这回到了你之前关于我们的讨论。当你开始考虑平台工程时,对吧,我们在CoopCon、Vancouver的Linux基金会和所有这些不同的地方都详细讨论了这个问题,人们希望从平台工程中获得的是抽象化。我不想知道这是一个NAS。我想能够根据数据构建我的应用程序,对吧?然后去做。我认为这就是情况。
>> 云计算做到了。对吧?AWS也在做NAS,但你永远不会发现。
>> 好吧,这些家伙是第一个使用我们在CUBE上创造的术语“数据开发者”的人,对吧?其次,数据工程正在走与平台工程相同的道路。安全行业的“左移”是在将这个独立的团队带入运营部门的需求下诞生的,以向开发人员提供管控,让他们能够在他们的流水线上做出决策,这也正在发生在数据领域。而这些家伙看到了这一点,他们的客户在主题演讲中告诉我们。而且,对我来说,那些先进的客户是主流企业可能会成长为的信号。例如,我想得到你们的反应。也许我们以前之所以存储数据,有几个原因。合规性,存储数据,以后可能需要用它来证明一些GDPR之类的合规性或法律原因。我们必须保护自己,存储数据。现在人们正在为创新而存储数据,因为他们看到数据中有价值。
>> 我们从Pixar那里听到了这些。所以现在你有客户为三个目的存储数据。比如AI的法律合规性,可解释的AI,我们是否使用了正确的许可证?所以我们进入了一个全新的数据智能水平,就像是老方法可能完全无关了。我的意思是,这是一个产业的颠覆,可能价值数十亿美元,只有如果你相信我刚才说的是真的,那就是颠覆。
>> 嗯,而且我认为,对于像VAST这样想要构建一个平台的公司来说,OSI堆栈的顶部是至关重要的,你必须拥有一个生态系统。而且,你知道,我想他们不会做所有的安全和治理和谱系。我想他们会做一部分。当然,AI方面,他们会合作进行AI。所以他们必须宣布这一点,对吧?并向世界展示。现在,部分执行工作来自于建立这个生态系统,这也是一个成功平台的标志。
>> 是的,我认为在主题演讲中的一个幻灯片中,他们谈到了Presto、Trino、Spark。所以我认为问题不在于做所有这些,而在于成为生态系统的一部分。而且当他们在Trino上看到Starburst时,你开始看到他们看作是互补的和基于该平台构建的一些生态系统,我可以看到他们说:“嘿,听着,你去在我们这里构建你的Spark吧。它会比在亚马逊上使用Databricks之类的东西,速度快十倍,成本低3000倍。”
>> 那么他们的生态系统从哪里来,Dave?是来自新玩家,平台有机增长的新参与者?还是来自行业,比如数据库公司,还有存储公司。
>> 我认为它来自软件,你知道,吸引软件公司加入,说:“嘿,来到我的平台上。将你的能力带到我的平台上。”而且,你知道,VAST必须找到使他们愿意这样做的方法。部分原因是产品。
>> 因此,生态系统在这里变得非常重要,因为你知道,我们谈到了七层,你刚才提到在每一层中我们都可以打开它,外面有一个完整的世界。所以,如果是物理层,那就有所有的安全性、网络等等。如果你看看数据层或元数据层,你会发现数据工程世界被编排公司所包围。还有可观察性。数据目录,每个层面上都有一个完整的世界,在你上升时,如果你看看AI层,那里有一个MLOps组件,我们知道有多少公司参与了MLOps。现在还有一个完整的LLM工程,负责的AI,然后进入到服务体系结构、推断体系结构。所以VAST在整个堆栈上发挥作用。然后他们需要这些生态系统合作伙伴来提供这些附属服务。
>> 是的,我认为另一个重要的方面是他们要与之交流的用户角色以及他们的营销方式。我认为你提到了这一点,George之前也谈到过这一点。他们需要这个生态系统出去并进行这些对话。他们不能独自完成。
>> 那么,对于你们来说的问题是这样的,你们认为这些家伙在数据管理方面是否取得了突破?他们是否将这些元素进行了足够的流程化,从而改变了数据管理的游戏规则?
>> 我认为他们会让人们稍微有点不同的思考。我认为,你知道,就像我们在与Renen交谈时,我问他,你知道,“有多少运气,多少好?”我认为他们有远见,认为“让我们打赌在这个适用于AI的架构上”。他甚至说:“我们不知道何时,甚至是否会发生。”我认为它正在发生,而且以一种明显不是附加的方式发生,不像是,“嘿,我们也是AI。”这里没有太多的AI洗涤。他们基本上在说:“看,我们是AI的基础架构。”你多年来一直在谈论这个。所以我认为这会让一些人以不同的方式思考他们如何应对这个问题,而且我认为你是对的。它取决于执行。
>> 而且我认为它取决于他们在生态系统中的合作伙伴关系,而不是试图做所有的事情。有一个焦点。我认为从这个焦点中获得成功。但我认为所有其它存储平台厂商都在谈论这个,但从来没有能够在这方面执行。而我认为这就是关键。你听到了关于GPFS和到处都是GPFS以及其它内容的说法。我认为那很棒。但那只是一个微小的一部分。那不是一个平台,那是一个文件系统。
>> 是的,数据引擎对我来说很重要,数据空间也对我来说很重要。引擎中有一些计算的感觉,喜欢这些功能。它会触发,会给你可编程性自动化,为自驾数据,如果你愿意的话,提供了一个环境。然后你有了数据空间,我发现这很有趣,因为我们多年来一直在谈论数据云。你有数据互动,对吧?所以当你有必须相互交互的数据时,拥有这个分布式的全局命名空间或数据空间,可以让数据在任何地方都能够相互配合工作,同时仍然小而可管理,或者大而可管理。但当你开始解决这个问题时,它会如何改变游戏规则?你看到了吗?你在其中看到了什么?
>> 这让他们参与到了这场比赛中,对吧?我是说,显然是的。因为你有Databricks和Snowflake以及云服务提供商,对吧?然后你还有所有这些其它的数据库公司在解决问题,但它们并不被视为数据平台,好吧。所以他们正在争夺这个位置,VAST现在进来了,你看看其它存储公司,看看Pure,他们没有能力做到这一点。Dell,你知道,是足够大的,你知道,惠普,他们有他们的Esmeril,但与此相比,它并不在同样的对话中,更像是,好吧,我们有一个自有业务,我们要向这个自有业务销售。你知道,Snowflake和Databricks在市场上有更大的平台和存在。现在,你有了VAST从存储方面进入的局面,我就是不看好其它存储公司。我认为考虑做这个可能是很困难的。
>> 可能是创新者困境吗?我的意思是,他们太大了。就像他们,Dell不可能一夜之间试图以现有业务为代价,对他们正在做的事情进行改进。
>> 有趣的是,Dell是VAST的投资者。
>> 他们是VAST文件系统的原始设备制造商(OEM)。(笑)
>> Nvidia是投资者和合作伙伴。
>> 所以这些家伙显然看了看这个,然后说,好的,这里有些东西。你会想知道,它是来自投资部门吗?是...
>> 那么谁会买下他们?哪个公司会买?(笑)
>> 我认为他们,我认为...
>> 我认为他们会上市。
>> 这是,嗯,你知道,看,Renen,你知道,和团队,以色列公司,他说,我必须搬到纽约或者新泽西,但这将是一个美国公司。我们看到,多少次我们看到,我们在Iguazio身上看到了这一点,他们试图,有一些大想法。但是你知道,他们...
>> 还有DevOps。
>> 这些公司的绝大多数都被收购了。但是我认为VAST,无意冒犯,你知道,可能会,你知道,成为,你知道,如果市场回归,可能会成为一个IPO,我认为他们有足够的市场动力。他们声称自己是历史上增长最快的基础设施公司。这确实会发生。
>> 如果他们占据了这个AI数据市场的一大部分,当VAST开始建立,随着他们开始构建,你现在开始看到围绕如何以最低成本、最高性能和最高灵活性存储所有这些数据的架构决策与商业和技术相关,这就是数据的DevOps。我一直在CUBE上这么说。
>> 但是市场营销...
>> 所以如果他们有了这个产品,他们可能会在这些场景上取得成功。
>> 所以这将取决于市场营销生态系统。其它所有事情也都很重要,对吧?
>> 完全,是的。如果VAST明天要上市,这将是基于存储的成功,这是非常了不起的。但数据的故事尚未完成,我认为。
>> 还很不成熟。(与众不同的讨论)
>> 他们的数据故事。它刚刚今天才出来,对吧?(笑)
>> 我的意思是整个...
>> 故事很棒。愿景令人惊叹。这些家伙是令人惊叹的思想家。但我们知道这需要多长时间。就像你知道的那样,有多少公司一直在努力,努力,努力。甲骨文仍然在40年的经营中试图完善他们的解决方案。所以你不能从第一天就得到交易一致性。
>> 还有运营,他们需要一个销售团队。他们需要SE,他们需要构建他们的营销,有很多工作要做。同样,问题是对我来说现在AI的顺风顺水,它有多真实?我们谈到了混乱,有多少人在生产中,收入在哪里,微软在上周的AI领域没有看到他们的收入上涨。所以,AI的钱何时到来,以及何时到来?
>> 好,这是一个非常有趣的观点。
>> 何时到来?
>> 就像你说的,Databricks说“好吧,我们要去收购Mosaic,你知道,机器学习,你知道”,Snowflake说,“好吧,我们要基本上将Nvidia的堆栈容器化,并依赖于它。”当然,他们还做了另一项收购。但看看你有多少家公司。Dell说:“好吧,我们要做Project Helix,我们必须有一个AI故事,Project Helix”,HPE在Discover活动中。“好吧,我们有超级计算机,所以我们要将HPC转变为LLM业务。好的,嘿,我们要采用我们现有的东西,然后我们要推广它。”对于VAST来说,就像是,“好的,市场正在来找我们。对吧?我们不需要进行任何真正的改变。我们只需要,你知道,呈现我们的架构。因为它适合。”至少在我看来是这样的。你们同意这对于这个新的AI时代来说是否合适?
>> 是的,我认为是的。我认为这是一种新的方法。我认为分发、分块和元数据管理是适用于这种工作负载的三个关键要素。我认为对于另一个观点来说,是在什么规模下它成为成本价值的困境。但是如果你进入重新归还行为等等,数据是否会回来?这是更好、更有价值的方法吗?
>> 但他们不在乎,对吧?因为它将在云中运行,对吧?在任何云中都可以。这确实...
>> 好吧,关于重新归还的问题,我刚刚想提一下。我们发现在上周AWS在纽约宣布大型AI峰会时,他们有很多权益调整以节省成本。我们刚刚做了一次关于成本节约的特别报道。但他们正在将这些资金投资于AI。所以问题是,要重新归还的是数据还是实际的硬件?现在你有了这个重新归还的方程,因为我们已经看到AI,人们正在部署,因为你不知道,他们希望过度配置,因为他们得不到足够的这些东西。所以现在他们并没有因为无法得到Nvidia而过度配置。所以如果他们有了这些设备,我可以在本地化看到那种情况。这就是他们的大部分设备所在的地方。所以对我来说,数据和平台将无处不在。所以现在它在本地化和边缘。
>> 是的,边缘,我是说,边缘的AI推理将会是巨大的。即使你在边缘保留了一小部分数据,它仍然是一个巨大的数据量,肯定会被保留并进行处理。
>> 所以本地化不会消失,本地化将保持重要性。我不太相信重新归还。我肯定会有一些发生,但它只是云迁移的微不足道的一部分。我是说,如果我看看主机,我们的主机正在消失。我们已经说了20年了,但实际上主机业务正在增长,尽管增长幅度很小,但它没有消失。所以我...
>> 但重新归还,这是个语义问题。我要从云中撤回来吗?我不认为会发生这种情况。但在本地化部署全新的AI功能,这很有趣。这不是重新归还,从来没有叫做归还。但我认为混合操作是关键。这就是我认为这个全局命名空间和统一角度可能是这个故事中最重要的方面。
>> 因为AI会去数据所在的地方。
>> 数据将需要与计算和工作负载一起管理。我们没有谈论工作负载。所以下一个问题对我来说是,工作负载是什么样子的,对吧?因为当你将工作负载移到数据中时,那就是一个不同的讨论,对吧?
>> 而我认为这是我从VAST的故事中听到的最引人注目的特点,就是随着数据进入平台,数据引擎正在推断头部,或进行一些推断,并决定要执行哪些功能。它可能是计算,可能是数据质量,可能是经过训练的机器学习模型。因此,数据已经成为重心,一切都由数据驱动。这是新的,一直以来。作为一个数据人员,我一直觉得自己像是一个被忽视的孩子,(大家笑)因为20年后一直都是基础设施人员统治。然后是应用程序人员抢风头。所以,这是第一次,数据成为焦点。
>> 伙计们,我们还有一分钟的时间。BuildBeyond.ai是一个网站。去看看吧。VAST呈现了BuildBeyond.ai。最后一分钟,我们来依次发表意见。Dave,数据平台。VAST呈现了什么?Build Beyond是什么意思?我们轮流发表意见。我们从你开始。
>> 我认为这是一种新的思考AI基础设施的方式。我认为这真的是今天的重点。
>> 是的。我认为这是数据无处不在,将其带到正确的位置。要么是将计算带到数据,要么是将数据带到计算。我认为这非常重要。
>> 我认为这是使数据成为一等公民,并驱动AI故事的驱动因素。
>> 我认为数据就像血液中的氧气,在整个组织中流动,必须在应用程序中自由可用。数据开发人员的崛起将会是一个拐点,数据作为代码的拐点。我认为这将是一个重要的事情。所以去看看BuildBeyond.AI。这是CUBE团队在Palo Alto的现场表演,为VAST Data呈现Build Beyond。感谢收看。

---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存