幕后投资人深度解读:VAST Data是什么
近期,VAST Data宣布完成了E轮融资,估值高达91亿美元。VAST已逐渐崭露头角,成为AI优先存储领域的领先基础设施提供商。
该公司开创了一种新颖的存储架构和软件基础设施层,吸引了包括NVIDIA等AI关键参与者以及CoreWeave、Lambda等GPU云服务商的战略关注。VAST Data展现出强劲的市场需求,累计软件订购金额超过10亿美元,毛利率超过90%,自2019年开始销售以来便取得了显著成绩。特别值得一提的是,该公司产品年度经常性收入(ARR)实现了惊人的3.3倍增长,达到了2亿美元以上,并在过去12个季度均保持了正现金流。其产品平台巧妙地融合了存储和数据库基础设施的功能,专为AI应用而设计。
正如Jensen Huang在收购Mellanox时所强调的,数据中心中AI优先计算离不开三大关键基础设施组件,除此之外,还有物理空间、机架、冷却、电源和公用设施等也是不可或缺的。
计算:由NVIDIA的GPU占据领导地位,与AMD以及Google/Broadcom的TPU展开激烈竞争。 网络:目前由NVIDIA的Mellanox网络领航,竞争对手包括Arista、Cisco、Broadcom、Juniper、HPE和Aruba,以及Intel和Dell EMC。 存储:VAST Data目前处于领先地位,专注于为AI工作负载提供解决方案。历史上,这个市场呈现出碎片化的特点,参与者众多,包括Dell、NetApp、Pure Storage、华为、HPE、IBM、Micron和Cloudera等。
VAST推出了一种创新的软件定义存储解决方案,专为优化AI所需的数据而设计。正如CEO Renen Hallak所言:“VAST是一家在通用硬件上运行软件的公司。”
数据中心存储市场背景及全闪存存储
自VAST创立之初,其四位创始人便洞察到庞大的数据集为描述自然界提供了最佳方式,并且这些数据集在深度学习实践中本质上是应用统计学的结果。闪存基础存储一直在数据中心存储市场中占据重要地位,因为对于昂贵的GPU计算和AI网络而言,需要最快的存储器。闪存不仅速度更快,而且价格更经济、更可靠,因此成为运行AI的默认选择和唯一途径。
VAST的创始人在公司初创时期便指出,全闪存的成本是混合闪存存储成本的10倍。尽管许多初创公司都在努力提高闪存速度,但VAST是其中唯一一家致力于使全闪存在实际应用中变得经济高效的公司。值得一提的是,VAST将自己定位为一家数据公司(而不仅仅是一家存储公司),并在数据基础设施领域取得了重大创新。该公司致力于成为数据存储领域最具性价比的一站式服务提供商。
由于VAST的性价比优势,数据中心运营商在升级(通常周期为每4-7年)现有设备时越来越倾向于选择VAST,而非老牌公司如NetApp和Pure Storage。
存储创新
三十多年前,Teradata率先推出了“Shared-Nothing”(SN)系统架构。后来,谷歌发表了具有划时代意义的Google文件系统(GFS),引入了一种新型系统架构,该架构消除了单点故障。Shared-Nothing设计使得整个系统能够在个别节点发生故障时继续运行,并允许对个别节点进行硬件或软件的升级,而无需进行全系统的停机。这种架构通过组织一系列独立的通用存储服务器,创建了高容量、高性能的命名空间,从而实现了系统的扩展性。
谷歌的“Shared-Nothing”架构在可扩展存储、数据库和超融合系统方面已经催生了数千亿美元的数据中心投资。尽管SN架构在2000年代初解决了可扩展性的问题,但随着客户对这种系统的需求持续增长,SN也带来了新的挑战:
如今,数据中心的服务器规模几乎达到了PB级,同时固态硬盘的普及也增加了服务器故障的成本。这使得操作失误和数据丢失的风险不断上升。 Shared-Nothing系统要求对数据的写入进行紧密的节点协调。这种协调涉及共享操作、缓存管理、锁定、重建和缓存一致性等多个方面,这些都会限制东/西向流量的极限。因此,协调系统使得集群的一致性扩展变得困难。 数据访问的能力取决于其CPU和存储架构。如果CPU的扩展不能独立于数据容量进行,就会形成被称为“层”的孤立数据岛。这意味着性能变得僵硬且缺乏灵活性。
为了克服这些限制,VAST引入了DASE(分离式共享一切)架构。DASE将存储基础设施与计算分离,为数据存储领域带来了全新的视角和解决方案。
DASE架构的核心在于无状态服务器,这些服务器被称为VAST容器。它们可以通过高速NVMe网络访问全局命名空间,这种网络可以基于通用以太网或InfiniBand构建。这种设计支持多协议访问,从而确保与各种数据访问方法的高度兼容性。每个高可用性(HA)机架内的存储级内存与超大规模闪存的结合,是一种独特的设计。它不仅能够提供SCM的高性能,同时还拥有闪存的大规模存储容量。这一架构旨在为用户提供快速、可靠且经济高效的存储解决方案,以满足不断增长的AI和数据需求。
DASE架构将容量与性能、数据与丰富的元数据完美融合。通过DASE,计算集群可以与SSD独立运行,就像它们直接连接一样。此外,服务器可以部署在以太网或Infiniband网络上,并且可以扩展以支持跨数万个处理器的EB的数据。当处理与系统状态分离后,用户只需在需要容量时购买容量,只需在需要更多集群性能时购买无状态计算,即CPU可以独立于存储进行扩展。
值得注意的是,尽管VAST的产品以硬件解决方案的形式交付,但公司并不涉足产品的制造业务。相反,VAST与一些第三方制造商(如Avnet和Arrow Electronics)合作,生产独立的硬件,这些硬件需要单独付费购买。
这种业务模式使得VAST在性价比方面与竞争对手有所区别。VAST的存储架构通过结合一流的性能和具有竞争力的定价来脱颖而出,与Pure Storage和NetApp等竞争对手相比,其方法独特。VAST主要使用消费级QLC闪存来覆盖90%以上的存储容量,同时辅以高端定制的闪存芯片组来处理关键的5-10%的阵列。这种设计使得VAST能够有效地管理热(频繁访问)和冷(不经常访问)工作负载,确保即使在更经济的消费级闪存上也能实现可靠的性能表现。
数据创新
除了其创新的软件定义硬件外,DASE还引入了针对非结构化数据优化的新型共享和事务数据结构。正如我们在关于LLM的Snowflake部分中所讨论的,非结构化数据是AI的核心。非结构化数据代表原始内容,而结构化数据则源于数据标记、数据准备和AI推理。从VAST的视角来看,为非结构化数据赋予语义理解就像是寻找圣杯,因为“AI的力量在于理解无模式文件的上下文,从而从非结构化数据中创造结构”。
通过对传统存储和数据库架构的重新思考,VAST Data成功地将文件和对象存储与高级数据库服务融为一体,实现了实时数据管理和分析。VAST Data创新的关键之一在于将经济实惠的闪存存储与独特的数据结构相结合。这种结合简化了数据基础设施,将传统的存储层和数据库层合并为一个可扩展的系统。其结果是构建了一个既高性能又经济高效的统一架构。这种系统特别适用于AI应用程序,其中大量数据访问至关重要。
VAST Data的平台还解决了深度学习的挑战。公司意识到深度学习本质上是一种应用统计学,因此构建了一个利用闪存存储提供必要速度和容量的系统。他们对数据存储基础设施的方法,名为VAST DataStore,是一个分布式文件和对象存储系统,为数据中心提供了EB级闪存的规模和弹性。
此外,VAST Data通过创建一种处理多变量数据流的新型数据库架构,重新定义了数据库层,实现了实时处理和即时结构化查询。这种创新将数据相关性延伸到归档,显著提高了数据分析的速度和准确性。通过这些发展,VAST Data正在塑造AI基础设施的未来,为现代AI应用程序不断增长和多样化的需求提供支持。
在VAST数据平台中,将结构化上下文融入非结构化数据的一些核心功能如下:
VAST DataSpace:作为VAST数据基础设施的核心功能,通过实现大型数据集上的高效一致事务处理,彻底改变了全局数据管理的格局。该系统通过集群间的对等关系,实现了具有事务一致性的全局数据共享,用于选择性数据同步。它结合了顶层元数据缓存、本地缓存和全局预取,以实现高效的读取操作,并通过分离式锁管理系统简化了写入操作。这种方法确保了灵活性和全局一致性,使其成为需要快速、可靠地访问大量数据的AI应用程序的理想选择。 VAST Data Engine:作为VAST数据平台的重要组成部分,是将非结构化数据转化为可通过结构化查询访问的见解的关键要素。该计算框架在VAST DataSpace的容器上运行,支持一系列CPU、GPU和DPU资源。它引入了一个用于深度学习训练和推理的功能性编程环境,并通过Kafka连接器扩展了数据摄入能力,以支持实时数据流。这一创新引擎在VAST构建统一、高效的AI数据基础设施的愿景中发挥着至关重要的作用。
考虑到VAST在存储和数据处理方面的架构设计,他们成功吸引了众多大规模工作负载,这些工作负载多集中在需要扩展的应用场景中,如大数据分析和AI工作负载,尤其是AI训练工作负载。这些工作负载对计算能力和延迟要求极高,而VAST Data的技术方法使其在AI数据管理领域具有显著优势。
通过独特支持文件和对象存储,VAST能够高效地将来自Snowflake数据库等来源的数据与S3桶的原始存储功能相结合。这种在物理存储层面的优雅而高效的集成构成了他们的“秘密武器”。闪存存储、跨多个单元的高级网络以及复杂的文件和存储技术的融合提供了显著优势。尽管这些元素随着时间的推移可能会变得普及,但它们目前为VAST与其他存储供应商之间建立了坚实的竞争壁垒。
公司历史
VAST Data的创立基于一个核心理念:未来的人工智能必须建立在强大而灵活的存储和数据基础设施之上,这一基础设施能够支持AI引擎以任何规模处理数据。尽管该公司成立于2016年,但其产品直到2019年才正式推向市场。VAST Data汇聚了四位杰出的联合创始人:
Renen Hallak(创始人兼CEO)——在创立VAST Data之前,Renen Hallak曾负责XtremIO的全闪存阵列架构和开发工作,并在公司初创阶段就助力其实现了超过30亿美元的收入和占据40%的闪存存储市场份额。作为研发副总裁,他领导了一个由200多名工程师组成的精英团队。 Jeff Denworth(联合创始人)——Jeff在CTERA Networks Ltd.和DataDirect Networks Inc.担任高级管理职务,负责市场营销、业务拓展和企业发展。在他的领导下,这两家公司的销售业绩均实现了显著增长。 Shachar Fienblit(首席研发官,联合创始人)——Shachar在Kaminario和IBM等公司拥有丰富的数据存储经验。他在存储解决方案领域的深厚背景和专业知识为VAST Data在数据存储和管理方面的创新方法提供了重要支持。 Alon Horev(联合创始人,技术副总裁)——Alon曾在Cisco和以色列国防军担任技术职务,积累了丰富的技术经验和专业知识。
这四位联合创始人的卓越才能和丰富经验共同铸就了VAST Data在数据存储领域的辉煌成就。
VAST主要依赖于传统风投公司以及战略投资者如NVIDIA和Dell等为其提供资金支持。
A轮融资(2016年):成功筹集1500万美元,由83North和Norwest担任领投。 A+轮融资(2018年):再次筹集2500万美元,Dell技术资本、83North和Norwest联手领投。 B轮融资(2019年):成功筹集4000万美元,Greenfield、83North和Norwest共同领投。 C轮融资(2020年):以12亿美元的估值筹集了1亿美元,Next47担任领投,NVIDIA和Mellanox也参与其中。 D轮融资(2021年):以37亿美元的估值筹集了8300万美元,Tiger Global Management担任领投。 E轮融资(2023年):以91亿美元的估值筹集了1.18亿美元,富达管理公司担任领投,BOND也加入其中。
根据LinkedIn的数据,VAST公司现有员工约630名,这些员工主要分布在以色列和纽约两个地区。
商业模式和客户
VAST Data的商业模式独具匠心,它巧妙地避开了硬件制造的繁琐,而是依靠4-5年的软件合同预付款来撬动数据中心的资本性支出。在这一模式下,客户购买VAST的设备,并提前支付软件订阅费用,覆盖4-5年的使用期。硬件成本则完全交由第三方制造商如Avnet和Aero Electronics负责。这样的策略让VAST Data得以从硬件业务中抽身,转而与这些合作伙伴携手共进。因此,尽管在现金收入方面可能稍显滞后,但公司的财务状况在现金流和年度经常性收入(ARR)方面均表现出色。目前,VAST Data正积极完善操作流程,以进一步强化这一商业模式的优势。
VAST Data的客户群体堪称业界翘楚,其中平均财富1000强客户每年支付高达120万美元的解决方案费用,而F1000客户的年增长率更是高达4倍。公司的客户阵容包括众多GPU云服务商,如CoreWeave和Lambda(以及其他数十家),以及主流企业如Verizon、Zoom、Pixar等。此外,像NASA和美国空军这样的政府机构也是VAST Data的忠实拥趸。据新闻稿报道,公司的年度经常性收入(ARR)已超过2亿美元,同比增长了惊人的3.3倍,毛利率高达90%。这一业绩不仅令人瞩目,更是行业内的佼佼者!
合作伙伴关系
VAST Data已稳固地确立了自己作为主流GPU云提供商,如Coreweave和Lambda的首选存储供应商地位。这得益于公司充分利用了NVIDIA Infiniband网络的高性能优势。与Nvidia技术的紧密战略合作使VAST在GPU云基础设施领域占据了关键地位。随着VAST成为额外38家GPU云服务的首选存储供应商,其在这一专业且迅速扩展的市场中的重要地位得到了进一步印证。NVIDIA不仅是VAST的关键渠道合作伙伴,更是将其视为首选存储供应商。此外,VAST还积极与Arista和HPE等网络供应商,以及数据中心的云服务提供商和硬件供应商展开合作。
NVIDIA正大力推广VAST Data作为其渠道合作伙伴的首选存储解决方案,从而使VAST成为首个且目前唯一的SuperPOD认证合作伙伴。这一合作关系的建立源于VAST在处理AI和机器学习工作负载所产生的庞大数据需求方面的卓越能力,这对于优化NVIDIA的先进GPU和Infiniband等网络解决方案的性能至关重要。NVIDIA通过推荐VAST,旨在确保其合作伙伴能够为用户提供全面且高性能的解决方案,从而提升AI和数据密集型应用的整体价值和效率。这种战略联盟不仅有利于NVIDIA的生态系统建设,同时也巩固了VAST在速度和数据处理能力至关重要的环境中的领先存储解决方案提供商地位。
该公司还与以下技术合作伙伴建立了稳固的合作关系:
Veeam,旨在协助企业组织消除因勒索病毒攻击导致的停机时间延长的风险。 Vertica,助力企业整合其结构化和非结构化数据孤岛,为实时数据探索、分析和洞察提供便利。 Splunk,用于Splunk的全闪存数据存储,以更低的成本从更多数据中快速提取洞察。 Commvault,为寻求保护数据免受潜在网络威胁或自然灾害影响的组织提供集成的、现代数据保护解决方案,并提供更强大的保障措施。 Dremio,助力企业更快地实现数据到洞察的转化,利用混合、多云架构进行可扩展分析,无论是在本地还是公有云环境中。
产品路线图
VAST Data正在研发一项创新功能,名为“全局命名空间”,旨在优化其存储产品的性能。在计算领域,命名空间的作用类似于数据存储位置的地图。过去,命名空间主要局限于单一计算机或主机。然而,随着技术的发展,单个数据库已经能够由多台计算机或服务器支持。如今,大型数据库(如Snowflake所使用的数据库)被分散部署在多个数据中心,每个数据中心存储数据库的一部分。这种架构使得数据在同一数据中心内部能够轻松流动。
VAST Data的创新之处在于,他们计划创建一个全局统一的命名空间,这个命名空间能够跨越所有数据中心进行工作。这意味着,无论数据物理上位于巴黎还是纽约,系统都会将其视为在同一地点。这种处理方式在某种程度上与CockroachDB的数据库管理方式类似。对于需要分析或训练公司全部数据的任务来说,这种做法的性能优势尤为明显,因为无论数据存储在何处,都能高效处理。通过VAST Data的全局命名空间,这些任务可以在物理上分散的数据上实现高效运行,仿佛所有数据都集中在一个地方。这能够显著提升数据密集型任务的性能,尤其在数据分析和机器学习领域具有显著优势。
结论
VAST在存储与数据库技术的交汇处因其开创性的全局统一命名空间方法而脱颖而出。这种创新不仅打破了传统存储与数据库之间的界限,更确立了VAST在数据中心内AI存储领域的核心地位。它为处理大规模数据工作负载提供了更加集成且高效的基础设施,引领了数据存储领域的新潮流。
-----
Source:CHRIS ZEOLI; What is VAST Data?: Behind the $9.1B leader in AI-First storage and data infrastructure; 2023/12/12
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)