Snowflake与Databricks:数据平台的竞争与演进
核心内容
模型系统正逐渐演化为智能应用。
控制权从DBMS(如Snowflake)转向目录服务(如Unity、Horizon)。
数据平台已成为驱动业务成果的分析系统工具的基础。
价值捕获正逐渐转移到基于目录构建的工具链(如Mosaic AI、Cortex)。
现在的工具战场主要聚焦在结合各种形式的分析上。
潜在的盲点:协调业务流程数据的新兴产品(如Celonis、Salesforce Customer 360、Palantir、Microsoft AI ERP、RAI、EnterpriseWeb)。
数据平台的发展趋势:
从DBMS管理数据转向使用目录构建“系统的系统”。
表格格式的解决方案仍是一个待解的问题,创建业务流程地图也是如此。
Snowflake将如何扩展Horizon以超越其本地数据?
Databricks的下一步计划:1)统一Delta和Iceberg;2)将Unity打造成“目录中的目录”。
仍然充满变数的是那些致力于构建语义层的玩家,以及大型超大规模云服务商。
-----[以下为正文]-----
随着客户致力于“理解AI”,整合分散的数据变得愈发关键。尽管数据从业者渴望将所有数据汇集于统一平台,但这在实际操作中往往难以实现。因此,各大公司正转向一种开放模式,即他们能够自主掌控数据,并将任意计算引擎应用于任意数据类型。
尽管这一模式颇具吸引力,但针对整个数据资产进行开放数据管理的能力仍显不足。然而,向开放表格格式(Open Table Formats)的转变正受到广泛关注,数据平台战争中的控制权正从数据库转移至治理目录。此外,随着数据平台的演进,我们愈发将其视为分析系统的工具,用于采取行动并推动业务成果。
参考:开放表格格式 — Delta Lake、Iceberg和Hudi
鉴于目录的广泛应用,数据平台的价值也正向支持新一代智能应用的工具链转移,这些应用利用治理目录整合所有类型的数据和分析,同时保持开放访问。两家公司,Snowflake和Databricks,正站在这些趋势的前沿,展开一场技术和哲学上的思想交锋。
本文将聚焦于两家数据平台领域领先创新者的客户实践,并从中提取宝贵经验。我们将分享数据分析结果,展现两家公司在对方优势领域的竞争态势,并探讨一种融合数据管理、开放治理和AI领导力的全新应用范式。
开放格式改变数据平台的价值格局
首先,让我们审视数据平台格局的演变。我们观察到五个关键领域正推动着平台的转型,并坚信这些系统模型最终将融合一体,构建下一代智能应用架构。
控制权的转移:正如之前所述,控制权自去年以来开始发生转移,Databricks推出了其Unity Catalog标志着这一趋势的开端。作为回应,Snowflake于本月开源了其Polaris技术元数据目录。随后,Databricks收购了由Iceberg创始人创建的Tabular,并随之开源了Unity。
在2023年Databricks数据和AI峰会上,Spark的创建者兼Databricks联合创始人Matei Zaharia发布了增强版的Unity Catalog。这一发布意义重大,标志着数据资产系统真相的控制权从数据库管理系统(DBMS)转移到了目录。
传统上,DBMS掌握着数据的读写控制权。如今,目录将协调这种控制。这并非削弱了DBMS的作用,而是将类似DBMS的执行引擎附加到目录上,以管理读写操作。然而,该引擎可以是一个新的、嵌入式、低开销和低成本的SKU。这一区别对于确定谁掌握控制权至关重要。
数据正日益成为推动行动的应用之源。我们预见了一种应用范式的转变,即数据平台将越来越多地为业务行动提供信息赋能。价值重心正在转移,并持续向基于治理目录构建和利用工具和工作流的方向演进。在此,我们将介绍MosaicAI,这是基于Databricks去年收购MosaicML产品而构建的平台;以及Snowflake的ML/AI托管服务Cortex。
进一步来看,数据平台迄今为止主要专注于构建独立的分析成果,通常被称为数据产品,涵盖仪表盘、机器学习模型以及洞察型数据表等形式。如今,我们正朝着基于RAG架构的生成式AI模型迈进。RAG架构包含检索器和向量嵌入组件,能够输出简单的请求和响应工件。我们认为,数据平台正朝着能够推动业务成果的方向发展。例如,引导潜在客户完成销售流程、为客服代理提供更有效的在线客户服务支持技巧,或预测销售额以驱动运营规划等。这些工作流程更为复杂,既涉及人工监督或人类代理的监督,也涉及在人类监督下执行一系列任务以实现特定目标的代理。
所谓语义层,是指位于上层堆栈之上的数据抽象层,它能够将底层复杂的数据结构转化为易于理解和使用的业务术语。然而,现有的语义层解决方案存在一些潜在的盲点。
例如,Salesforce数据云及其Customer 360方法,其中Salesforce本身嵌入了一定的业务逻辑,并与其他相关公司统一了业务流程数据。相比之下,Snowflake和Databricks等数据平台似乎在这方面有所欠缺,或者可以说,它们依赖于外部生态系统来提供这一功能。
为什么这对当前领导者构成潜在颠覆?
构建分析系统以驱动业务成果时,关键在于充分理解业务状态的上下文,洞悉业务活动的进展,才能做出下一步的决策。然而,单纯拥有一个包含大量数据表的数据湖并不能解决问题,即使表数量达到数万张,也无法识别出与特定客户相关的所有信息,例如该客户与销售流程或服务流程的关联情况。目前,尚无任何一家数据平台公司能够提供完整的解决方案。
谈及图数据库这类技术时,我们发现领导者们对该技术的认知主要有以下几种情况:部分领导者认为图数据库属于小众市场,尚未广泛应用。另一部分领导者则认为图数据库的功能应该由整个生态系统提供,而非单一的技术栈解决。还有一些领导者正在考虑将图数据库引入其现有系统,以增强目录功能。
然而,即使企业构建了包含自身业务人员、地点和事物等信息的知识图谱,也无法像Celonis、微软Dynamics 365 Power Platform或Palantir等公司那样提供详尽的业务状态图。这些公司通过从所有应用程序日志中挖掘信息,或者借助AI和ERP工具,构建了全面的业务状态图,实现了对业务流程的深度洞察。Enterprise Web和RelationalAI等公司也在该领域积极投入,致力于开发能够简化构建此类能力的技术。
关键在于,现有的工具链虽然已经存在,但如果要基于目录构建这些工具链,则目录本身必须具备处理复杂业务逻辑的能力,才能让工具更好地理解业务上下文信息,并有效发挥作用。如果由应用程序供应商来扮演构建目录的角色,可能会加剧数据孤岛问题,甚至对现有的数据平台造成潜在颠覆。
Databricks和Snowflake互相蚕食对方地盘
Databricks进军数据库领域:调查数据显示Lakehouse具有强劲的增长势头
Snowflake曾经在数据库领域占据主导地位,但Databricks正在快速追赶。Databricks在其数据和AI峰会上宣布,其Lakehouse产品是公司历史上增长最快的产品,年收入已超过4亿美元。
值得注意的是,Databricks在2023年1月才首次出现在这项调查中,但其支出速度和渗透率都令人印象深刻。其样本量从2023年1月的146个增加到2024年4月的292个,显示出强劲的增长势头。相比之下,Snowflake在2022年1月达到了80%以上的峰值,但其增长速度有所放缓,与其收入增长率从25-30%减速一致。关键在于,Databricks的实际表现超出了预期,其Lakehouse收入可能增长得更快,远超整体收入50%以上的增长率。
Snowflake切入ML/AI领域:调查数据显示Snowflake的强劲渗透
我们的观点是,Snowflake在嵌入生成式AI能力的Cortex方面做得非常出色。这是其两个最强大的用户角色(数据工程师和数据分析师)的自然延伸,使这些人在数据库中的存储程序中能够轻松地使用生成式AI能力。
他们通过自己最擅长的方式增强了用户角色的能力,即使新功能的使用变得非常简单。
Databricks在净分数或支出动量方面表现优异,可能是因为他们在提升数据科学家、数据工程师和ML工程师作为其现有工具链的延伸方面做得非常好。例如,他们并没有将生成式AI变成一个全新的工具链,而是让ML工程师成为大语言模型操作工程师。这得益于MLflow(Databricks用于模型操作跟踪的标准)的扩展,以涵盖LLM的跟踪。然后统一平台吸收了这些操作数据,使现有用户角色能够利用新技术。我们认为,由于数据科学家、数据工程师和ML工程师是生成式AI支出的自然重心,Databricks有效地利用了这一动态,保持了其强劲的增长势头。
控制权正转移到目录(Catalog)
下图是Databricks上周在其年度大会上展示的,显示了Unity如何连接所有各异的数据平台、提供多种类型的数据和功能,以及对各种数据处理引擎的开放式访问。基本思想是将任何这些数据处理引擎带入数据环境,并由Unity进行管理。
回到我们的主题,控制权正逐渐转移到数据目录上。尽管数据目录未必是唯一的价值所在,但Snowflake确实试图通过Horizon来巩固其在这一领域的地位。重要的是,由于数据目录中的核心数据治理功能被开放源码,我们观察到价值正在向其他方面扩展,这将在后文详细讨论。
从客户需求的角度来分析
Databricks的CEO Ali Ghodsi分享了一张图,用以总结客户的普遍认知。他指出,无论是CIO、董事会成员、CEO还是其他领导者,都渴望在AI领域取得突破,但他们也担心因AI应用失误而面临法律和隐私风险。因此,他们迫切需要对AI进行治理。正如我们之前提到的,他们也认识到分散的数据资产是导致AI表现不佳、成本高、价值难以体现甚至项目最终失败的根源。
在Databricks的Data+AI峰会上,Ghodsi提出了一个极具吸引力的观点,并留下了一句令人印象深刻的话:“不要将数据交给供应商,甚至Databricks也不可。将数据掌握在自己手中,不要完全依赖供应商。”
这句话听起来令人惊讶,但显然在很多情况下,我们确实需要依赖供应商。但Ghodsi的意图是,不要将所有数据交由供应商掌控的平台(如Snowflake),而是要保持数据开放性和自主控制权。他建议利用Databricks或其他引擎提供商(包括Snowflake)的专用工具从开放数据中创造价值。这一愿景的核心在于掌控自己的数据,并能够根据业务需求选择最合适的引擎。简而言之,就是让最合适的引擎发挥其最佳性能。
这个信息引发了客户的共鸣。然而,在与客户沟通谈到数据治理时,我们了解到他们通常说:“我们还在探索阶段。”他们犹豫不决,不知道是选择Unity、Polaris、Horizon还是其他工具。这主要原因是数据治理领域发展迅速,许多客户仍在寻找最适合自己的解决方案。
在Databricks Data+AI峰会上,面对16000名参会者,Matei Zaharia决定将Unity开放源码。这无疑是活动中的一大亮点。此前,人们都在猜测Databricks将如何应对Snowflake开放源码其技术元数据目录Polaris的动作。我们都在关注他们如何应对Unity和Tabular。而Matei Zaharia通过将Unity在Apache 2.0许可证下开放源码给出了答案。
开源Unity并非Polaris的终结
这一刻就像一场网球比赛,观众们的目光在两位选手之间来回切换。在Snowflake峰会上,我们曾认为开源Polaris会阻断Unity与Iceberg表的关联。然而,事实并非如此。Databricks开源Unity,使其成为一个功能丰富的操作和业务目录,并未切断Polaris对Iceberg数据的管控。最终尘埃落定,我们发现这并非单纯的胜负之争。实际上,这一点在Snowflake峰会上并未明确阐述。Snowflake自身的Horizon操作和业务目录实际上与Polaris紧密结合,共同管理治理信息。
因此,所有的安全、隐私和治理政策都与Polaris目录同步和复制,确保你能够统一管控Snowflake数据资源和Iceberg数据资源。需要注意的是,当数据存储在Snowflake中时,包括托管的Iceberg表,外部用户可以访问这些Iceberg数据但无法写入。目前Polaris管理着任何人都可访问的外部表,Snowflake也能够访问这些表,但现在这些外部表也纳入统一的治理策略。因此,对于使用Iceberg表的Snowflake用户而言,这将提供一个全面的治理解决方案。
那么,对于使用Delta格式且采用Unity的企业而言呢?在这种情况下,任何引擎都可以读取和写入Delta表,这是Databricks的一大优势。然而,目前第三方工具只能读取Iceberg表,无法写入。许多人可能尚未意识到,Unity目前无法完全控制对Iceberg表的写入访问权限。这确实是一个问题,也是我们认为Iceberg的创始公司Tabular最终被Databricks收购的原因之一。
现在竞争已经拉开帷幕,赌注越来越大。
Databricks能否实现Delta和Iceberg数据的互操作性?
在Snowflake峰会召开期间,另一个关键动态浮出水面。就在Snowflake联合创始人Benoit Dageville发表主题演讲之时,Databricks宣布收购由Iceberg创始团队创办的Tabular公司。Tabular的CEO Ryan Blue曾探讨了Delta表等多种格式。Delta表是Databricks的默认格式,得到了广泛应用,但在多种格式之间进行转换存在困难。
现在让我们深入剖析一下此次收购的意义。
Databricks收购了Iceberg的创建者,这意味着它现在拥有使Delta和Iceberg实现互操作并尽可能无缝对接的技术实力。然而,根据Ryan此前的表述,这并非易事,尽管此次收购彻底改变了行业格局。Tabular一直致力于解决不仅仅是表格格式的无缝运行问题,还涉及治理能力的添加。我们认为,Tabular实际上正在开发一个带有高级治理策略的复杂目录引擎。
当Ryan在Ali的演讲中谈及Tabular的收购目标时,很明显现在的焦点是将Tabular团队40名成员的智慧更多地用于实现与Delta格式的互操作性。换句话说,添加策略引擎的必要性已经降低,因为这将由Uniform功能来承担。Uniform是Databricks推出的一项功能,它允许存储在Delta Lake中的数据像Iceberg或Hudi格式一样被读取和写入,而无需复制数据。如果这一功能成功实现,对于Databricks来说将是一个极具吸引力的卖点,因为它消除了重复数据的需求,并进一步支持了单一版本的事实。
对于Snowflake而言,这可能构成一种潜在的威胁,因为Iceberg可能不再专注于为其专有的Iceberg表添加高级功能,而是可能更多地转向与Delta的互操作性。当然,鉴于Iceberg的开源特性,如果Snowflake选择这样做,它可以投入资源来开发提供此类功能的服务。从Snowflake峰会上,我们感受到Snowflake可能会观望纯开源方法是否能提供完整的读写功能。如果无法提供,客户可能会选择其托管的Iceberg服务。但若是等待过久,可能会让Databricks获得难以追赶的先发优势。
AI依然占据主导地位
现在让我们将注意力转向AI领域。去年在Databricks Data+AI峰会前夕,Databricks宣布以大约13亿美元收购了一家名为Mosaic ML的公司,为公司带来了更多AI人才。Databricks利用这次收购推出了Mosaic AI,并给出了相应的图示。
十五个月前,我们曾认为GenAI浪潮是微软试图超越Databricks的一种工具链,因为它对Databricks构成了不小的威胁。然而,Databricks用实力证明了我们的预判是错误的,他们通过引进新的能力,进一步提升了团队的专业素养,其中很多新能力来源于Mosaic的收购。如今,关键在于我们不是在孤立地构建组件,而是越来越倾向于构建模型系统,每个模型都有其特定的任务。
工具链的核心在于确保所有部分协同工作,以实现最佳性能。尽管这一目标尚未完全达成,但各组成部分正在逐渐到位。尽管尚未正式公布,但据深入讨论了解,Databricks已经聘请了DSPy的创始人。DSPy实际上是LangChain的继承者,LangChain在DSPy崭露头角后逐渐淡出视野。DSPy本质上是一种优化全管道专用模型的方法,这是我们在其他供应商(包括Snowflake)身上尚未见到的独特之处。
此外,在工具链中,评估功能至关重要。因为在构建持续改进的模型时,评估能力是提供必要反馈,使模型得以持续学习和优化的关键环节。
当将这些元素融为一体时,Databricks的Mosaic工具链正帮助客户构建极其复杂的复合系统。仅仅依赖GPT-4、嵌入模型、向量数据库和检索器的观点已经落伍。取而代之的是,我们现在正致力于构建更加复杂的工具链,这也引发了下一个问题:当开始将这些工具链整合在一起时,将会产生更加有意义、更强大的成果。
构建系统的系统,新的应用范式
展望未来,让我们尝试将其可视化。想象一下几年后,我们将探讨这一应用范式的演变。我们可以想象构建的一个系统之系统,其中不同的系统利用基础模型和/或特定领域模型。这些模型为一个全新的模型(或可称之为“超级模型”)提供数据,该模型能够自主采取行动。
第六代数据平台的概念旨在构建一个反映企业人、地、物状态的数字孪生,这可以类比为我们的企业版Uber隐喻,其中分析系统为决策层提供信息支持。而这个决策层是智能化的,它意味着一个能够自主工作的智能系统,能够基于具体用例实时做出决策,并根据不断变化的条件自动调整策略并采取行动,有时甚至无需人工干预。
设想一下与前沿供应商合作实现的未来场景,这里的亚马逊指的是Amazon.com而非AWS。他们采用了一种非常前沿的“代理的代理”方法。亚马逊利用约15年的销售历史数据,现在可以生成精确到未来五年的预测,这些预测细化到4亿个SKU中的每一个,甚至包括他们尚未见过的产品。
当他们能够实现可靠的精确预测时,他们有一组规划代理可以根据这些预测进行协调。这些规划代理的工作范围广泛,包括如何构建和配置履行中心、从每个供应商那里订购什么、如何在配送中心之间分配供应、交叉对接,以及挑选、包装和运输哪些商品。关键在于,现在有一组代理系统,它们共同训练以找出一组最优计划,但这些计划是为了服务于某个顶层目标(如增长、盈利、交付速度等)而协调的。这代表了一种由“系统的系统”驱动的业务成果,需要非常先进的工具,而目前这些工具在主流供应商中尚不完全存在。然而,像亚马逊这样的公司正在展示未来的可能性,我们认为这将是未来价值创造的关键点。
持续演变的数据管理格局
数据管理模式正从以数据库管理系统(DBMS)为中心转向以目录构建工具为中心的模式,正如亚马逊案例所示。这种“系统之系统”的概念为构建超大型系统提供了数据基础。
表格数据解决方案仍然存在悬念。我们将密切关注Databricks和Tabular如何“无缝”集成Delta,以及Snowflake的后续举措。
简而言之,Snowflake会如何扩展其数据治理平台Horizon?Polaris是一个开源的技术元数据目录,而Horizon提供基于角色的访问控制和所有真正高价值的治理功能。然而,这些功能主要局限于Snowflake内部环境。托管的Iceberg表支持这种格式,但也必须在Snowflake内部使用。那么,Snowflake将如何发展Horizon?他们会将Horizon扩展到Snowflake本地数据之外吗?我们认为Snowflake尚未做出最终决定,并可能让市场驱动发展方向。如果开源未能实现预期,客户可能会转向Snowflake内部部署或将更多数据迁移到Snowflake。如果开源取得快速发展,我们可能会看到Snowflake在这个方向上采取进一步行动。
我们认为Databricks的下一步是更紧密地融合Delta和Iceberg,以简化用户体验并降低成本。由于拥有了Iceberg的创建者,他们可以更深入地理解Iceberg的运作机制。许多收购都是为了获取人才,Databricks收购Iceberg就是一个明证。同样,Snowflake收购Neeva也体现了这一趋势。因此,从战略上看,将Unity(Databricks的数据治理或整合平台)构建为目录中的目录,即我们之前讨论的超级目录,是非常有吸引力的。
一个未知因素是那些构建语义层的参与者。我们讨论了Salesforce及其数据云版本,以及像Palantir这样的公司在语义协调方面所做的工作。当然,云服务商也位列其中,尽管我们在本文中没有专门探讨,但它们显然也是不可忽视的力量。
下一步发展
两年前,数据领域的讨论主要集中在商业智能指标上。随后,构建带有声明性知识图谱的语义层(例如RelationalAI或Enterprise Web的技术)成为新的热点话题。但如今,一些折衷方案开始涌现,其中Salesforce正在发展成为一个集应用程序和语义层于一体的超大规模服务商。
我们关注的是供应商如何演变并超越彼此。以Snowflake为例,它可能会将嵌入DBMS的目录转变为独立的SKU,并可能以不同的价格提供此功能,即使使用的是相同的技术。此外,它还可能会扩展其服务范围,利用类似Dagster的工具来编排Snowflake范围之外的数据工程工作流。如果Snowflake这样做,它将能够捕获所有血统数据,这是所有操作目录的基础。这将是Horizon扩展其影响范围并超越Snowflake DBMS内部活动的一种方式。
值得注意的是,当前数据领域正处于快速发展时期,各大厂商所争夺的不仅仅是下一个数据平台,更是下一个应用平台,智能应用程序的平台。
Source:David Vellante, George Gilbert; Decoding the Chess Moves of Snowflake and Databricks; June 22, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)