查看原文
其他

Databricks数据智能平台:颠覆性变革的洞见

常华Andy Andy730
2025-01-01

"软件正在吞噬世界"的洞察深刻地塑造了现代科技行业。如今,软件已经无处不在,融入我们佩戴的手表、居住的房屋、驾驶的汽车、工厂和农田。我们坚信不久的将来,AI将彻底改变所有软件(AI will eat all software)。换句话说,过去几十年构建的软件将变得智能化,充分利用数据赋予其更强大的智能性。其影响涵盖了客户支持、医疗保健、教育等各个领域,呈现出广泛而多样的影响。

在本文中,我们详细阐述了AI如何改变对数据平台的看法。我们认为,AI对数据平台的影响将不是渐进的,而是根本性的:实现大规模民主化的数据访问,自动化手动管理,并实现一键创建定制AI应用。所有这些将通过一系列深度理解企业数据的新一代统一平台来实现。我们将这一新一代系统称之为“数据智能平台”(Data Intelligence Platforms)。

传统的数据平台及其挑战

在20世纪80年代,数据仓库作为一种解决方案应运而生,旨在企业中的结构化业务数据。然而,到了2010年,企业开始积累大量非结构化数据,以支持更多样化的用例,例如AI。为了解决这一问题,数据湖被引入作为一种开放、可扩展的系统,适用于任何类型的数据。到2015年,大多数企业通常同时部署了数据仓库和数据湖。然而,这种双平台方法在治理、安全性、可靠性和管理方面带来了重大挑战。

五年前,Databricks率先提出了“湖仓”(lakehouse)的概念,将两者的优势结合起来。湖仓以开放格式存储和管理所有数据,并本地支持从BI到AI等各种工作负载。湖仓首次提供了一个统一的系统,可以(1)查询企业中的所有数据源,并(2)以统一的方式管理使用数据的所有工作负载(BI、AI等)。湖仓成为数据平台的一类,并且现在被广泛使用并纳入大多数供应商的技术堆栈中。

尽管取得了进展,但当前市场上的所有数据平台仍然面临几个重大挑战:
  • 技术技能障碍:查询数据需要具有专业技能的人,懂得SQL、Python或BI,形成陡峭的学习曲线。
  • 数据准确性与策划:在大型企业中,找到正确和准确的数据是一项挑战,需要进行广泛而深入的策划和规划。
  • 管理复杂性:如果不由资深技术人员管理,数据平台的成本可能会飙升,性能可能不佳。
  • 治理和隐私:全球各国的治理要求正在迅速发展,随着AI的出现,对于数据的渊源、安全性和隐私的担忧也在加剧。
  • 新兴AI应用:为了实现能够回答特定领域请求的生成式AI应用,企业必须在与其数据分开的平台上开发和调整LLM,并通过手工工程将它们连接到其数据。


解决这些问题的关键在于数据平台对企业数据及其使用方式的深刻理解,而生成式AI为克服这些挑战提供了一种强大的新工具。

数据智能平台的核心理念

数据智能平台通过利用AI模型深入理解企业数据的语义,彻底改变了数据管理的方式;我们将这称为“数据智能”(data intelligence)。这些平台构建在湖仓的基础上——一个用于查询和管理企业中所有数据的统一系统——但具备自动分析数据(包括内容和元数据)以及数据使用方式(如查询、报告、渊源等)的能力,从而增加新的功能。通过对数据的深刻理解,数据智能平台实现了以下方面:
  • 自然语言访问:借助AI模型,数据智能平台使用户能够使用符合每个企业行话和首字母缩略词的自然语言与数据交互。该平台观察数据在现有工作负载中的使用方式,以学习企业的术语,并为所有用户提供定制的自然语言界面,从非专业人员到数据工程师都可使用。
  • 语义目录和发现:生成式AI能够理解每个企业的数据模型、度量和关键绩效指标,提供无与伦比的发现功能,或自动识别数据使用方式存在的差异。

  • 自动化管理和优化:AI模型可以根据数据使用情况优化数据布局、分区和索引,减少手动调整和旋钮配置的需求。

  • 增强的治理和隐私:数据智能平台可以自动检测、分类和防止敏感数据的滥用,同时通过自然语言简化管理。

  • AI工作负载的领先支持:数据智能平台通过允许其连接到相关的业务数据,并利用数据智能平台学到的语义(度量、关键绩效指标等)来提供准确的结果,增强任何企业AI应用。AI应用开发人员不再需要通过脆弱的提示工程方法“拼凑”智能。


对于一些人来说,他们可能会好奇这一点与过去几年BI工具添加的自然语言问答功能有何不同。BI工具仅代表整体数据工作负载的一个狭窄(尽管重要)部分,因此无法观察到大多数工作负载以及数据在达到BI层之前的渊源和用途。由于缺乏对这些工作负载的可见性,BI工具无法实现深入的语义理解,因而其自然语言问答功能尚未被广泛使用。通过数据智能平台,BI工具将能够充分利用底层的AI模型,为用户提供更加丰富的功能。因此,我们相信这一核心功能将成为数据平台的重要组成部分。


Databricks:引领数据智能的先锋

在Databricks,我们一直在借助数据湖仓构建数据智能平台,并随着逐步添加个别功能,我们对于数据平台中AI的潜力变得越发振奋。我们的Databricks湖仓具备独特的能力,是业内唯一拥有(1)跨数据和AI的统一治理层和(2)融合ETL、SQL、机器学习和BI的单一统一查询引擎的数据平台。此外,通过对MosaicML的收购,我们在称之为DatabricksIQ的数据智能引擎中生成AI模型,为我们平台的各个组成部分提供了强大支持。

DatabricksIQ已经渗透到我们当前技术堆栈的多个层次。它的应用包括:

  • 在整个平台中调整设置,包括自动索引列、布局分区,并增强湖仓的基础。这将为我们的客户提供更低的总体拥有成本和更出色的性能。

  • 通过自动将Unity Catalog(UC)中的所有数据资产的描述和标签插入,改善UC中的治理。随后,我们充分利用这些信息,使整个平台能够理解行话、首字母缩略词、度量和语义。这使得更出色的语义搜索、更高质量的AI助手以及更强大的治理能力成为可能。

  • 改进我们AI助手中Python和SQL的生成,支持文本转SQL和文本转Python。

  • 通过在我们的Photon查询引擎中纳入关于数据的预测,提升查询速度。

  • 在Delta Live Tables和Serverless Jobs内部,基于工作负载的预测,提供最佳的自动缩放和成本最小化。


最后但或许更为重要的是,我们坚信数据智能平台将极大简化企业AI应用的开发。我们将DatabricksIQ与我们的AI平台Mosaic AI直接融合,以便企业能够轻松创建深度理解其数据的AI应用。Mosaic AI目前提供多项功能,直接整合企业数据到AI系统中,包括:

  • 端到端的RAG(检索增强生成,Retrieval Augmented Generation),用于在自定义数据上构建高质量的对话代理,充分利用Databricks Vector Database作为“记忆”。

  • 在企业的数据上从零开始训练定制模型,或通过对现有模型(如MPT和Llama 2)进行持续预训练,以进一步提高AI应用对目标领域的深刻理解。

  • 在企业数据上进行高效安全的无服务器推理,并连接到Unity Catalog的治理和质量监控功能。

  • 基于流行的MLflow开源项目的端到端MLOps,所有生成的数据都可以在湖仓中自动执行、跟踪和监控。


总结

我们坚信AI将彻底改变所有软件,而数据平台是通过AI创新的最有潜力的领域之一。从历史上看,数据平台对于最终用户而言难以访问,对于数据团队而言难以管理和治理。数据智能平台将通过直接解决这两个挑战来改变这一格局——使数据查询、管理和治理变得更加容易。此外,它们对数据及其使用的深入理解将成为在该数据上运行的企业AI应用的基石。随着AI重塑软件世界,我们相信每个行业的领导者将是那些深度利用数据和AI来推动其企业的人。数据智能平台将是这些企业的基石,使它们能够以质量、速度和灵活性创建下一代数据和AI应用。

-----
Source: Michael Armbrust, Adam Conway, Ali Ghodsi, Naveen Rao, Arsalan Tavakoli-Shiraji, Patrick Wendell, Reynold Xin and Matei Zaharia; Data Intelligence Platforms; November 15, 2023



---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存