Databricks Data+AI峰会主题发言(Day1 全文)
Databricks Data Intelligence Platform Native support for NVIDIA GPU acceleration on the Databricks Data Intelligence Platform Databricks open source model DBRX available as an NVIDIA NIM microservice Shutterstock Image AI powered by Databricks Databricks AI/BI Databricks LakeFlow Databricks Mosaic AI Mosaic AI Agent Framework Mosaic AI Agent Evaluation Mosaic AI Tools Catalog Mosaic AI Model Training Mosaic AI Gateway
Ali Ghodsi, Co-founder and CEO, Databricks Brian Ames, General Motors Patrick Wendall, Co-founder and VP of Engineering, Databricks Jackie Brosamer, Head of AI, Data and Analytics, Block Fei Fei Li, Professor, Stanford University and Denning Co-Director, Stanford Institute for Human-Centered AI Jensen Huang, Co-founder and CEO of NVIDIA with Ali Ghodsi, Co-founder and CEO of Databricks Reynold Xin, Co-founder and Chief Architect, Databricks Ken Wong, Senior Director, Product Management, Databricks
-----
Ali Ghodsi
大家好,非常高兴能来到这里。这一周是我每年最期待的一周,52周中我最钟爱的就是这一周。
我们热烈欢迎大家的到来。这是一场全球性的盛会,事实上,我认为这是目前世界上规模最大的数据和AI盛会。
我们为许多开源项目和开放源代码做出了巨大贡献。今年,我们迎来了Spark项目的第11个年头,其每年的下载量已经超过10亿次。同样,Delta Lake项目的年下载量也超过10亿次,而ML/GenAI Ops平台MLflow的下载量更是达到了2亿次。
我们做了一个统计,想要看看Databricks员工为开源项目贡献了多少行代码。结果显示是1200万行。作为对比,整个安卓项目的代码量大约有300万行。
在我的主题演讲中,我想给大家展示一下我们认为可以通过Databricks平台实现的愿景。
我们已经谈论了很长时间:现在地球上的每家公司都希望成为一家数据和AI公司。在过去的18个月里,每个CIO,甚至我见过的每个财富500强公司或小公司的CEO都认为,数据和AI将在未来5年内成为他们的战略性重点。他们相信这是他们获胜的关键。这将是主要的差异化因素——他们如何利用数据和AI,无论是在金融、零售、媒体、医疗保健还是公共领域。都一样,全都是数据和AI。
在Databricks,我们的使命自创立之初就是使数据和AI普及化。即使在我们还是加州大学伯克利分校的研究员时,我们就希望将这种技术带给世界上的每个人使用。在10到15年前,对于一个组织,不得不雇佣大量工程师,并在内部构建一个完整的AI堆栈。那时,Uber、Twitter和Airbnb都在这样做。但如今,可以利用这些平台为组织创造商业价值。
在过去的18个月,有一个很大的疑问:你能提供实际的应用场景吗?你真的能投入生产吗?我们真的能确保数据和AI有价值吗?我与许多领导者和实践者交谈过,他们一次又一次地提出同样的问题。当我与人们交谈时,通常会出现三个问题。那么这三个问题是什么呢?每个人都渴望AI。每个人都希望AI能进入他们的组织,他们希望这一切能尽快实现。组织内部存在一场激烈的争夺:谁将拥有AI?这是第一个问题。
第二个问题,每个人都非常关注他们的数据、AI以及整个数据环境的安全和隐私。他们担忧整个数据环境的安全和隐私,而现在的数据环境又非常分散。这确实带来了很多挑战。
接下来,让我们深入探讨这三个问题的每一个细节,看看它们究竟是什么,然后我会向大家介绍Databricks平台以及我们提出的解决方案。
首先,关于第一个问题:每个人都渴望AI。他们希望自己的组织能够拥有这项技术,甚至希望是昨天就拥有。事实上,今年已经是一个令人瞩目的年份。你们可以看到这里有一个基准测试,可能是目前最流行的基准测试,它被称为MMLU(大规模多任务语言理解,Massive Multitask Language Understanding)。这个基准测试包含了72个不同类别的测试,检验模型在生物学、历史学等领域的知识。你们可以看到,AI模型,特别是大型语言模型,表现得越来越好,几乎接近满分。
这对开源社区来说也是一个伟大的年份。我们见证了开源模型的迅速崛起,例如Databricks的DBRX,它在两周内就成为了世界上最出色的模型之一。当然,还要感谢Mark Zuckerberg在两周后发布了那个模型。然后是Llama 3,但关于Llama 3,我们甚至还没有看到最大的模型被发布。可以说,开源正在以惊人的速度迎头赶上。
这些基准测试的结果确实令人赞叹。但当我与各个组织交谈时,他们给出的反馈是:“我并不关心这些标准基准测试,我更希望模型能在我的数据、我的应用场景和我的组织中表现出色。我不在乎它在MMLU上的表现如何,那对我的公司没有实质性的帮助。”他们更关心的是这些模型在他们的具体应用场景中的表现。另外,我们进行了一项客户调查,结果显示85%的AI应用场景尚未进入生产阶段。他们仍在试验中,努力确保这些应用场景准备就绪,但尚未全面投入生产。
总结一下,关于AI的问题主要有三个:如何在你的组织和数据上应用AI技术并将其投入生产?在确保高质量的同时,如何实现这一点?如何确保它以合理的成本运行?我们不想让成本成为阻碍因素。第三,我们如何确保AI的隐私?
这张幻灯片总结了我们在AI领域观察到的情况以及人们正在努力解决的问题。当谈到隐私时,这是一个完全不同的问题。人们非常担心他们的AI技术的安全和隐私。我们看到了关于AI监管的激烈讨论,甚至可能禁止某些开源模型的讨论。人们担心数据隐私,而不仅仅是AI,数据本身也受到了攻击。网络攻击正针对数据平台,人们试图侵入他们的公司。
人们希望确保他们的数据安全,而不仅仅是AI的安全,而是整个数据环境的安全。这包括原始数据、结构化数据、非结构化数据、AI模型、Notebooks、仪表板以及你组织中的任何内容。这在某种程度上减缓了发展步伐,人们变得非常谨慎和紧张。他们希望确保他们的数据环境是安全的。
第三,数据环境非常分散。这是我在每次沟通中听到的首要问题。人们谈论数据环境的碎片化。他们表示,通常如果我与一位首席信息官交谈,几乎每次通话都会听到这样的反馈:“我们有很多不同的软件,我甚至不知道它们的具体用途。我们每种软件都有,但我甚至不清楚它们的功能。但我必须削减它们,因为预算有限。事实上,情况并非如此。我们每种软件都有很多,我们有很多数据仓库,很多数据科学平台,到处都是数据孤岛。”这导致了巨大的复杂性、高昂的成本以及对这些专有系统的锁定。每个系统都是一个独立的单元,而你被困在其中。
这三个问题正是我们公司致力于解决的关键问题。我们正在努力推动这些问题的解决。那么,我是如何做到这一点的呢?我们称之为Data Intelligence Platform,我们的愿景始于我们称之为“Lakehouse”的产品。
大约5年前,在这个会议上,我们提出了一个观点,那就是不要将数据交给任何供应商。他们只会将你锁定在特定的系统中。不要将数据交给任何供应商,无论是云中的专有数据仓库,还是Snowflake,甚至是Databricks,也不要交给我们。相反,你应该拥有自己的数据。将其存储在云中的廉价硬盘驱动器上,这就是所谓的“数据湖”。将数据存储在那里,独立支付费用,并确保将计算和存储完全分开。它只是一个基本的“数据湖”(Data Lake),比如S3、Azure Data Lake Storage (ADLS)、GCS。但我们需要以标准格式存储它。所以,你可以将其想象成一个USB设备。这就是我们在这里宣布开源Delta Lake项目的原因。
这个想法是,一旦我们有了这种USB格式的数据存储方式,任何人都可以将其数据平台与之连接。我之前提到的那些供应商,“不要把你的数据交给他们”,他们应该只需将其“USB”插入你云中的数据中,然后让最出色的引擎脱颖而出。让我们看看谁更胜一筹。也许这周是我们,也许下周就是其他人了。这带来了颠覆性的变革,消除了数据锁定的困境,降低了成本,也让你能够应用更多的应用场景,因为你可以根据需要选择使用不同的引擎。
我们几乎成功了,人们也都被这个理念所打动。在座的每个人都渴望拥有这样的解决方案。他们说:“我们想要掌控自己的数据,并希望它采用标准化的格式。”但不幸的是,现在存在两个对立的阵营。在Databricks方面,我们有Delta Lake。实际上,我们看到约92%的数据都采用了Delta格式。这相当于每天处理大约4EB(即4000PB)的数据量。但还有许多其他供应商则选择了另一种格式,即Apache Iceberg格式。
上周,我们宣布了收购Tabular的消息,这是上周的一个重大新闻。Tabular由Apache Iceberg项目的原始创始人Ryan Blue和Dan Weeks创立,他们在Netflix工作时启动了Apache Iceberg项目。我们收购了这家公司。我们这样做的原因是我们希望消除这种对立,让你无需在选择数据存储格式时纠结。如果你的数据采用这种USB格式,那么无论哪种引擎都能轻松接入。我们不想看到这种割裂的情况。无论你选择哪种存储方式,所有引擎都应该能够顺畅地工作。我们期待有一个非常简单且统一的标准。
我们的战略是在一年前,我们宣布了Project Unity。作为Delta的一部分,我们在这里宣布它将成为正式发布(GA)。Unity能够将Delta和Iceberg这两种格式转换为相同的标准。它现在已经在做这件事并且是GA版本了。但我们对Delta了如指掌,而对Iceberg格式的所有复杂性却了解不多,但Apache Iceberg的原始创作者非常了解。因此,现在在Databricks,我们拥有来自这两个项目的员工,他们来自Delta和Iceberg团队。我们真的希望加倍努力,确保Unity对这两种格式具有100%的兼容性和互操作性。如果你今天将数据放在Unity中,那将是一件轻而易举的事情,它应该能够正常运行。
在背景层面,我们希望与这些社区合作,包括Delta Lake社区和Apache Iceberg社区。这些是由全球各地的人们组成的开源社区,它们由Apache软件基金会和Linux基金会等组织管理。我们希望与他们合作,共同改进这些格式,使它们更加接近,以至于它们之间的差异变得不再重要。所以如果你现在选择将数据存储在Unity中,那么在未来的日子里,随着这些格式越来越接近,你将不再关心具体使用哪一种。这种差异将逐渐消失,我希望在一两年内,我们甚至都不会再去关注这个问题。就像VHS和Betamax一样,谁还会在乎呢?
这就是我们在数据格式方面的策略。我们期待有一个统一的USB格式。这不应该成为一个问题,所有格式都应该得到支持,并且能够正常运行。这是第一个问题,即数据碎片化。你的数据被锁定在特定的系统中。现在,数据只是以USB格式存在于一个湖中,任何引擎都应该能够访问它。
接下来是第二个问题,即治理和安全性。我如何确保这些数据是安全无虞的?在这方面,我们在几年前推出了Unity Catalog。Unity Catalog可能是Databricks自成立以来最重要的创新之一,也是人们今天选择使用Databricks的主要原因。这是因为Unity Catalog不仅适用于表格数据,还适用于非结构化和原始文件,以及所有的数据状态,包括机器学习模型和AI模型等。它不仅仅涉及访问控制和安全性,还包括数据发现、谱系追踪、审计以及数据质量或AI模型质量的监控。
这就是我们的现状。现在我们有了Delta,还有用于治理的Unity Catalog。我非常高兴地宣布,我们也将在这里开源Unity Catalog。
这就是Lakehouse的愿景。简单来说,以前所有孤立的存储现在可以访问湖中标准化、符合你所有权的USB格式数据副本,并通过统一的治理层——Unity Catalog来管理所有数据状态。这也是一个开放的体系。Unity Catalog的一个关键特点是,它支持两种已成为治理标准的API:Hive元数据存储API和Iceberg REST目录API。Unity Catalog已经支持这一REST API目录。事实上,我认为Tabular和Databricks是唯一支持这种REST API目录的。Unity Catalog还将建立在已广泛使用的API基础之上。因此,我们基本上对数据层和安全层进行了标准化,让你能够拥有数据并通过这些开放的接口进行处理。我相信这对社区、对在座的各位来说都将是一个令人振奋的进展,因为这将带来更多的应用场景,促进更多的创新,并扩大这个市场,让每个人都受益。
这就是Lakehouse。但我还提到了数据智能。那是什么?作为一家公司,我们非常兴奋地将支持所有数据和治理的Lakehouse与生成式AI相结合。特别是,去年在这里的舞台上,我们宣布收购了Mosaic AI。当你将Mosaic AI(这是一个在你的数据上训练定制AI的平台)与Lakehouse平台结合使用时,就得到了我们所说的数据智能。
那么,什么是数据智能?数据智能意味着我们的平台会针对每个客户的数据进行隔离训练以生成AI模型,并在整个平台上利用这一点来执行所有操作。这是什么意思?听起来像什么?我们想要做什么?数据智能是什么?对我们来说,数据智能实际上是我们想要实现的两个目标。首先,我们想要实现数据的民主化。其次,我们想要实现AI的民主化。
什么是民主化的数据?什么是民主化的AI?它们非常相似。数据民主化意味着组织中的任何人都应该能够直接访问数据。但今天,这并不是现实。首席执行官不会直接访问数据并从数据中提出问题。他或她会去找数据团队,并问:“嘿,你能给我这个报告吗?”然后他们会问:“您什么时候要?”接着他们会开始工作,因为首席执行官可能不懂SQL或Python,或者至少不知道在哪里找到数据和提交他们自己的查询。因此,我们真的希望实现数据的民主化,以便如果你说英语或任何其他自然语言,你应该能够直接向数据提问,组织中的更多人应该能够从数据中获得洞察。所以我们对此非常期待。而AI的民主化则有所不同。AI的民主化意味着像你这样的从业者应该能够轻松地创建了解你组织数据的AI模型。这就是AI的民主化。我们想要实现这两点。
让我们从第一点开始。我们如何让你与你的数据交流?如何让任何人都能够与他们的数据交流?这就是数据智能的意义所在。我们希望你能够问:“公司在其财年目标上做得如何?”我们希望平台能够理解这个问题背后的含义。FY代表财年。在你所在的公司中,财年可能从2月1日开始,也可能从7月1日开始。它应该了解这一点。在你所在的公司中,“业务”可能意味着你组织中最重要的某些关键绩效指标。它应该理解这些。然后我们希望它能够给你提供权威、经过认证的答案,这些答案是正确的,没有任何误导,我们实际上可以验证这些答案是正确的。这对我们来说就是数据智能。所以这是我们的目标。这是我们的愿景。整个公司都在为实现这一目标而努力。
这只是一个模拟的截图,不是一个真正的产品。我们有真正的实时演示。
然后,如果你在组织中点击一个随机的表数据集,你可能会得到一些难以理解的内容。
这就是为什么首席执行官可能不知道如何从数据中提出问题。通过数据智能,实际上,今天我们已经可以在Unity Catalog中填写信息,我们已经使用生成式AI填写了所有Databricks文档,以及自我们开始Databricks以来遇到的所有错误。它用英文文本描述了所有数据集正在做的事情。当我们有了这个功能后,就可以进行准确的搜索。所以当有人说:“我在哪里找到HomeGoods的运输信息?”它知道你正在寻找那个特定的数据集,因为它有所有这些描述。这就是数据智能。这是我们正在努力实现的。
我确实想大力推荐Databricks中现已存在的一个功能,那就是通过DBRX训练的助手。我们已经在所有的Databricks文档中进行了微调,并对我们自推出Databricks以来遇到的所有错误进行了优化。如今,你可以要求它执行相当高级的任务。例如,你可以说:“嘿,帮我编写一段执行流式处理的代码,像这样编写。”它就会按照你的要求执行。我每天都在使用这个功能,它确实提高了我的工作效率。尽管我的编码技能有些生疏,但只要和助手一起工作,它就能帮我写出正确的代码。我甚至能写出一些看似正确的伪代码,但编译器可能无法接受,这时系统就会自动帮我修正。每天有超过10万用户在Databricks平台上使用这个功能。因此,我认为它已经在推动数据访问的民主化,使越来越多的人能够与数据交流,向数据提问。这就是数据智能在数据交流方面的应用。
当谈到AI的市场化时,这正是我们整个生成式AI堆栈的用武之地。
在Mosaic AI中,我们基本上拥有全球所有的无服务器GPU,我们致力于让你能够非常轻松、无缝地在UI中构建自己的AI模型,并对其进行生产和评估。第一步是准备数据,使其符合AI的要求,这个平台非常适合完成这一任务。
第二步是如何训练或微调模型,无论你是想使用高级技术如LoRA,还是想对整个模型进行持续预训练,或者你想使用向量搜索或其他任何你想要的技术。你可以在这里构建自己的AI。
然后,你可以将模型部署到生产环境中,这意味着你可以在不同国家的我们的GPU上以无服务器的方式运行它们。这些GPU已经准备就绪。我们为这些GPU投入了大量的成本,我的财务总监每周都会提醒我这一点。你可以在这些GPU上运行你的模型,甚至我们的向量搜索数据库。
接下来是评估环节。你如何知道你的AI在生产环境中表现良好?当然,对于在座的大多数人来说,非常重要的一点是,你如何对其进行治理?我们如何确保我们可以追踪它、限制速率、跟踪tokens,以确保它不会做出我们不希望它做的事情?这就是Mosaic AI的功能所在。
这就是Databricks的整个平台。这就是我们的Data Intelligence Platform,有Unity Catalog、Delta等所有可以访问它的工具。
我要宣布的最后一件事是,现在所有的Databricks功能都可以在无服务器环境中使用。从7月1日开始,你将在Databricks中获得所有内容的无服务器版本。无论是Notebooks、Spark集群、工作流还是作业处理,Databricks的所有不同方面,到目前为止只有一部分支持无服务器。现在,你可以以无服务器的方式使用所有这些功能。
这个项目涉及数百名工程师,历时两年多。这是一个长期的内部项目。两三年前,我的联合创始人Matt和我告诉公司,我们必须构建一个简单的无服务器版本。但我们的工程师提出了反对意见,并说:“嘿,你们错了。我们应该从头开始为无服务器时代重新设计它。”我们告诉他们:“不,这是公司的决定。”事实证明,技术负责人是对的。他们已经努力工作了2年,所以我们基本上重新设计了许多产品,包括Notebooks、jobs等一切,就像我们重新开始了一家新公司一样。在无服务器时代,我们会如何设计这些产品?我们如何确保它们能够立即启动?没有集群的束缚,一切都运行得非常、非常快。在幕后,我们确保资源的复用。实际上,如果你不使用无服务器,你今天正在为闲置时间付费,这实际上意味着你正在向云供应商支付大量费用。而且,除了这个之外,你还在为无服务器的闲置时间付费,但你只需为你实际使用的东西付费。实际上,没有集群设置为闲置或非闲置的状态。我们会在幕后为你处理所有这些。
我们对无服务器版本的另一个兴奋点是,由于现在我们拥有所有的机器,所以不再存在在你的账户和我们的账户中运行的机器的共同责任问题。我们能够真正重新设计,以便今年我们将以一种与无服务器成本控制非常匹配的方式推出一种灾难恢复方案,这样你就可以真正地进行跟踪,你可以进行token,你甚至可以使用AI来预测你在无服务器基础设施上的成本。
我们还能以不同的方式进行安全设置,因为我们拥有所有的机器,所以我们能够以不同的方式对其进行严格控制,这在非无服务器时代是不可能的。因此,我们对此非常激动,以前的所有这些调整选项都不再需要了。
集群调优、设置集群使用的机器类型、是否应该自动扩展等选项都不再可用,它们都消失了。没有这样的页面供你操作,你也无法进行这些设置。
数据布局的问题,即如何准确设置和优化数据集,这些繁琐的步骤都已经不存在了。因为是无服务器模式,我们会在后台自动运行优化程序,利用机器学习技术,使数据集的处理变得非常快速和高效。
这也极大地简化了容量规划和使用情况跟踪的工作。另外,我最喜欢的一点是,不再需要担心版本问题。在使用无服务器版本时,你将不再受限于特定的Spark版本,因此无需担心升级等繁琐事宜。我们对此非常兴奋,希望你能尽快开始体验无服务器模式的便捷。
展望未来,我们推出的新产品,比如明年我再次站在这里时,它们可能将只支持无服务器模式。因此,如果你的组织尚未采用无服务器技术,我建议你尽快开始尝试。我们正在全球范围内推出无服务器基础设施,以确保无论你身处何地,都能享受到我们提供的服务。无论你是从哪个国家收听我的演讲,或是代表哪个国家而来,我们都希望在你附近设有无服务器基础设施。这就是Data Intelligence Platform的魅力所在,目前已有超过1.2万个客户正在利用这一平台。
我还是希望听听其他人的故事。现在,我想邀请Brian Ames上台,他将分享通用汽车如何利用Data Intelligence Platform打造更好的汽车。
Brian Ames (General Motors)
大家好,很高兴与Databricks社区和各位共聚一堂。非常感谢给我这个机会分享我们的故事。
通用汽车公司的使命是:零事故、零排放、零拥堵。对一些人来说,这可能只是幻灯片上的文字,但对我来说,这是一个非常个人化的承诺。
我认识一个六岁的孩子,他因为一场车祸而不幸离世。因此,我渴望这个愿景能够早日实现。这个愿景是否具有战略意义?答案是肯定的。客户越来越期望他们的车辆能够确保他们的安全、舒适和便利。因此,能够解决这些问题的公司将越来越多地塑造未来的汽车行业,而通用汽车希望成为这样的公司。但要实现这个愿景并不容易。通用汽车是一家拥有115年历史的公司,在软件和硬件方面都有着深厚的传统和遗留问题,我们需要转型成为一家软件公司。这并非易事。
我们从哪里开始转型呢?通用汽车拥有大量的数据,这并不是问题所在。我们拥有完善的本地基础设施,为什么要改变呢?有两个主要原因。首先是数据效率。通用汽车进行了一项研究,发现每年需要花费大量的人力和时间用于数据的搜集和整理。当然,自那项研究以来,我们已经取得了显著的进步,但你们可以想象到问题的严重性。更重要的是,过去几年,世界发生了巨大的变化。通用汽车意识到,如果我们的AI和机器学习技术不与时俱进,我们可能会失去竞争优势。因此,我们需要转型。大约15个月前,通用汽车决定,如果我们想要改变未来,就必须从现在开始改变自己。
我们如何着手实现这一转型呢?我们将所有的工作都围绕云展开,这意味着我们需要转变我们的企业文化。安全始终是我们的首要任务。但除此之外,我们鼓励大家以建设者的心态去拥抱变革。我们要深入其中,积极构建新的解决方案,不断学习和成长。这将成为我们处理问题的新方式。我们将找到在云中行之有效的模式,并构建一个最佳的云端“洞察工厂”(Insight Factory)。然后我们将这些经验分享给通用汽车的其他部门。
为了实现这一目标,我们决定将所有这些都建立在Databricks平台上。为什么呢?因为我们的目标完全一致。我们需要从数据和解决方案的孤立状态转变为单一的真相源头,并实现快速协作。我们需要从碎片化的治理转变为简单统一的治理。我们相信,如果我们能够成功实现这两点,我们将能够从有限的AI和ML应用转变为真正将AI、ML融入通用汽车基因的公司。如果我们能做到这一点,也许我们将永远改变通用汽车。
这就是我们今天“洞察工厂”(Insight Factory)的样子。我为团队的工作感到非常自豪。这是一个端到端的系统,拥有交互式用户界面,使我们能够控制所有数据。我们定义了质量和流程标准,以便我们可以清楚地看到每个环节的进展。我们严格控制进入系统的战略IP,因为这是我们的竞争优势。我们可以快速进行调整,并在一个精美的通用汽车品牌的交互式界面中呈现我们的洞察力。
我必须承认,建立这个系统并不容易。这是一个非常复杂、动态的系统,每天都在发生变化。在这个过程中,我们犯过错误。但我们不断挑战自己的极限,有时甚至超越了极限。我们建立在伤疤和毅力之上,需要整个团队的共同努力。但好消息是,我们以创纪录的速度取得了今天的成果。想象一下,从几乎一无所有到在大约九个月内拥有整个系统,这是一个多么令人振奋的成就!
现在,我想分享一些好消息。Unity Catalog对我们来说几乎是开箱即用的,这让我们能够迅速进入状态。而开放的生态系统使我们能够以前所未有的低摩擦方式解决之前提到的数据查找和收集问题。我们利用Immuta进行策略压缩,利用Atlan实现从云端到本地端到端的可见性。
在这段旅程中,我们学到了两个重要的教训:管理网格中的节点需要大量的技术人才,因此当无服务器和Lakehouse应用程序等技术出现时,它们确实帮助我们提升了规模能力。Databricks社区,请继续保持这些努力,它们真的发挥了巨大的作用。但我们还学到了另一件事,那就是通用汽车已经拥有众多聪明且才华横溢的人才。他们已经构建了AI和机器学习应用,但这些应用分散在各个小领域和独立的系统中。因此,像MLflow这样的工具,为他们提供了通往生产环境的路径,你可以感受到通用汽车的数据智能正在不断提升。
此外,我们正在进行的所有GenAI项目,我们计划在明年有跟多发展,并且我们相信有了这些技术和工具,我们可以与世界上任何公司展开正面竞争。因此,我们打开了“洞察工厂”,现在我们只需要寻找杀手级应用。
在工厂开业后的两周左右,我们迎来了一位守护天使的敲门声。虽然她在公司里并没有这个头衔,但她是世界上最好的人之一,她的工作是确保客户安全。在通用汽车,这是至关重要的事情;没有什么比这更重要了。她的工作是了解路上所有汽车的健康状况,哪些汽车可能需要一些关注或维修。她正面临着一个具体的问题:她本应在一个下午内获得的洞察,可能需要花费她几天甚至几个月的时间。她不得不去这些独立的领域,进行复杂的联合查询。现在想象一下她的世界:数千万辆汽车在路上行驶,不同的传感器组合,不断有新车加入,这些新车更加智能,拥有更多的传感器。因此,这是一个极其复杂的问题,只有一种解决方案,那就是利用AI和机器学习。
当然,我们可以提供帮助。我们欢迎她来到“洞察工厂”,这里有15个基础数据源。我们将它们连接到云端,并在Unity Catalog中快速公开数据,这让通用汽车有些困惑。当我们走进会议室说我们要把这些都搬到云端时,他们说:“我以为我们会有一个后续的PowerPoint会议或讨论来协调下一步的工作。”我们回答:“不,我们只是在构建。”我们开始打造第一个解决方案,但很遗憾,它并不完美。然后我们开了另一次会议,我们说:“听着,我们会迅速改进这个方案,让它变得更好。”他们说:“这个方案还有很多瑕疵。”但是随着时间的推移,因为我们所有人都有相同的使命,我们都能看到相同的数据,我们开始达成一致。这就是通用汽车将实现这个未来的方式:聪明的人们看着相同的数据,并迅速进入流动状态,这是摆脱困境的关键。对我来说,这是一个很好的开始。在通用汽车的第一年,我们获得了势头,公司找到了方向,我们将成千上万的人员投入到Databricks中,我们正在缩短获取洞察的时间,并找到了提供价值的方法。在第二年,我们将加入AI和PS(可能是指某种技术或策略),或许通用汽车会再迈出一步,朝着零事故的使命迈进。因此,如果你是一个热爱挑战的人,我们有使命、有数据,现在还有技术,我们需要的是愿意改变世界的人。请考虑一下,我们非常希望你能加入通用汽车。
Ali Ghodsi
我觉得每过一年,我们都离零排放、零事故的目标更近一步。我期待着零拥堵的实现。我是说,其他的也很重要,但拥堵是我最不喜欢的。
我之前告诉过你们,我们一直在倾听客户的意见;他们希望在自己的定制数据上构建AI,并且希望在此过程中保持成本效益和隐私保护。这就是我们所说的数据智能:在你的数据上进行定制AI。
因此,我想请我的联合创始人帕Patrick Wendall上台,他将向你介绍有关Mosaic AI的一切。
Patrick Wendall
很高兴能在这里谈论生成式AI的最新进展,我们在Databricks正在进行的研究,以及我们的客户正在做的事情,还有行业研究的最新动态。
过去的12个月非常令人兴奋,因为众所周知,12个月前我们有一个非常优秀的前沿模型,这是一个超高质量的AI模型,而今天我们已经拥有了五六个令人惊叹的前沿模型,其中几个是开源的。
要了解我们如何利用这些能力,重要的是要知道前沿模型实际上是如何工作的。这些大规模生成式AI模型的工作方式是,它们是在互联网数据上进行训练的。事实上,GPT-3的重大突破在于,训练数据的规模远远高于以前,结果表明模型的质量大大提高了。因此,这些模型是在互联网数据上进行训练的,然后根据它们在所谓的通用知识任务上的表现进行优化和评估。
我在上一张幻灯片上展示了一个基准。这个基准是MMLU,它可以说是用来评估这些真正前沿的AI模型的规范性基准。虽然不会有很多的人深入研究MMLU,它包含了50个不同的类别,在这些类别中它们被评估了一般知识。我喜欢把它想象成是如果你在玩“危险边缘”(Jeopardy)游戏,它涵盖了许多不同类别的事实和信息。以下是MMLU基准中的一些示例类别:营养学、世界宗教、天文学、人类衰老。这是一个有趣的类别,你可能不会想到。
今天早上,我实际上尝试与ChatGPT互动,只是为了测试一下它的能力。我开始询问关于减少皱纹的问题,它恰好拥有百科全书式的知识,能够介绍如何在年龄增长时减少皱纹。许多公司都在追求这些基准,试图在特定主题上表现出色。但在Databricks,我们关注的不是通用的知识任务,而是客户能够多大程度上从AI中受益。比如说,如果有一个客户支持AI,那么这个AI在回答客户问题方面的效果如何?大多数人不会向他们的客户支持询问关于皱纹减少的问题,他们更关心的是如何解决与你的产品相关的问题。如果你在使用AI生成UI中的代码,那么这些代码被用户接受的频率有多高?如果你正在用AI来创建营销内容,那么这些营销内容是否符合品牌形象并与公司定位相匹配?
在Databricks,我们喜欢这样思考:我们关注的不是推动通用智能的前沿,尽管这本身是一项令人振奋的任务,但我们真正专注的是数据智能的应用。因此,我们致力于帮助你将数据智能融入你的产品和服务中。
今天,我将分享一些我们与成千上万的客户合作建立数据智能系统的发现。接下来,我将给出一些我们正在构建的系统类型的示例,以及这些系统投入生产所需的基本技术。
这不仅仅是一个行业内备受关注的领域,它还是一个非常活跃的研究领域。重点在于如何将这些通用能力适应到特定的场景和任务中。
在这个领域的前沿研究中,有一个被称为复合AI系统(Compound AI Systems)的解决方案。这是伯克利大学的一篇论文(https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/)所提出的概念,它只是众多研究小组中研究此问题的一个例子。复合AI系统的作用是利用领先的AI模型的通用能力,但进行了大量的定制。这些系统会做一些事情,比如调整模型、为模型添加检索和搜索功能,使模型能够在企业环境中使用工具并采取行动。
正是通过这些复合系统,我们的客户能够在其应用程序中构建高质量的嵌入式AI。
让我们的解释稍微具体一点。我们以用FactSet作为例子。FactSet是Databricks的客户,FactSet是金融分析领域的领导者。他们为金融市场人士构建产品和服务。这是FactSet用户界面的截图。
虽然用户可以使用FactSet的点击式界面,但对于大多数高级用户来说,他们更常用一种名为FactSet查询语言(FQL)的查询语言来获取他们所需要的股票、债券等信息。这是一个FQL语句。在这个框里,我并不期望你们能理解它的具体作用。
对于FactSet来说,机会在于,与其让人们输入这种他们需要学习的非常特定的查询语言,如果人们可以用英语或他们喜欢的语言直接表达他们的需求,而FactSet的软件能够为他们自动执行,那将会更好。这个查询的英文版本是:“给我所有在美国上市的股票的当前年度和滚动每股收益。”即使对我来说,我也能理解,尽管我不是一个FactSet的专家。
这里的机会在于,如果FactSet能够让用户只需用语言表达他们的意图,就能吸引更多的用户,并让现有用户更高效地使用他们的产品。那么FactSet是如何构建这个功能的呢?他们实际上是从一个通用的前沿AI模型开始的,试图为他们的查询语言提供一些示例。
但是,简单地调用这个现有模型,并让它从英语翻译成所需的查询语言并不奏效。这种技术的准确率只有50%,因此有一半的时间会生成错误的答案,而且由于需要给模型提供大量上下文信息,所以速度也非常慢,大约需要15秒,这显然不足以集成到FactSet的产品中。
他们是如何解决这个问题的呢?他们构建了一个复合AI系统。这个系统涉及对一些开源模型的调整。FactSet恰好拥有大量带有token的英文示例的现有查询数据,因此他们可以调整一个非常了解他们数据的模型。他们还在系统中加入了搜索和检索功能,以便他们可以搜索和查找相关事物。例如,如果我提到一个公司的名字但没有提到股票代码,他们可以在数据库中搜索并解决这个问题。他们还调整和定制了其他部分的流程,通过这样做,他们能够获得85%的准确率,并将性能提高了三倍。因此,这基本上达到了他们可以集成到产品中的标准。
在Databricks,我们专注于通过我们的Mosaic AI平台提供通用能力,让任何公司都可以进行这种定制,将通用智能模型转变为数据智能产品和服务。
这实际上是我们进行的一项收购的成果,你们中的许多人可能已经听说过Mosaic ML,我们很高兴地宣布,这次收购的成果现在已完全整合到Databricks的产品和服务中。
接下来,我将介绍我们在这个领域提供的一些具体能力。
整个流程涵盖了从准备数据、定制模型到将应用部署到生产环境的完整生命周期。在这三大环节中,我们非常高兴地宣布,Databricks支持零代码对开源模型进行微调。
这意味着可以从已经训练好的高质量现有模型出发,无需编写任何代码,即可在企业数据上对该模型进行微调,使其在用户关注的特定任务上表现出色。Databricks将全权负责所有优化工作;因为调优实际上相当复杂,可能需要调整不同类型的参数,并且有多种方法可以实现。但Databricks将完全管理这一过程,最终将得到一个经过微调的模型,可以直接用于用户的AI产品或服务中。
有几个案例可能会让大家感兴趣:一个是Fox Sports。他们正在利用海量的数据来定制AI。他们拥有NFL和其他联赛的百年转播记录,其中包含了人们对正在进行的体育赛事的讨论。他们可以利用这些数据来定制一个模型,以便能够生成实时评论等内容。他们拥有大量的现有数据,正在将AI应用于其产品中,以生成代码、仪表板等,并且他们拥有大量的已token示例。因此,他们为此目的定制和微调了模型。
模型调优是指对现有的现成模型进行微调,使其在你的产品或服务中表现得更出色。但在某些情况下,公司拥有的数据量如此之大,以至于从头开始构建一个模型对他们来说更为有利。在机器学习领域,这被称为预训练,但实际上意味着你可以完全基于自己的数据创建一个模型,而无需依赖互联网或其他类型的数据。
通过我们的Mosaic AI训练平台,在Databricks上实现这一点的一个出色例子是Shutterstock。Shutterstock在本次会议上宣布了一个全新的最先进的图像模型,他们能够将该模型公开并让客户使用。
关于Shutterstock的简要介绍:他们是世界领先的或最大的专有图像数据库之一,可以利用多年来积累的大量数据集和知识产权,让他们的客户为营销目的或个性化需求生成完全定制的图像。与其他基于互联网数据训练的图像模型不同,Shutterstock的模型完全是在他们完全拥有权利的可信数据集上训练的。因此,他们能够利用自身拥有的知识产权,构建一个出色的模型与客户共享,他们将在本次会议上进一步介绍该模型。
我们非常高兴地宣布,Databricks上已经构建了超过20万个定制的AI模型,用于企业AI系统。仅用于支持这一点的硬件就相当强大,包括GPU和其他类型的AI加速芯片。因此,稍后将要上台的这位穿皮夹克的朋友,我们要向他表示衷心的感谢,因为他为我们创造了这种能力。构建基础模型是AI系统中至关重要的部分,但下一个阶段是扩展模型的能力,超越基本的数据推理。
到目前为止,最流行的扩展模型的方式是检索增强生成。这实际上是AI社区对模型搜索能力的一种专业描述。对于企业而言,重要的是模型能够在你拥有的专有和定制数据集上进行搜索。Databricks今年早些时候发布了托管搜索索引、在向量数据库中管理数据的能力,我们很高兴地宣布,该产品已经在本月正式推出。而且,我们还在该产品中增加了一个更先进的嵌入模型。
以康宁为例,这是一家材料研究公司,他们正在利用AI为其内部研究团队、核心知识产权打造更高效的探索工具,以发现不同类型的材料在工业应用中的潜力。他们利用我们的向量搜索引擎,该搜索引擎包含了大量关于专利和先前材料研究的专有信息,这些信息仅康宁拥有,并不包含在通用的AI模型中,从而使该应用程序能够为研究人员提供出色的工作效果。
检索增强生成是一种非常流行的技术,但我想强调的是,它只是众多工具中的一种。在Databricks,我们越来越多地看到,客户不仅希望使用搜索来回答问题,还希望拥有能够根据使用AI的人的具体情况来操作和采取行动的工具和能力。我们的客户建立的几种工具类型的示例包括:你可能希望将AI应用于支持票证系统,实现AI的开启或关闭功能。你可能还希望AI能够代表客户执行少量代码,并在安全环境中执行。这些都被称为工具,与基础模型类似,这些工具需要进行大量定制,并且需要针对每个企业的具体应用场景以特定方式编写。通用的模型并不会知道如何与你的业务系统、票证系统等进行交互。
今天,我们在Databricks中正式推出了Mosaic AI工具目录(Mosaic AI Tool Catalog)。这一举措旨在让你的团队中的工程师和科学家能够轻松创建工具。他们可以在安全计算抽象的基础上构建这些工具,并将它们发布出来,供公司内部其他构建应用程序的人员使用。这一做法实现了工具使用与作者之间的分离,即使工具中可能涉及凭据或其他敏感信息,也能确保所有工程师都能发现并使用这些工具。
然而,工具的真正价值并不仅仅在于单个工具的使用,而在于将这些工具组合起来,创建所谓的“代理程序”。这又是一个专业术语,但简而言之,代理程序就是一种完全端到端的AI应用程序,能够代表你的客户或用户执行某些操作。支持机器人就是代理程序的一个典型例子。
我们很高兴地宣布,今天在Databricks中推出了一个用于撰写、部署和评估代理程序的框架,名为Mosaic代理框架(Mosaic AI Agent Framework)。这个框架可以与现有的链接框架(如LangChain)协同工作,让你能够在Databricks中轻松撰写、部署代理程序到API端点,并测试其性能。
接下来,我们要探讨的是如何评估和确保生成内容的质量。AI是一个充满机遇的领域,因为你可以快速地进行演示,将数据输入AI并构建出令人印象深刻的东西。但是,当你从演示阶段过渡到部署应用程序阶段时,确保生成内容的质量变得至关重要。我很好奇,在座的观众中有多少人曾经在公司内部对内部数据进行了某种形式的AI演示,无论是构建还是使用了这样的内部演示?大概60%的观众都有这样的经历。我们发现,每家公司都会建立内部演示,但关键是要将这些演示转化为可部署的应用程序。确保生成的内容质量上乘,是这一过程中的关键。
在演讲开始时,我们提到通用模型和部署的AI应用程序之间的主要区别在于,你正在优化的不是通用知识,而是解决特定问题、生成高质量代码、帮助客户的能力。重要的是,你需要系统地衡量这些能力,以确保你的工作取得良好成效,并持续改进。
我们构建的代理框架的第三部分是一个评估工具,它采用最先进的技术来衡量你正在构建的内容的质量。你首先需要提供一些高质量交互的示例。在迭代和调整应用程序的过程中,当你调整模型、尝试搜索或集成工具时,你可以使用这个评估工具来检查内容质量是否得到改善。
更重要的是,一旦你的应用程序达到一定规模,有大量用户使用时,如何获取大量高质量的评估数据将成为瓶颈。因此,我们的质量代理评估工具还允许你邀请专家(无论是来自公司内部还是外部承包商)来评估和评分实际的AI交互。最后,它使Databricks能够学会如何训练AI进行质量评分,从而使你能够扩展评估范围,几乎涵盖应用程序内的每个交互。
MLflow 2.14将于下周一发布。新版本将包括针对这类AI应用程序的重要质量工具。特别是,它将具备在出现低质量交互时记录和调查跟踪的能力。这通常是解决质量问题的一个重要环节。如果用户因为某些功能运作不良而给出差评,你希望了解问题的根源所在。这可能是检索问题、模型调整方式问题等等。这些功能将成为MLflow的一部分,如果你在Databricks中使用它,这些功能还将深度集成到Databricks的用户界面中。
我们讨论了如何构建定制AI系统、部署它们以及了解它们的质量。但这一难题的最后一部分是治理。目前,AI正处于非常激动人心的时期;每家公司都希望快速前进,在市场上竞争,构建基于AI的应用程序。然而,对于企业而言,确保他们部署的AI是安全和可信的尤为重要。我们在许多客户中发现的一个问题是,他们在一定程度上成了自己成功的受害者。开始时,你可能有一个非常成功的AI项目,但随着时间的推移,项目数量不断增加,管理变得复杂。Edmunds就是一个很好的例子,他们在Databricks上遇到了类似的挑战。他们投入生产的AI项目数量庞大,但管理开始变得混乱。不同的团队各自管理着自己的凭据,用于某些第三方模型提供商。成本开始失控,容量管理也成为了一个问题。GPU是一种稀缺资源,你需要确保最重要的应用程序能够访问到这些资源以提供优质服务。
我们也很高兴地宣布今天的Mosaic AI Gateway,这是Databricks内的一个中心点,你可以在其中强制执行关于使用你的模型的所有审计和治理要求。这并不是为了减缓团队的速度;实际上,根据我们的经验,它帮助了个别工程团队加快了速度,因为他们可以访问一组非常具体的经过批准的基础模型。他们有一套公司已经同意的限制条件可以使用,并且他们实际上可以更快地创新,而不是在这些基础功能上重复造轮子。
我们一直在努力研究技术,不仅可以帮助我之前提到的客户,还可以帮助我们的1万家客户构建和部署AI产品和系统。
我始终相信以行动来展示,而不是说教,所以我非常高兴地欢迎我的同事Kasey Uhlenhuth,她将通过现场演示向你展示这些功能。
Kasey Uhlenhuth
我为一家拥有大量连锁店的饼干公司工作,我想创建一个AI代理,帮助所有连锁店业主通过分析客户数据、创建营销活动和制定销售策略来改善他们的业务。
他们将能够使用这个AI代理构建的一种功能是Instagram广告活动,他们可以在其中推广连锁店中畅销的饼干。AI代理将为Instagram应用程序生成一张图像,并配上一个能够抓住所有饼干爱好者眼球的标题,从而真正推动销售。
我为我的连锁店业主提供了通用的智能模型,它们给出了良好的结果,但太过通用,没有针对我们的业务或个别连锁店。这就是Mosaic AI平台的作用所在。Mosaic AI将允许我们使用企业数据来扩展这种通用智能,以便我们可以拥有数据智能。
在这个演示中,我们将构建一个将使用Unity Catalog工具的代理。在这个架构中,我们将利用这些UC函数,这些函数现在可以用作工具。UC函数可以是访问你数据仓库的SQL函数,可以是Python函数,可以是模型端点,甚至可以是远程函数,这将允许你调用外部服务,如Slack、电子邮件,甚至是提交工单。
要构建所有这些,我们将使用Mosaic AI平台。接下来,我们将继续深入。现在,我在内部操作。我们将在Mosaic AI中使用的三种功能来实际构建这种数据智能。
首先,我们将使用我们的工具目录来构建数据智能。接下来,我们将通过代理评估了解我们的质量。最后,我们将能够使用MLflow的跟踪功能来调试并提高我们的质量。
让我们深入了解Databricks。现在,我们在Unity Catalog内部。你可以看到,有一些函数,我将使用这些函数作为工具,并且这些函数受到我的AI、非结构化数据和结构化数据的管理。为了帮助解释什么是工具,我们将点击我们的特许销售。
你可以看到这里只是一个简单的SQL查询,它正在访问我的敏感交易数据。这就是为什么工具必须与你的数据一起受到管理的原因,因为只有能够成功调用此工具的人才能访问这个底层的交易表。这就是为什么我们需要在数据、AI和工具之间进行集中治理。
我们创建的其他一些利用企业数据的工具也在这里。按城市和按国家的特许经营是帮助我获取销售数据的辅助函数,而Franchise Reviews工具实际上是从我们的社交媒体网站上获取客户评论。所有这些工具都在利用我的企业数据。
我们将使用这些工具来扩展基础模型。现在,我将进入AI playground,然后我们就开始吧。从AI playground,我将选择一个启用了工具的基础模型。你可以从右侧的小图标看出它是否启用了工具。我会选择Llama 3。现在,我将添加托管工具。这些是我的Unity Catalog工具,托管在安全可扩展的Databricks环境中。
在这里,我们将访问刚才在AI模式中展示给你的工具。我可以使用语法糖来获取所有这些工具。我的营销团队为我创建了一个工具,所以我会快速复制粘贴它,因为它有点长。我们将把它放在这里。这个工具将使用Patrick刚刚宣布的Shutterstock图像AI模型来生成一个Instagram图像,以及一个标题。
现在是测试环节。在我忘记之前,我们先将环境设置为零度状态,因为这是一场现场演示。接下来,我将快速复制粘贴一个指令。这条指令的内容是:“请营销部门发布一条Instagram帖子,包含一张图片和一句标语,用于宣传旧金山店里最畅销的饼干,以此提升销量并展示我们听取了客户反馈。”
我们回到这里,添加AI工具星号,并调用我们的营销工具。现在它在自动补全中了。接下来发生的事情有点神奇。我们将深入内部。
我们输入retail_prod,添加所有函数,并调用我们的营销工具,它将为我们生成Instagram广告。
好的,一切就绪。我们将发送指令,并确保环境为零度状态。
现场演示开始。
现在我们将发送这条指令。接下来发生的事情会有些奇妙。Llama 3将进行一系列推理,确定需要调用哪些工具来执行此操作。它会获取旧金山店的特许经营ID,然后访问我们的销售数据,找出最畅销的饼干。它获取了所有销售数据,并确定杏仁饼干为最畅销产品。接着,它查看我们的客户评论工具,了解客户喜欢这款饼干的哪些方面。它发现客户喜欢杏仁饼干的酥脆口感和独特味道。然后,它将所有这些信息发送到我的Slack工具,生成Instagram图片和标题,并将它们发送给我的营销团队在Slack上审核,最后发布到社交媒体上。
现在,激动人心的时刻到了。让我们看看它实际返回了什么。我将跳转到Slack。这是由Shutterstock图像AI模型生成的展示我们饼干的图片。它还创建了一个定制的标题:“我们的客户对杏仁饼干赞不绝口,因其酥脆的口感、独特的味道和完美的咖啡伴侣品质。”这就是你如何利用数据智能来扩展通用智能,从而改进基础模型的方法。
现在,如果我移除这些智能工具会发生什么?我可以进入这里,删除所有启用企业数据的工具,然后再次运行。现在,我们已经取消了所有企业数据访问权限。它仍然会根据指令生成图片和标题,但会更加通用。
我们回到Slack,很快将显示新的图片。成功发送。这是它现在创建的图片。它只知道这是旧金山的一款饼干,并试图创作一些酷炫的Instagram广告。
如果你仔细观察标题,会发现它非常通用。它只是简单地说:“我们最畅销的饼干又回来了。快来与我们分享你最爱的饼干时刻吧。”它并没有针对我们的具体业务或特许经营,也没有使用我们的企业数据。这就是为什么数据智能如此重要。
我们刚才展示了如何利用工具目录将通用智能与企业数据结合,转化为数据智能。但是,我如何确保这个代理的高质量呢?
我判断其质量的方式是使用代理评估和MLflow跟踪工具。评估代理很难——你如何知道我们刚才做的是好是坏?而且,对代理的评估涉及多个方面。因此,我们实际上需要启动一个试点项目,让部分特许经营者使用代理评估审查应用程序。
这个审查应用程序将允许所有特许经营者与代理进行交互,无论他们是否有Databricks账户。然后,他们可以对响应提供反馈。他们可以解释答案是好是坏的原因,然后点击完成并提交这些反馈。这些反馈随后会被记录在Unity Catalog中的Delta表中,使你能够基于这些反馈构建评估数据集,获得将代理投入生产的信心,或者像我一样,启用Lakehouse监控,以便我可以观察试点项目的运行情况。
你可以看到我设置的不同特许经营店,这里是我跟踪它们在代理上获得的负面反馈的情况。你可以看到洛杉矶特许经营店遇到了严重问题;他们在代理上收到了大量负面反馈。
如果我滚动查看他们的评分以及哪些问题上获得了不良评价,我们可以看到他们的反馈指出代理返回了不相关的评论。它向他们返回了来自旧金山店或非洛杉矶店的评论,甚至还虚构了一个“Liberty Chip饼干”,而我们并不销售这种饼干。我们需要深入了解这些质量问题出在哪里。
我们将利用MLflow跟踪功能来查明问题所在。现在,我将打开一个Notebooks,并查询其中的评估日志。在这里,我们自动捕获了一个MLflow跟踪记录。MLflow是一个广受欢迎的机器学习实验和部署跟踪API,我们已将其功能扩展,使其能够与复合AI系统一起使用。现在,你可以跟踪系统的输入,并查看它在每个步骤中如何将输入转化为输出的全过程。
点击其中一个跟踪记录后,它会打开堆栈视图。在堆栈的顶部,你可以看到输入的问题和输出的结果。你可以看到这个问题是询问顾客对“Liberty Chip”这款饼干的看法,但输出的结果却产生了误解,它说:“顾客们对这款饼干赞不绝口,味道美得不可思议。”然而,我们知道并不存在这样的饼干。
为了查明问题所在,我们将深入堆栈进行探究。首先,我们会查看第一个被调用的工具,即客户评论工具。进入该工具后,我们会看到它的输入和输出。它错误地指出“Liberty Chip”饼干味道极好,这显然是问题所在。我们需要继续深入堆栈查找原因。
进一步深入后,我们进入到了检索器环节。这个检索器实际上是负责检索客户评论的。由于我们使用了跟踪功能,我可以看到它确切返回的评论内容。我看到其中一条评论说:“员工热情好客,店面一尘不染,饼干味道美得不可思议。”问题的根源在于,我的检索器找不到任何与“Liberty Chip”饼干相关的评论,因此它只是随机返回了一条评论。
为了解决这个问题,我需要采取两个措施。首先,我需要提高审查应用程序中检索器对评论相关性的判断标准。其次,我需要加强提示工程,确保当模型接收到的上下文与问题不相关时,它不会简单地总结该上下文。
我已经进行了这两项修正,并重新部署了我的代理。现在,我已经更新了审查应用程序并将其发送给了参与试点的特许经营者,他们现在可以看到顾客对“Liberty Chip”饼干的真实看法了。如果我在这里键入这个问题,你可以看到现在的回答已经不再产生误解,而是正确地指出“Liberty Chip”饼干在评论中没有被提及。这可能是因为这些店铺并没有出售这种饼干,这正是我们希望在这种情况下给出的回答。
在这个演示中,我们展示了如何通过工具目录和扩展通用智能模型来构建数据智能。我们还展示了如何使用代理评估来评估代理的质量,方法是让特许经营店的经营者使用代理,即使他们没有Databricks账户,也可以提供基于人工的反馈,如点赞或点踩。此外,我们还利用MLflow跟踪功能来帮助你调试和迭代质量,从而提升代理的性能。
在这次演讲中,我们讨论了许多不同的内容,但有三个主要的关键点,我们希望你能够了解Mosaic AI平台的优势。首先,我们需要从通用智能转向数据智能。我们通过将你的企业数据整合到通用智能中来实现这一点,从而为你提供更深入的业务洞察,并提升应用的质量。
其次,你可以通过从单片模型转向模块化、复合AI系统来提高质量。在这种系统中,你可以专注于优化系统中的每个步骤,从而提升整体质量。在许多情况下,这种转变还能降低延迟。
最后,Mosaic AI平台是构建高质量复合AI系统的理想选择。
目前,已有数千名客户正在使用Mosaic AI平台,其中就包括Block公司。我非常高兴地邀请Block公司的Jackie Brosser上台,她将分享她的团队如何利用Mosaic AI平台构建和部署生成式AI解决方案。
Jackie Brossamer(Block公司)
我是Block公司AI数据和分析平台工程的负责人。今天,我将向大家介绍我们是如何利用Databricks平台,引领AI走向真正的业务影响的。
Block是一家非常特别的公司,因为我们拥有多个不同的业务部门,它们都以经济赋权为共同目标而紧密合作。
Square,我们的第一个业务部门,数百万小企业使用我们的产品进行支付,并通过银行服务等附加功能来扩展他们的业务。
Cash App,数亿消费者使用我们的产品向朋友和家人发送支付,并通过投资和借贷等产品来管理他们的财务状况。
Tidal,是一个由Jay-Z创立的音乐流媒体服务,旨在帮助创作者实现作品的货币化。
TBD,一个专注于区块链和Web3身份等分散技术的子公司。
我们数据平台团队面临一个独特的挑战,那就是需要构建一个能够支持各种多样化应用场景的数据平台。这些应用场景涉及到不同的人员、文化和实践,因此我们需要一个灵活的平台,以适应各种类型和规模的数据。
通过Square和Cash App,我们处理了数十亿的支付,这意味着我们需要实时处理结构化数据。同时,Tidal产生了大量非结构化数据,因此我们必须同时应对这两种数据类型。构建一个足够灵活的平台,以满足所有当前及未来应用场景(如生成式AI)的需求,一直是我们面临的挑战。
在深入讨论这个支持多种应用场景的平台之前,让我们先看一个真实的应用案例——为Square开发的生成式AI应用。这个应用允许小型企业接入并自动获得一个建议菜单,从而立即开始运营,无需手动填写。
我们遵循的一个重要原则是缩短回馈时间,将更多时间还给Square的卖家,让他们专注于发展自己的企业。通过自动化接入和创建菜单等非差异化业务运营,我们帮助卖家节省了高达15%的时间。对于利润微薄的小型企业来说,这无疑是一个巨大的优势。
我们关注的不仅仅是面向外部的生成式AI应用场景,还强调内部生产力的提升,如代码生成和工作流自动化。我们依靠灵活的Databricks平台来支持这些应用场景。
我们期望建立一个灵活、可扩展的AI平台,其中数据安全地存储在一个联邦式数据湖中,连接跨业务单元的数据,同时确保各业务单元能够实施自己的安全策略和访问控制。
我们能够依托现有的Databricks基础设施,快速、无缝地构建一个大型语言模型平台,而不是从零开始。该平台的可组合性使得不同的业务单元可以根据需要选择使用其中的部分功能。
我们的大型语言模型应用场景平台的关键组件包括Databricks AI平台和模型服务,它们负责管理来自所有模型端点的调用。此外,我们还利用MLflow进行大型语言模型的运营和治理,这为我们的机器学习工程师提供了巨大的便利,因为他们已经熟悉MLflow。
鉴于我们不同业务应用场景的复杂性和外部环境的快速变化,我们的AI策略主要围绕支持高质量的生产应用场景展开,同时预测模型在未来几年内将不断发展。我们的策略有三大支柱:
首先,我们以联邦为中心,确保拥有一个一致的界面,以便随着模型的发展进行更换。
其次,我们注重敏捷性。我们认识到今天使用的模型调用模式可能在明天就不再适用,因此我们的平台必须相应地进行演变和扩展。
最后,我们强调控制。作为一家金融科技公司,我们处理敏感的企业数据,这些数据在用于新应用场景(如大型语言模型)时必须保持安全。
随着生成式AI领域的创新和新模型的不断涌现,我们希望保持选择的灵活性,能够轻松更换模型,而无需编写大量新代码。例如,虽然我们的公司理念与开源高度契合,但在最初的应用场景中,我们还是使用了像GPT-4这样的专有模型。通过Databricks Mosaic AI Gateway,我们可以轻松地比较Llama这样的开源模型与OpenAI的闭源模型,同时确保开发者体验始终如一,无需实施新的API。
这种联邦式方法确保了我们能够保持敏捷,并对AI技术的最新进展作出响应。虽然我们最初的很多应用场景都采用了如GPT-4这样的先进模型,但我们越来越发现,针对特定应用场景,使用专有数据微调开源模型会更为有效。借助Mosaic AI训练和Databricks,我们可以在平台内轻松地对这些开源模型进行微调,更重要的是,数据无需离开平台,从而降低了安全风险。一旦模型完成微调,我们就可以通过相同的AI Gateway轻松地进行部署。
最后,对于大多数应用场景,我们并不只依赖一个模型,而是采用了前面提到的RAG模式。我们将大量上下文与模型一起发送,以确保获得最佳和最相关的结果。通过Mosaic AI,我们可以在平台内轻松实现这种RAG模式,并完全控制和管理Unity Catalog等组件,无需担心数据泄露的风险。
这种集中式方法对我们的安全态势至关重要,确保我们拥有正确的细粒度访问权限,以及诸如合规性和成本优化等集中化关注点。如果分散成多个端点,这些关注点可能会变得难以管理。通过我们灵活的平台,我们已经看到了对业务指标产生的直接和显著的正面影响。特别是,我们成功地将生成式AI应用程序交付到生产所需的时间缩短了26%,同时工程师的开发生产率提高了32%。这些成果加起来,为我们带来了比最初预测多出的约1000万美元的生产率收益。
Ali Ghodsi
我非常喜欢与Block和Square的合作,尤其是Jackie的团队。作为一家金融服务公司,他们虽然受到严格监管,但也是我们合作中最具前瞻性的伙伴之一。他们积极采用最新技术,不断推动我们的极限。
很高兴有机会在舞台上为大家介绍李飞飞教授。她将为我们讲解她所称之为“空间智能”(spatial intelligence)的概念,但我认为这更接近于“世界模型”(world models)。LLM不仅理解语言,更理解整个世界。对此我深感激动,让我们热烈欢迎李飞飞教授上台。
Fei Fei Li
大家早上好,非常高兴能在这里与大家分享。我不会展示产品或进行现场演示,而是想与大家探讨一个超越语言理解的未来愿景,我称之为从“看见”(seeing)到“实现”(doing)。
请让我先从展示一些东西开始。不过,我要展示的不是实物,而是一片虚无。这不是故障,而是我们5.4亿年前所生活的世界——一个纯粹而无尽的黑暗世界。这种黑暗并非因为缺乏光线,而是因为缺乏视觉。阳光穿透千米深的海面,光线从水热喷口渗入海底。尽管海洋中充满了生命,但当时还没有任何生物能够看见这些。没有视网膜,没有角膜,没有晶状体。因此,所有这些光线和生命都是不可见的。
曾经有一个时期,“看见”的概念根本不存在,当时这只是一件从未发生过的事情。直到有一天,出于我们才刚刚开始理解的原因,三叶虫这种第一种能够感知光的生物出现了。它们是我们现在所认为理所当然的现实世界的第一批居民,是第一个发现除了自己之外还有其他存在的世界的生物。这种看见的能力被认为有助于开启了一个被称为“寒武纪大爆发”的时期,那时大量的动物物种进入了化石记录。起初,看见只是一种被动的经历,仅仅是让光线进入眼睛,但很快就变得更加丰富和积极。
神经系统开始进化,看见变成了洞察。洞察又促进了行动,所有这些都孕育了智慧。
五亿年后,我们不再满足于自然赋予我们的智慧。人类现在正在探索如何创造能够像我们一样智能地看见的机器,甚至做得更好。
九年前,我在TED上发表了一篇演讲,介绍了计算机视觉这一AI子领域的早期进展。大约十年前,三股强大的力量首次汇聚:一系列被称为神经网络的算法、快速专用硬件即图形处理单元(GPU)——稍后你将听到Jensen关于这方面的讲解——以及我实验室耗时数年筹备的5000万张照片的收集物,我们称之为ImageNet。当这些因素结合在一起时,计算机不仅看得更好了,还开启了现代AI时代。
从那时起,我们已经取得了长足的进步。十年前,仅仅对物体进行token就是一项重大突破,就像那些早期三叶虫第一次瞥见光明一样。
但神经网络算法的速度和准确性每年都在迅速提高。由我的实验室主导的年度ImageNet挑战评估了这些算法的性能,每年提交的结果都打破了记录。正如你从这张图中看到的,它展示了年度进展和一些里程碑模型。这些成果确实令人难以置信,但我们仍然不满足。
自那以后,我们在我的实验室以及其他实验室进一步开发了模型,这些模型能够在视频中分割对象,并识别它们之间甚至动态的关系。
但还有更多事情将要发生。我记得当我第一次向世界展示了第一个能够用人类自然语言描述图像和照片的计算机视觉算法——一种自动生成图片标题的方式。那是我与我聪明的前学生Andrej Karpathy共同合作的成果。当时,我半开玩笑地要求Andrej反过来做这个事情:给出一个句子,让计算机生成图片。Andrej说,“那是不可能的。”但正如你从他最近的推文中看到的,仅仅几年后,不可能已经变成了可能。
这要归功于最近在生成式AI中使用的最新扩散模型的发展。现在,AI程序可以接受任何人类输入的句子,并创建全新的照片或视频。你们许多人最近已经看到了OpenAI的DALL-E等许多公司的精彩成果。但即使没有大量的GPU,我的学生和合作者们也能在DALL-E发布前几个月创建出一个称为VQ-VAE-2的生成模型。这里只是一些示例。当然,你们也可以看到我们还有改进的空间,我们确实会犯错误。
我想说,看看那只猫的眼睛,它在水下依然能看清周围,这简直是场灾难!真希望有人能分享些有趣的AI笑话来调剂一下。但话说回来,如果历史是未来的预演,那么我们将从这些错误中汲取教训,并共同塑造我们心中的未来。
在未来的蓝图中,我们期待能充分挖掘AI的潜力。多年来,我一直强调,拍照并不等同于看见并理解它。现在,我想进一步补充:仅仅看见是远远不够的。看见是为了行动和学习。当我们在三维空间和时间中与世界互动时,我们学习,我们学会更好地看见和行动。大自然创造了一个由空间智能驱动的看见与行动的良性循环。
为了解释空间智能的运作方式,让我们来看这张照片。如果你觉得这张照片让你有所行动,请举手。如果这在现实生活中真实发生,请继续举着手。在最后的一刻,你的大脑迅速捕捉了玻璃杯的几何形状,它在三维空间中的位置,与桌子、猫和周围一切的关系,并预测了接下来会发生什么。然后,你会扑向那个玻璃杯,以拯救你的地毯。
这种行动的冲动对拥有空间智能的生物来说是本能的,它将感知与行动紧密相连。为了将AI推向新的高度,我们需要的不仅是能“看见”或“说话”的AI,更需要能像大自然那样行动的AI。
确实,我们在这方面取得了令人振奋的进展。我们在空间智能方面的最新突破正在推动这种良性循环,教导计算机看见、行动、学习,然后看得更准、做得更好。但这并非易事。动物进化出空间智能花了数百万年的时间。相比之下,语言的进化只用了几十万年,这依赖于眼睛利用光将二维图像投射到视网膜上,然后大脑将这些图像转化为三维。
直到最近,Google的一组计算机视觉研究人员才实现了这一突破。他们开发了一种算法,仅通过一组照片就能将数据转化为三维形状或三维场景。以下是这项工作的更多示例。
同时,受这项工作的启发,我在斯坦福大学的学生和同事们更进一步,创造了一种算法,只需一张图像就能生成三维形状,就像你在这里看到的那样。这里还有其他一些最近工作的例子。
回想之前我们使用文本输入来创建视频。密歇根大学的一组研究人员找到了一种方法,可以将一行文本转化为三维房间布局,你在这里看到的就是一个实例。
与此同时,我在斯坦福大学的同事和他们的学生们开发了一种算法,能够接收一张图像,并为观看者生成无限可能的探索空间。
这些原型预示着未来的可能性,人类将能够以数字形式捕捉整个世界,并模拟出我们世界的丰富与微妙。大自然在我们个体心智中能够隐晦实现的事情,空间智能AI现在有望在我们集体意识中达成。
随着空间智能的飞速发展,我们正在见证这一虚拟循环的新纪元。这种相互作用正在推动机器人学习,这是任何需要直接理解和与三维世界互动的具体智能系统的关键组成部分。十年前,我的实验室的ImageNet项目启用了一个拥有数百万高质量图像的数据库,帮助计算机学习看见。
现在我们正在通过教导计算机在三维世界中如何行动来做到这一点,这依赖于行为和动作的指导。我们现在不再手动创建训练样本,而是利用像NVIDIA Omniverse这样的仿真环境,由3D空间模型驱动,提供无尽的变化和互动。你现在看到的是我实验室在这个项目中一直引领的一部分示例,展示了我们在仿真环境中训练机器人的无限可能性。
在机器人语言智能方面也取得了令人振奋的进展,将视觉和空间智能与基于大型语言模型的输入相结合。我的学生和合作者率先展示了机器人手臂根据口头指令执行各种任务的能力,比如这个要求机器人打开抽屉但要避开花瓶,或者这个要求机器人拔掉手机充电器的任务。虽然这是一种不寻常的拔插方式,但效果依然显著。还有这个要求制作三明治的指令——通常,我想在我的三明治上加些配料,以这个作为开始也不错。
在5亿4千万年前的原始海洋中,看见并感知环境的能力引发了与其他生命形式的寒武纪大爆发。今天,那束光开始照亮数字思维,就像它曾经照亮我们的祖先一样。空间智能技术使机器能够相互交互,与人类以及现实或想象中的三维世界互动。随着这个未来的形成,我们可以预见它将对许多人的生活产生深远的影响。
以医疗保健为例。在过去的十年里,我的实验室已经迈出了将AI技术应用于改善患者结果和减轻医务人员压力的第一步。与斯坦福医学院和合作医院的学生和同事们合作,我们正在试点智能传感器,这些传感器可以检测到临床医生未洗手就进入病人房间的情况,追踪手术过程中的仪器,或在患者处于身体风险时(如跌倒)通知护理团队。我们认为这些技术是一种环境智能的形式,这些额外的“眼睛”能够产生积极影响。
我期待看到更多能为患者、临床医生和护理人员提供互动帮助的技术,他们也非常需要这样的帮手。想象一下,自主机器人运送医疗用品,以便护理人员能与患者共度更多高质量时光,或者利用增强现实技术指导外科医生进行更安全、更高效、更少侵入性的手术。
想象一下,患有严重瘫痪的患者通过他们的思维控制机器人——没错,就是通过脑电波——以便他们可以完成我们认为理所当然的日常任务。你现在正在目睹我实验室这项试点研究中这个未来的雏形。正如你在此视频中看到的,一只机器人手臂正在通过远程脑电波控制,以非侵入方式收集的脑电信号来制作一道日本涮涮锅餐,因此没有芯片或电极插入到人的大脑中。整个机器人动作都是通过远程脑电波控制完成的。
5亿年前,视觉的出现不仅颠覆了一个黑暗的世界,也开启了动物界智慧发展最深刻的进化过程。AI在过去十年的惊人进步同样令人震惊,但真正的数字寒武纪爆发只有在计算机和机器人发展出与我们人类所拥有的空间智能相同的能力时,才能充分释放其潜力。
现在是时候训练我们的数字伴侣学会如何推理和与我们称之为“家园”的这个令人惊叹的三维空间互动,并为我们所有人创造许多新世界去探索。实现这一未来并不容易,它将需要我们所有人谨慎地采取步骤,开发能够始终将人类置于中心的技术。如果做得好,由空间智能驱动的计算机和机器人不仅可以成为有用的工具,而且还可以成为值得信赖的合作伙伴,增强和提升我们的生产力和人性,同时尊重我们的个人尊严,促进我们的集体繁荣。
我最期待的是这样一个未来:随着AI变得越来越有洞察力、富有见识和空间意识,它将与我们携手并进,不断满足我们永无止境的好奇心,持续探索更美好的生活方式,共同创造一个更加美好的世界。
Ali Ghodsi
我要欢迎世界上独一无二的摇滚明星CEO,NVIDIA的Jensen Huang,登台。
Ali Ghodsi
今天早上我们花了很多时间讨论数据智能,我们指的是企业拥有这些专有数据,训练AI模型以适应他们拥有的数据。这有多重要?这是你看到的趋势吗?这是我们需要更多投资的方向吗?你对此有何看法?
Jensen Huang
每家公司的业务数据都是其宝贵的“金矿”。每家公司都坐拥这样一座金矿,那就是他们拥有的一种服务或产品的飞轮效应:客户享受服务或产品,并给出反馈,公司长期积累下来的这些数据,可能与客户、市场或供应链息息相关。然而,尽管所有企业都拥有这样长时间收集数据的飞轮,但事实是,我们坐拥金山,却难以从中提取深刻的洞察力,更别提提炼出智慧了。
我们对此非常兴奋。我们正在将这项技术应用于芯片设计、错误数据库管理、新产品和服务的开发,以及供应链管理中。如今,我们首次实现了一个完整的“业务闭环”,从数据的处理和提炼开始,到学习模型的构建,再到模型的部署,并连接起这个飞轮,持续收集更多数据。这不正是我们一直追求的吗?
我们公司正在这样做,实际上,这使我们成为世界上规模最大的“小公司”之一。当然,原因是因为我们公司有很多AI在帮助我们,做着令人惊叹的事情。我认为每家公司都是这样。所以,我认为这是一个非凡的时代,它始于数据。它始于Databricks。
Ali Ghodsi
太棒了。非常感谢。
有一个辩论正在酝酿:封闭模型与开源模型。开源模型会迎头赶上吗?两者都会存在吗?最终会只由一个巨大的封闭源模型主导吗?你看到了什么趋势?你对整个开源生态系统有何看法?LLM(大型语言模型)的发展对此有多重要,对未来又有多重要?
Jensen Huang
我们需要前沿模型。我们需要了不起的前沿模型。当然,OpenAI和Google正在做的工作,对于推动前沿并帮助我们发现可能性非常重要。但如果你看今年,可能最重要的事件与开源有关:Llama 2,现在是Llama 3,以及Mistral。你们在Databricks做的工作,DBRX,我觉得这真是很棒的东西。
之所以这么棒,是因为它激活了每家企业。它使得每家公司都有可能成为一家AI公司。我们最近将Llama 3转变为完全容器化的推理微服务,并提供下载。它现在正在全球数百家公司中得到应用。
这揭示了开源如何使每家公司都有机会成为AI公司的秘密。我们公司在各个部门都在运用开源模型。我们创建了一些专有模型,并对开源模型进行微调,以适应我们的数据和技能。没有开源,就不可能推动这场全球性的运动,使每家公司都拥有AI的能力。我认为这意义非凡。开源模型和封闭模型都将存在,而且我们都需要它们。
Ali Ghodsi
我们非常激动地宣布,我们将把DBRX融入NIMs中,并在Databricks上提供服务,当然也包括未来我们开发的任何新模型。
Jensen Huang
这是一项令人赞叹的成就。要创建这样一个API、这样的大型语言模型API,整个技术栈非常复杂。这些模型虽然看起来小巧,但实际上计算量巨大,技术栈也相当复杂。为了创建这些技术点,我们需要数百个必要的依赖项。
我们创建了Nvidia推理微服务(NIMs),其中包含了所有必要的依赖项,并对所有内容进行了优化。我们公司有一个专门的工程师团队负责这项工作,并将其打包成微服务。大家可以在Databricks上使用、下载它,根据自己的需求进行调整,并在任何喜欢的地方使用它。它可以在每个云端和本地运行,所以你可以在任何地方使用它。
Ali Ghodsi
这真是太棒了,你甚至可以在本地运行它,而不必依赖云端。
当我们与客户交流时,我们了解到他们需要在内部培养这种专业知识,以便通过定制模型获得优势。对此你有什么看法?
Jensen Huang
我认为,看看今天世界上正在发生的事情,未来已经清晰可见。我们已经找到了一种方法,可以对几乎任何信息、任何数据进行tokenize。我们可以提取结构,理解并学习其表示,以及这些信息的意义。这些信息可以是声音、语音、文字、图像、视频、化学物质、蛋白质、机器人的关节和操作,甚至是方向盘的关节和驾驶行为。我们几乎可以对任何东西进行tokenize。
这些云数据中心实际上正在生产token。我们首次在工厂中制造了一些非常独特的东西。我们建造的AI超级计算机正在生产token,这些token是在为这项工作设计的工厂中生成的。这种大规模制造智能的能力是全新的。我坚信,当我们为这些不同行业建造这些AI工厂时,我们正站在新工业革命的起点上。我们正在生产智能,而不仅仅是电力。
每家公司都专注于特定领域的智能。在全世界范围,很少有公司比Databricks更了解数据、数据处理、AI以及进行这些工作所必需的基础设施。我们专注于我们所做的事情。在此基础上,一切都围绕特定领域的智能展开。每家公司都在其特定领域中发挥专长,无论是金融服务、医疗保健还是其他领域。最终,我们每个一家都将成为智能制造商。
如果你想成为智能制造商,今天有人力资源部,未来,你将有AI的人力资源部,我们称之为AI工厂。每家公司都必须这么做。我们正在这样做,你们也在这样做,我们看到大小公司都在朝这个方向努力。在未来,我们中的很多人都会这么做。
你从你所在的特定领域数据开始。它存储在Databricks的某个地方。将处理这些数据,提炼并从中提取智能,将把它放入一个循环中。然后,将拥有一个AI工厂。我们所有人都将拥有这样的工厂。
Ali Ghodsi
我完全相信这一点。我们兴奋的是,我们处理了大量的数据。这个数量是巨大的。我认为我们每天在Databricks中处理约4EB的数据,即每天处理4000TB的数据。在当今世界,数据处理是单个最大的计算需求,每家公司都在进行这项工作。
数据处理具有高度可并行化的特点。我们一遍又一遍地进行相同的操作。我非常高兴能与Nvidia合作,为数据处理引入GPU加速。我们可以在核心数据处理上见证与AI模型相同的革命性变化。我们很高兴能与你们合作,将GPU加速应用于我们的Photon引擎,开启应用GPU于核心数据处理的新篇章。那些当前必须在CPU上运行的大型工作负载,现在也可以在Nvidia GPU上运行了!
Jensen Huang
这是一个重大的宣布。当今计算的两个最重要趋势是:加速计算和生成式AI。Nvidia和Databricks将携手合作,将这两个领域的优势结合起来,为所有人带来前所未有的体验。
这项加速数据处理的工作确实高度可并行化,但其过程却相当复杂和神秘。原因在于数据格式的多样性、不同的分组和连接方式,以及整理数据所需的一套极其复杂的库。Spark就是这样一套非常复杂的库。我们花费了五年时间,夜以继日地工作,终于打造出了一套能够加速Photon的库,这是一项了不起的成就。我们在这个领域深耕已久,现在我们将加速Photon,让你能够更快、更经济地处理数据,同时减少能源消耗。
Ali Ghodsi
这项工作意义深远。尽管数据处理过程复杂且存在诸多边界情况,但其高度可并行化的特性让我们看到了巨大的潜力。在此过程中,我们实际上并不需要通用计算。我们希望在处理EB级数据时,能够一次又一次地执行相同的操作。我们处理的数据并非完全独特,这让我感到非常兴奋。这一技术有可能彻底改变数据处理领域,带来更快的性能和更低的成本,这将是令人惊叹的。
Jensen Huang
想象一下,当我们能够如此快速地处理大量数据时,将会发生什么。这将使研究人员有一天能够醒来并说:“猜猜看?让我们去获取互联网上的所有数据并训练一个巨型模型。”如果没有加速计算,这样的想法将遥不可及。但现在,这似乎变得触手可及。我们将能够更经济、更高效地处理EB级数据,从时间角度看也更加高效。想象一下你将会产生多少创新的想法。你可能会说:“嘿,让我们获取公司的所有数据并训练我们的超级AI。”这一天将会到来。
Ali Ghodsi
把整个互联网的数据都收集起来似乎是个科幻想法,但现在已经不再是遥不可及的了。我们需要硬件和基础设施来实现这一点,并对其进行专门化。现在,每个人都在朝这个方向努力。
现在我想换个话题。生成式AI的蓬勃发展令人惊叹。在早期,大多数企业都从聊天机器人开始,尝试构建自己的聊天机器人,并在自己的数据上进行定制等。但现在,我们看到人们开始尝试更复杂的应用场景。在AI领域,你对未来最感兴趣的新应用是什么?
Jensen Huang
最具影响力的应用可能是企业客户服务。客户服务是每家企业都不可或缺的,每个行业都有。聊天机器人和客户服务的重要性不仅在于自动化,更在于数据飞轮。你希望在数据飞轮中捕获对话和参与,这将产生更多的数据。
现在,我们看到数据每五年增长约10倍。由于客户服务的推动,我毫不惊讶如果数据每五年增长100倍。我们将所有数据连接到一个飞轮中,收集更多数据,捕获更多洞察,并从中提取更好的智能。这将为我们提供更好的服务,甚至可能更具预测性和主动性,能够在问题出现之前联系客户。就像预防性维护一样,我们将拥有主动的客户支持,创造更多数据并推动飞轮运转。我认为客户服务可能会成为大多数公司最具影响力的能力之一,因为数据收集至关重要。
我们已经将一切事物都tokenize了。我对我们正在生成化学物质、蛋白质、碳捕获材料、酶和令人难以置信的电池感到兴奋。我们正在创造物理AI。最近,我们成功实现了地区天气预测,精度达到了几公里。以前,一台超级计算机要达到一公里的天气预测精度,需要大约多一万倍的计算能力。现在我们正在使用生成式AI来实现这一目标。因此,物流、保险业以及让人们远离危险的工作都将得到加强。无论是物理事物、生物事物还是用于3D图形的生成式AI,数字孪生为视频游戏创建虚拟世界等,生成式AI无处不在。每个行业都在利用它,如果你的行业还没有参与生成式AI,那可能是你还没有意识到这一点。它已经渗透到了我们生活的方方面面。
没有一个领域不会看到生成式AI的应用。这太令人兴奋了。这些新的前沿技术充满无限可能,对数据的需求也极大。AI将无处不在,我们将在每个行业看到它的身影。
可持续性是一个多角度的话题。从能源角度来看,AI并不关心我们在哪里上学或训练数据中心是否位于能源网络受到挑战的人口稠密地区。我们可以将数据中心放在能源网络没有挑战的地方。这是有史以来第一次,我们能够捕获那些多余的能源,将其压缩成一个AI模型,然后将这些模型带回社会加以利用。另一个方面是,AI不仅涉及训练;它还包括推理和生成能力。我们训练模型以便使用它。当你考虑到AI的纵向效益,比如使用AI而不是超级计算机来预测天气时,我们可以了解到其中涉及的物理规律。我们不需要每次都从第一原则模拟它;我们使用AI来生成它。这样做不仅节省了时间,提高了分辨率,还节省了数千倍的能量。我们正在通过设计与这些模型相匹配的芯片来做同样的事情,为所有参与者节省能量。
仅仅考虑到AI的纵向效益,我坚信它将展现出巨大的节能潜力。关于生成式AI,我还想补充一点:现在的计算体验主要是基于检索的。当我们触摸手机时,尽管我们感觉它消耗的能量很少,但每次点击都会触发手机关闭并激活全球各地的REST API,检索信息,点亮整个互联网,从各种数据中心带回一点点信息,再根据推荐系统将其组合起来呈现给我们。然而,在未来,计算将更具上下文性和生成性,直接在设备上运行一个小型语言模型。这将大大减少互联网流量,计算将更偏向生成性,辅以一些检索来增强。计算的平衡将大幅度向即时生成倾斜,而这种计算方式将极大地节省能源。想象一下,如果Ali每次问我一个问题,我都要跑回办公室去找文件,然后再带回来供他参考,这与我现在仅用大约25瓦的能量生成一切相比,其能量消耗的巨大差异。我们节省的能源将是惊人的,计算模型也将发生根本性的转变。
这种计算方式无疑将带来大量的能源节省。当然,我们会更高效地获得答案,而不是自己亲自搜索,但这也会引发更多的问题,对吧?实际上,拥有更多问题正是未来的重要趋势。与AI合作是推动这一趋势的关键。我们将有更多有趣的问题,因为我们能迅速获得许多答案。所以,这是一个非常关键的问题,未来令人充满期待。
Ali Ghodsi
我的最后一个问题:我们如何帮助客户和组织在今天就开始行动?什么是最佳方法?
Jensen Huang
我之前已经提到,我认为Databricks的转型非常出色,从数据处理扩展到数据治理和存储,然后进一步延伸到从数据中提取智能。我认为Databricks的平台非常出色,已经让人们能够轻松地管理他们的数据,提取信息,处理数据,整理数据。
整理数据仍然是训练模型的一个至关重要的环节。人们常常谈论训练模型,但在训练模型之前很久,但是必须先弄清楚需要哪些数据,这涉及到数据质量、数据格式和数据准备。因此,我认为你们应该先从Databricks开始,使用Databricks Data Intelligence Platform(DIP)。谁会不把自己的平台称为DIP呢?真是个好主意。Databricks DIP,听起来不错。我喜欢。这几乎和NIMs一样好。你们可以同时拥有这两者,对吧?你不必做出选择。去给自己弄一个NIMs和DIP吧。
开始行动吧,无论你决定做什么,都要尽快开始。你必须参与其中,跳上这辆飞速前进的列车。记住,生成式AI正在以指数方式增长。你不想等待并观察一个指数趋势,因为几年后,你可能会发现自己远远落后,这简直不可思议。跟上这列火车,享受其指数级加速的过程,并在这个过程中不断学习。这是你不能通过观察或阅读来学习的事情,你只能通过实践来学习。这就是我们正在做的事情。只要参与进来。
Ali Ghodsi
Jensen,这是一个很好的建议。这是一个令人惊叹的十年。感谢你的所有付出。
Jensen Huang
我们是伟大的合作伙伴。期待与Databricks共同度过下一个十年。
Ali Ghodsi
现在我们要转变话题。我们要回到数据平台的核心。数据平台的主要功能是什么?是数据处理。接下来,我们要谈谈数据仓库。我非常高兴地邀请我的联合创始人Reynold Xin上台。他一直在Databricks引领数据仓库的革命。他组建了一个世界级的团队,并取得了令人瞩目的成果。他们每个月都在不断改进平台,使其变得更好、更快、更便宜。
Reynold Xin
大约四年前,我们宣布了Databricks SQL的私人预览版。自那时起,它受到了广泛的好评。Databricks SQL已成为Databricks历史上增长最快的产品。如今,全球已有超过7000家客户,无论是大公司还是小公司,包括壳牌、AT&T、Adobe等,都在使用Databricks SQL来处理他们在Databricks上的数据仓库工作负载。
Databricks SQL之所以能迅速崛起,一个基本原因可以追溯到Lakehouse的概念本身。在Lakehouse之前,一个典型的企业数据架构会是什么样子呢?可能会有一个或多个数据仓库,用于业务智能工作流程和历史回顾。同时,可能还会有一个或多个数据湖,供数据科学家、数据工程师和AI工程师使用,以构建机器学习模型,展望未来。然而,这两个不同的堆栈实际上是不兼容的。它们有不同的治理模型、存储格式,有的是专有的,有的是开放的。这导致了大量的数据冗余、数据孤立,并带来了治理上的噩梦。
当我们大约四年前面对这个问题时,我们提出了一个新颖的概念——Lakehouse。Lakehouse的理念其实很简单:就是将数据仓库和数据湖的优势合二为一。
但当时技术尚未成熟,我们不得不从头开始构建很多基础组件。我们为基础存储层创建了Delta Lake,为治理层打造了Unity Catalog。然而,随着时间的推移,Lakehouse将成为未来的趋势已逐渐明朗。就连专有数据仓库也开始谈论Lakehouse了。
领先的分析公司Forrester甚至为此推出了全新的Forrester Wave,命名为Lakehouse。我们深感自豪,因为Databricks在Forrester Wave中一直保持着领导者的地位。
回到数据仓库的话题,Lakehouse上最重要的工作负载之一就是支持数据仓库工作流程。而Databricks SQL正是我们为此而打造的产品。
在座的各位中,有些人每天都在使用Databricks SQL,目前已有超过7000位客户在使用它。有些人可能从未尝试过,有些人可能在三四年前尝试过并形成了自己的初步印象。你们可能还保留着这样的印象:Databricks非常适合数据工程师、数据科学家和拥有计算机科学博士学位的高级技术人员,但可能并不适合所有的分析师或业务用户。但实际上,我们已经在各个层面改变了平台,如今的Databricks SQL已焕然一新。
举个例子,当我们首次发布Databricks SQL时,获取计算仓库大约需要370秒。而现在,这个时间已经缩短到不到五秒。这仅仅是三年间超过70倍的改进。
这只是我们努力的一个缩影。我们专注于最重要的基础领域,选择了三个方向,并在每一个细节上都付出了巨大的努力。这包括核心数据仓库功能、开箱即用的性能和易用性。
首先,让我们从核心数据仓库功能开始。为了支持数据仓库工作流程,我们需要许多在Lakehouse中可能并不直接提供的功能。我们需要完整的ANSI SQL支持、物化视图以及基于行的访问控制。这些功能在当时并不是开箱即用的,所以我们一一构建了它们。
在此基础上,我们现在建立了一个庞大的数据和AI合作伙伴生态系统。所有你们喜欢的工具都可以在数据仓库中无缝集成,特别是在业务智能领域:Tableau、PowerBI、ThoughtSpot、Looker、Sigma、Qlik等。这些工具在Databricks SQL上都可以轻松使用,真正降低了从传统数据仓库迁移到Databricks SQL的门槛。
我们投入大量时间的第二个领域是价格性能比或开箱即用的价格性能。价格性能通常是数据仓库POC中最重要的评估标准之一,原因有二。首先,数据仓库往往是业务系统中最昂贵或接近最昂贵的部分之一。用户在这上面投入了大量资金,因此能够节省成本对用户的运营效率至关重要。其次,用户希望确保所有分析师和业务用户在周一上午9点上班时,打开他们的仪表板时都能获得最佳体验。成千上万的查询会同时击中数据仓库,用户希望确保这些查询都能以可预测的低延迟完成。
在去年的Data + AI Summit上,我们已经清楚地展示了Databricks在ETL(数据提取、转换、加载)性能方面的卓越表现。去年我们发布了一项研究,对比了Databricks SQL与领先的云数据仓库在数据量增长和数据大小变化时的性能。我们从100GB开始,增长到30TB,然后对比了两个不同平台上的ETL性能。最初,当数据集较小时,两者的性能表现相似。但随着数据集的扩大,Databricks SQL的经济效益开始显现,因为Databricks SQL的成本大致呈线性增长,而传统数据仓库的成本则呈指数增长。
这听起来可能令人惊讶,但实际上并不意外。想想看:传统数据仓库的基础架构最初是为处理OLTP数据库中的事务性业务数据而设计的,这些数据库往往相对较小。整个系统从一开始就被设计为对较小的数据量进行优化。而在进行POC时,通常不会将大量数据加载到数据仓库中。随着时间的推移,你们会逐渐增加数据量。传统数据仓库试图为早期阶段进行优化。但在Databricks SQL中,因为我们更多地继承了数据湖的传统,我们确保整个系统能够轻松处理超过30TB甚至到PB级别的数据量。
在去年的这个会议上,我做了一个非常不同的主题演讲。我详细讲解了如何使用AI系统来改进数据仓库引擎的性能。当时,我们知道AI将成为一个重要趋势,但我们并不清楚它会有多大、多重要。
然而,在过去的12个月里,我们几乎重新设计了引擎的每一层,以整合AI系统。这涉及到底层物理数据布局、中间层查询引擎以及顶层工作负载管理调度的各个方面。我们亲眼见证了AI系统带来的巨大改进。老实说,我认为我们大多数人,包括我自己在内,都低估了AI系统的影响力。
此时此刻,你可能已经迫不及待想要了解更多的具体信息。那么,让我先通过一些实例来为你描绘一个更清晰的画面。尽管某些例子可能听起来略显抽象,但请放心,你无需完全理解其背后的技术细节,只需感受它所带来的实际效益。
首先,Michael将在明天的Delta Lake讲座中深入讲解Liquid Clustering,这是数据聚类领域的一大创新。在Databricks平台上,我们利用AI系统,根据用户的工作负载学习并自动为他推荐最佳的数据聚类方式。这个系统不仅会建议用户适合进行聚类的列类型,还会决定是应该将这些操作作为ETL工作流的一部分在线运行以获得最快的聚类速度,还是在离线状态下运行以减少对ETL工作流的影响。
同样的AI系统也应用于统计学领域,这是数据仓库查询优化中的关键要素之一。AI系统会根据用户的需求,自动决定在不同类型的列上应用何种统计信息,如何最小化开销,以及何时使用更高保真度的统计信息或更多的草图。
去年我举过一个具体的例子,那就是预测性I/O(Predictive I/O)。当时,我半开玩笑地提到“索引”(indexes)这个词发音困难。预测性I/O利用机器学习模型来预测数据的位置,为用户提供索引的便利,而无需承担索引重写放大等额外开销。随着Mosaic AI堆栈在过去12个月的不断优化,我们现在能够实现模型参数和特征向量数量级的巨大提升,这是预测性I/O技术的重大进步。我们刚刚推出了预测性I/O 2.0,这一切都在后台自动进行,无需你进行任何操作。它的加速效果已经超越了去年我所展示的简单案例。
接下来,我将为大家呈现一系列数据。在后续的演讲中,你将看到大量的数字和图表。供应商们经常通过展示一些基准测试来证明自己产品的优势。但你参加过的每一次供应商演讲都会展示类似的图表。我也会给你们展示一些图表,但这次有所不同,我敢打赌你们看到的将是供应商自己的图表,而且在这张图表上,供应商的表现并不突出。
人们通常认为,只有在Databricks优化上有深厚造诣的人才能获得最佳的性能价格比。但我真正想强调的是,即使你没有时间或专业知识来优化系统,你也能在不进行任何操作的情况下获得卓越的性能。为此,我们设计了一个合成基准测试,该测试不断摄取大量数据,并针对这些数据运行TPC查询。
当我们在2022年首次进行这项基准测试时,大约两年前,我们之前进行基准测试的数据仓库实际上比Databricks SQL表现得更出色。但去年,在我们整合了更多AI功能之后,两个系统的性能已经大致相当。而最令人惊喜的是,在过去的12个月里,随着AI系统的不断发展和完善,以及它们对工作负载的学习越来越深入,Databricks SQL的性能实际上比2022年快了60%,现在已达到行业领先水平。
这一切都是开箱即用,无需任何调整。有些人可能会问:“你一开始谈论的是性能和成千上万的分析师同时访问系统的情况,但这个基准测试似乎只关注单个查询的性能。”为此,我们还创建了一个模拟真实场景的基准测试,那就是模拟周一早上9点,当所有员工都打开他们的仪表板时的情况。在这个基准测试中,我们设置了大量机器人,它们不断地使用各种BI查询来访问数据仓库。这些机器人不会休息,因此每个机器人可能相当于正常用户的十倍工作量。我们再次对比了一款领先的云数据仓库与Databricks SQL。在低并发度的情况下,Databricks SQL和领先数据仓库的低延迟表现相似。但当我们继续扩展并发度至512个用户时,差异开始显现。数据仓库在应对大量用户时遇到了困难,而Databricks SQL仍能保持稳定的低延迟性能。
我知道有些人,甚至每个人,都可能会想:“尽管你说你的测试模拟了真实场景,但我只关心我的实际工作负载和真实场景。”当我们的工程团队向我展示这些基准测试时,我也提出了同样的疑问。我告诉他们:“我只关心我们客户的查询在实际运行中的表现。”因此,我们采取了进一步的行动。我们分析了在Databricks SQL上运行的所有BI查询,并在2022年建立了一个基准线。我们追踪了这些查询性能随时间的变化。如今,到了2024年,相同的BI查询平均运行速度比两年前快了33%。这意味着什么呢?一个过去需要10秒的查询现在只需要2.7秒就能完成,几乎快了四倍。最重要的是,这一切都不需要你额外付出任何费用或进行任何操作——它正在幕后变得越来越好。因为我们深知性能对你而言至关重要。
最后要谈的是易用性。之前我提到过,大家普遍认为Databricks非常适合数据科学家和数据工程师,但对于分析师来说可能没那么友好。但在这几年里,我们倾听了很多反馈,并彻底改善了用户体验。不过,我很难用言语描述它变得有多不同——你真的需要亲自体验。我能做的就是给你展示一些截图,对比一下改进前后的效果。
比如,如果你想查看数据谱系或历史,或者数据是如何在过去创建的,过去你可能需要运行一个SQL查询来获取结果。
但现在,系统能直观地展示所有数据集的端到端谱系,不仅限于表,还包括机器学习模型。
以前,错误消息对于技术水平不高的用户来说可能很可怕。工程师们可能喜欢它们,因为能看到堆栈跟踪,指出具体哪一行有问题,但对于业务用户来说,这非常令人畏惧。
现在,我们输出的错误消息非常简洁,并附有你可以通过谷歌搜索的错误代码。但更好的是,侧边栏的AI模型能为你推荐并自动修复错误。
在SQL功能方面,我们还添加了许多超越标准SQL的改进,如SQL UDFs、横向列缩减、会话变量等——一旦开始使用这些功能,你会想:“为什么不是每个数据仓库都有这个功能呢?我过去十年都错过了什么?”
当然,我们认为AI能实现真正的飞跃。Databricks助手非常受欢迎,并已扩展到所有SQL场景。我们在Databricks SQL中引入了AI函数,现在你的分析师可以立即使用包括开源和专有大型语言模型在内的全部功能。更棒的是,你的AI工程师可以构建新模型,发布到Unity Catalog,使其立即在Databricks SQL中供所有分析师使用。
我们的Mosaic AI堆栈也是如此强大。Databricks SQL中的向量搜索现在可以自动创建向量索引。与其让我继续介绍,不如邀请Pearl上台,为大家现场演示这一切。
Pearl Ubaru
正如Reynold分享的,我们正在使用AI改善Databricks SQL上的体验,让平台更简单、更强大。
现在,我在SQL编辑器中,有一些商店的营收数据绘制成了时间序列图。这很好,但我很想知道未来几个月的营收会如何。如果能使用AI来预测,那就太棒了。实际上,我可以通过我们的AI函数来实现这一点。我要使用助手来帮助我,并添加一个到2024年9月的预测。
助手通过简单的函数调用,将我的原始代码与AI预测结果结合在一起。这看起来不错,所以我接受并运行它。就这样,我得到了营收预测——无需Python或数据科学家。
这个营收趋势看起来不太乐观,我想用他们选择的BI工具PowerBI与管理团队分享这个情况。我再次使用助手,并创建一个将发布到PowerBI的物化视图。助手正在工作,所以我接受并运行。
物化视图非常棒,因为它们能加速查询,特别是那些为下游用户使用AI的查询。我的物化视图已完成,并且是Unity Catalog中的一个受控对象,所以我可以在这里搜索它。现在,让我们将其发布到PowerBI。正如你所看到的,我们也为Tableau提供了一些解决方案。我将利用Databricks SQL计算引擎直接查询PowerBI,并通过我的SSO登录安全地进行连接。我选择所有列,构建一个柱状图,调整大小,并与管理团队分享。
让我们回到SQL编辑器,进行更多基于AI的分析。在这里,我已经构建了一个查询,显示了一堆Yelp评论。我将使用AI查询(一个AI函数)来调用一个定制模型,为这些评论构建回复。AI查询很棒,因为它允许你调用基础模型,如DBRX以及外部模型。在这里,我有所有的评论以及来自定制模型的回复,但我更关注评论本身。我想知道人们对我们的食物和饮料有什么看法,所以我在这里添加一个过滤器。
过滤器给了我一个关于“食物”的精确匹配。很好,让我们试试“饮料”。没有精确的单词匹配,但借助我们新的向量搜索功能,我可以使用嵌入模型搜索与饮料相关的评论。这很棒,因为它不需要精确的词语匹配。我搜索到了“冲泡浓缩咖啡”,“丰富的冷泡咖啡”和“冲泡卡布奇诺”等。这些都是因为使用了向量搜索。我将在这里构建一个参数。Databricks让这一切变得非常容易,我可以轻松地搜索任何项目的评论,比如糕点。
我们这里有大量的评论,但我还需要深入分析。由于数量众多,我将使用AI功能来辅助。我们有很多选择,从修复语法到翻译文本,但这次我将使用“分析情感”功能对评论进行情感分析。这应该会在评论列旁边给我一个情感值的新列。看起来确实成功了——我有评论以及对应的情感评分。我刚刚在SQL中构建了一个简单的报告。
现在,我想通过图表来展示这些情感分布,以便我能更直观地了解情感倾向。我保存了图表,看起来糕点的声誉很不错。让我试试“服务质量”这一项。如果服务需要改进,店家需要知道这一点,而这种可视化能轻松显示问题所在。看来服务确实需要改进——看看那些负面评论。
总结一下,我展示了Databricks SQL的数据仓库能力,它让你能够查询、运行AI函数、调用模型,并让数据为你工作。有了这些功能,我们可以开始工作了。
Reynold Xin
在过去的四年里,我们通过Databricks SQL彻底改变了整个数据仓库的体验。如今,它与首次发布时相比已大不相同。我们几乎实现了所有核心数据仓库功能,你可以轻松、低成本地迁移到Databricks SQL上。
我们提供业界领先的、开箱即用的性能,并极大地简化了使用方式。Databricks不再是只服务于数据科学家和数据工程师的平台,它也是所有分析师的平台。这些功能都是基于我们的数据智能堆栈构建的。
当你将这些功能结合在一起时,我们坚信最好的数据仓库是一个Lakehouse,因为我们更愿意留在Lakehouse的开放环境中,而不是被限制在传统的数据仓库中。我们觉得在这样的环境中更加高效,而且Lakehouse通常也比数据仓库更加经济实惠。谢谢。
Ali Ghodsi
我对接下来的演讲非常期待。一年多前,我们要求一个并未真正从事Databricks核心工作的团队进行独立创新。我们说:“想象一下,如果你不是在Databricks工作,你必须使用生成式AI来彻底颠覆并从头开始构建某物。”
接下来的演讲将详细介绍这个产品。我非常高兴地邀请Ken上台分享。
Ken Wong
Databricks的使命是为所有人民主化数据和AI。
现在,对于大多数人来说,使用数据基本上意味着查看报告和仪表板。就像这样的报告——这是我们一个产品团队构建的真实仪表板示例。这里的内容都被模糊了,所以你看不到具体的内容,但它原本是一个简单直观的仪表板,能告诉我们关于业务状况的一切。只是一个简单直观的仪表板。
当我们开始深入研究数据时,我们会遇到新的问题。我们会构建一些新的查询和可视化,并将它们添加到仪表板中。这些查询的构建花费了大量时间,随着时间的推移,仪表板开始变得混乱不堪。这就是当今仪表板和BI报告面临的核心挑战。你必须预先知道你想要回答的问题,并将它们构建到相关工具中以获取答案。
在过去的几年里,使用AI来解决这个问题引起了广泛的关注。当大型语言模型(LLMs)出现时,市场上的每个人都开始争相添加一些现成的LLM,以增加AI辅助功能。
这个想法非常吸引人,你已经看到助手在编写SQL时表现得多么出色。如果你只是添加一点AI功能,你就可以创建一个用户可以用自然语言提问并获得答案的体验。现在,行业中的每个人都在进行这样的展示。你可以随意提问,获得一个美观的仪表板——不再需要数据科学家,不再需要数据分析师。每个人都能获得他们所需的数据。
但这在现实世界中真的可行吗?我们尝试了一些当今市场上领先的BI工具,包括我个人认为在这个领域真正领先的一款工具。我们使用了一个真实的销售机会数据集,并提出了一个简单的问题:“我的销售管道状况如何?”
这是我们得到的一些答案。一个供应商向我们展示了一堆“N/A”,这在数据上是真实的,我们确实有很多缺失值,但这并不是很有用。另一个工具告诉我们根本没有销售管道。这是因为它生成了一些看似真实的销售阶段,但我们并没有这些阶段,所以它告诉我们根本没有管道。第三个供应商要求我们重新尝试,因为它不理解我们的问题,因为我们从未在语义模型中定义过“销售管道”这个概念。
我展示这些例子并不是为了贬低这些工具,它们都是非常出色的BI工具。通过一些调整或语义建模,我们可以让这些工具工作并回答问题。但我的观点更为深刻:仅仅添加一个通用的LLM并不足以实现AI和BI的变革力量。通用的LLM不理解你数据的独特性。它们不了解你的数据有多么复杂,或者你的分析师和数据科学家在他们的仪表板、查询和Notebooks中使用了什么技巧来处理它。它们也不理解你所在的行业或领域特有的语义。正如Jensen之前所提到的,每家公司都有自己的专业术语和概念。每个人都知道什么是客户流失,但对每家公司来说,流失的定义都是不同的。
传统的BI解决这个问题的办法是将所有内容都纳入一个语义层进行预建模。语义层虽然功能强大,但现实情况是,试图在企业中建模所有内容是不切实际的。
好消息是,我们认为AI能够解决这些问题,但它需要一个从基础开始的方法,而不是简单地添加一些功能。我们从基础开始做起,这就是为什么我非常高兴地宣布,我们正在推出Databricks AI/BI,这是一种以AI为核心的商业智能解决方案。
我们认为这是真正为每个用户民主化数据和分析的第一步。那么,什么是AI/BI呢?嗯,它属于BI范畴,所以它包含了仪表板。我们的目标是在Databricks中提供最快、最简单的构建仪表板的方式,并与大家分享。AI/BI仪表板可能没有我们那些令人惊叹的BI合作伙伴所具有的所有高级功能,但它涵盖了基本功能。它拥有无代码拖放体验、调度、导出,甚至交叉过滤功能。所有这些都构建得非常迅速,并且深度集成到Unity Catalog中。它内置于Databricks SQL中,因此你无需管理一个单独的服务。
AI/BI真正酷的地方在于,只需点击一下,你就可以切换到我们称为Genie的另一种体验。Genie是一种类似于在Slack上与分析师聊天的对话体验。它可以用自然语言回答常规的业务问题,并以可视化和查询的形式给出答案。
这听起来可能与我刚才告诉你的内容相似,那么是什么让Genie如此特别呢?
嗯,我认为你们现在都是复合AI系统的专家了,因为我们讨论了很多相关内容。Genie是一个复合AI系统,它不断学习你业务的独特数据和语义。它使用一组专业化的AI代理,这些代理利用不同的LLM协同工作。这些代理利用Data Intelligence Platform提供的工具和上下文。
这包括Unity Catalog的元数据、PKK约束以及你在其中添加的所有注释。它还包括你所有不同工作负载的执行查询历史记录。这是它能够根据上下文理解你业务使用的所有独特逻辑的方式。它还使用相关资产,查看诸如Notebooks、仪表板和查询之类的内容,以了解上下文。如果有语义模型可用,它也会使用该模型。
所有这些都连接在一个代理工作流中,我们教会它在无法从所有可用工具中推理出答案时,向用户寻求澄清。真正特别的是,它记住了这些澄清,因此它不断学习并变得越来越好,使其能够回答真正复杂的问题,远远超出了你可以在语义模型中预建模的范围,因为它会随着时间的推移而不断学习。
这些幻灯片包含了很多抽象的内容,所以看到AI是如何工作的最佳方式显然是亲眼所见。我想邀请AI/BI产品负责人Miranda Luna上台为大家进行演示。
Miranda Luna
我在Databricks担任产品经理。今天能够向你展示AI/BI的运行情况,对我来说是一种特别的荣幸。
让我们首先从BI方面开始。仪表板是我们日常工作的一部分;这是一些CRM数据。它们不会消失,我们非常兴奋能够跳出仪表板的局限。
我只是快速创建了这个仪表板。让我们来制作一个按区域划分的机会柱状图。再请求一个按区域划分的管道柱状图。我们在这里还要做一个小切换,如果我们想要选择其他内容。你有多种选择,但如果我想打破这个限制并转到实际的SQL,让我们在这里添加一些注释。
这是Pearl之前向我们展示的内容。我将接受它。现在,这个查询正在执行几个操作:它帮助清理一些混乱的数据,定义了管道的阶段2、3和4,并从平台获取了所有这些上下文。它知道这些,因为它在一个Notebooks中。我将发布仪表板,然后我们来看看在BI工具中你期望看到的内容。
我要确保我们继续前进。我们已经在画布上了。完美。我们将继续移动到画布上,我要再次确认一下,从仪表板层面看,我们期望的所有内容都已经具备。我们将继续发布。好了。现在我们来看看在发布模式下我们在这里有什么。
当然,我可以与组织中的任何人分享这个仪表板。我可以与那些没有访问工作区的人分享,这非常令人兴奋。我当然也可以确保我设置了PDF订阅。我可以查看数据的来源;我已经拉起了相关链接,所以它们已经连接上了。你可以看到我强调的内容。我也可以进行交叉过滤,做我最喜欢的选择操作,这真是太棒了。
但演示还没有结束。AI/BI的激动人心之处在于,我们不仅仅停留在数据可视化层面。我们将继续启动Genie,并提出新的问题,而不是总是询问分析师。
让我们来问一个肯最喜欢的问题:“我的销售管道怎么样?”看起来我们已经按地区划分了。很高兴看到这一点。完美。让我们进一步细分。点击美洲,也许我们来看看按部门划分的情况。完美。我们在这里有各个部门的销售数据。让我们制作一个饼图。好的。当Genie为我们准备这个饼图时,让我们看看代码。这里的代码与我们在仪表板侧看到的完全相同。我们正在过滤这些预测类别:null、演示阶段、验证阶段和采购阶段。我们正在获取所有这些上下文,因为它们都存在于我们的销售管道中。完美。
让我们来提出一个新问题,一个仪表板上没有的问题。比如,关于销售代表的情况。谁是我们的顶级销售代表?我们来看看。谁创建了最多的销售管道?非常棒。让我们看看谁的业绩最突出。哦,是Lauren。好,为Lauren鼓鼓掌。那么,Lauren与我们的普通销售代表相比又如何呢?太好了,我们得到了不同的数据。Ken曾向我们承诺,我们不仅能处理杂乱的数据,还能解决语义缺失的问题。
让我们来问Genie一些它不知道的事情,比如流失情况。很好,Genie并没有凭空猜测。它要求我们提供更多信息。与其找到有权限更新语义层的人,我只需告诉它什么是流失。流失就是我们失去了一个机会,之后没有赢得另一个。那么,Genie,你能学会这个定义吗?当然。现在我们有了一些流失的实例。现在的好处是,当我点击“保存为指示”时,公司里的每个人都能利用这个相同的定义。欧洲的同事可以进来问同样的问题,并在需要时修改这个定义。
现在,假设我们是那位欧洲的同事。让我们看看上季度欧洲流失了哪些客户。看,我们得到了流失客户的名单。Genie已经建立了EMEA和欧洲之间的关系。这是一个成功。那么,Genie能否将这种知识扩展呢?让我们试试,让它计算欧洲的流失率。太棒了,Genie能从我这里学到什么是流失,并应用它。现在,我们快速地将这些数据放入一个可视化图表中,确保我们有一个漂亮的按地区划分的流失率图表。太棒了,美洲在流失率方面表现良好。
我们能够看到,我们是如何从仪表板过渡到提出该仪表板上下文之外的问题的。我们能够教Genie一些缺失的语义信息,并让它为多个用户在多个上下文中应用这些信息,并将这种理解扩展到新的数据。基于这些,我将话题转回给Ken先生,我们很高兴看到AI/BI的应用。
Ken Wong
正如我所说,任何人都可以制作幻灯片或拼凑一份演示文稿。真正困难的部分是让它在实际数据上运行,进行实际的分析。这就是为什么我们从一开始就与客户合作开发Genie和AI/BI的原因。我们的客户包括Accolade、Sega、Kythera和T-Mobile等。
我最喜欢的反馈来自我们与Sonatype的CTO Brian Fox之间的一次对话。他给了我们很多反馈,但这是他结束对话的方式。这种反馈正是我们对AI/BI未来感到兴奋的原因。
实际上,这将是一个漫长的旅程,我们真的只是刚刚起步。我们坚信这个理念,即为了真正解决这个问题,我们需要与大家一起处理真实世界的数据、解决真实世界的问题。因此,我非常高兴地宣布,AI/BI今天已经向所有Databricks SQL客户提供。
你可以立即开始构建你的仪表板,这些功能完全可用。你也可以在你的工作区中立即切换到Genie。我们的目标是让尽可能多的人使用AI/BI。这是我们的使命。
同样,我们也对向所有合作伙伴开放我们的AI API的可能性感到兴奋,这样他们也可以从我们所做的一切工作中受益。我们坚信合作伙伴关系和开放生态系统的力量,以便每个人都能真正实现数据和AI的民主化,无论他们使用什么工具和经验。谢谢。
Ali Ghodsi
太棒了,我们对Genie和AI/BI感到无比兴奋。请尽情尝试。这真的是数据智能的巅峰之作,它能让我们与数据进行真正的交流。我们将持续优化它,使其变得更好。请给我们反馈,我们正在开放API,这样我们的BI合作伙伴也能利用它,使你能在你喜欢的BI工具中享受同等级别的智能。
请允许我花一分钟的时间来回顾一下我们今天的内容。
这就是Data Intelligence Platform的魅力所在。从幻灯片上,可以看到我们讨论了Mosaic AI、生成式AI等多个话题。我们还深入探讨了Databricks SQL和AI/BI。
-----
数据是庞大的,但其潜力更是无穷的。数据智能有望治愈疾病、拯救生命、逆转气候变化,并彻底改变我们的生活方式。我们坚信,未来属于数据,而AI则是解锁其无限潜力的关键。Databricks是一家专注于数据和AI的公司。我们帮助企业掌控其数据,利用AI将其转化为实际价值,并助力解决世界上最棘手的问题。
我们作为企业、个人以及整个地球所面临的挑战是艰巨的。这些问题无法在小范围内得到解决,它们太过重要,不能仅由少数人承担。我们需要所有的数据、所有的AI以及所有的智慧。我们需要大家齐心协力,在新的Data Intelligence Platform上,汇聚所有资源。这个平台将AI与你的数据相结合,让你有能力将AI带给全世界。
这彻底改变了我们的思维方式。它拓宽了我们对可能性的认识,让事情变得更加简单。它将反应性转变为主动性,使你能够更快地实现创新。这就是创新应有的方式:协作而迅速。让我们打破传统假设,突破旧有模式,绘制每一个基因组,治愈每一种癌症,观测整个宇宙,追踪每一种声音、每一张选票,发射更多的火箭,然后成功登陆。
从现在开始,未来已成为我们触手可及的一部分。没有什么能阻挡你与数据、你与答案之间的距离。因为数据智能的力量就是知识的力量。现在,你已经了解了这一切。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)