2024年数据+AI发展报告
数据智能与定制LLM的竞赛
企业竞相推动数据与AI的普及
引言
生成式AI的兴起,正加速引领一个充满创新、创造力和生产力的新纪元。自18个月前成为主流以来,全球企业纷纷积极投入,将生成式AI融入组织架构,推动业务革新。
企业逐渐认识到,高质量数据是提供卓越生成式AI体验的核心要素。然而,目前数据与AI平台各自为营,导致团队难以高效推进生成式AI项目,无论是通过自然语言查询数据问题,还是利用数据构建智能应用,都面临着重重阻碍。
我们认为,数据智能平台将成为企业内部普及变革的关键。这类新型平台融合数据与AI之力,能够帮助企业轻松保护和利用数据,降低技术门槛,释放生成式AI的强大价值。
在我们的客户案例中,AI的应用速度明显加快。本报告将深入探讨企业如何优先考虑数据和AI项目,并分享来自全球超过一万名客户(包括300多家财富500强企业)使用Databricks数据智能平台的实践经验。
我们将带领您探索最具创新性的组织如何成功运用机器学习应用生成式AI,并应对不断变化的治理需求。本报告旨在帮助企业制定有效的数据战略,在不断发展的企业AI时代乘风破浪。
主要发现
AI模型投产数量激增11倍 经过多年的AI试验,公司现在部署的模型数量比一年前大幅增加。 平均而言,组织在模型投产方面的效率提高了三倍以上。 自然语言处理成为使用最广泛、增长最快的机器学习应用。 70%的企业使用生成式AI工具和向量数据库增强基础模型 在不到一年的整合时间内,LangChain成为最广泛使用的数据和AI产品之一。 公司高度重视使用其私有数据通过检索增强生成(RAG)定制LLM。 RAG需要向量数据库,而向量数据库的使用同比增长了377%(包括开源和闭源LLM的使用)。 76%的企业选择使用开源LLM,通常与专有模型一起使用 许多公司在权衡成本、性能和延迟后,选择了较小的开源模型。 Meta Llama 3在推出仅四周后,就占据了所有开源模型使用量的39%。 高度监管的行业意外地成为生成式AI的早期应用者。金融服务业是GPU使用的领导者,增长速度最快,在六个月内增长了88%。
机器学习:AI进入生产阶段
企业竞相将ML模型投入生产
今年,我们见证了从AI试验到生产应用的转变。随着机器学习的兴起,企业正在学习如何驾驭ML模型生命周期的两个不同阶段。企业首先通过实验测试的过程创建其ML模型,尝试不同的算法和超参数以获得最佳模型,然后再将这些模型投入生产。在此过程中,团队面临两个相互矛盾的目标:确保实验阶段尽可能高效,同时只将经过严格测试的模型投入生产。
历史上,模型投产面临诸多挑战:数据和AI平台分散、部署工作流程复杂、访问控制缺乏治理、监控缺失等。我们的数据揭示了企业如何通过引入数据智能平台克服这些挑战。
公司加速ML模型投产
来自MLflow的数据显示,我们的客户记录模型(代表实验)和注册模型(代表投产)的频率。结果如何?不仅实验增多,公司在投产方面也变得更为高效。
实验记录数量增长:134% 模型注册数量增长:1018% 记录至少一次实验的公司数量增长:56% 注册至少一个模型的公司数量增长:210%
巨大的飞跃:投产模型数量增加了11倍
模型的数量实现了显著的飞跃式增长。
投资于机器学习的公司数量激增
我们的数据显示,相比去年同期,记录实验模型的公司数量增长了56%,而注册模型的公司数量则激增了210%。这表明许多去年还在进行试验的公司,现在已步入投产阶段。
各公司之间的机器学习模型数量上升
经过长时间的试验后,企业现在正大规模地推进模型投产。今年注册的模型数量同比增长了惊人的1,018%,远超实验记录134%的增长率。我们也在公司层面观察到了这一趋势。平均而言,今年每家公司注册的模型数量增加了261%,而实验记录则增加了50%。
关键结论
机器学习已成为公司创新和差异化的关键。随着公司信心不断增强,我们预计这一趋势将在未来几年持续。虽然生成式AI这一新兴领域仍处于测试阶段,但企业已经取得了显著进展。
公司在投产模型方面的效率提高了三倍
机器学习效率在时间、资金和资源上均具有巨大的价值。尽管模型开发和试验至关重要,但最终这些模型需要部署到实际业务场景中以创造价值。
我们通过分析所有客户从记录到注册模型的比例来评估进展。2023年2月,记录到注册模型的比例为16:1,意味着每16个试验模型中仅有1个被注册用于投产。到数据范围结束时,这一比例大幅下降至5:1,效率提高了三倍。
结论是什么?公司在将模型投入生产方面变得更为高效,减少了在无实际价值试验模型上的资源投入。
行业层面的效率
不同行业的数据集、战略目标和风险状况各异。因此,我们预期其机器学习方法,包括机器学习试验和投产的组合,将有所不同。
我们分析了六个关键行业以更深入地理解这些趋势。
最有效率的行业:零售业将25%的模型投产
零售与消费品行业实现了每四个试验模型中就有一个投产的高比例,是我们研究行业中效率最高的。正如《麻省理工技术评论》(https://www.databricks.com/resources/ebook/bringing-breakthrough-data-intelligence-industries)的报告所述,零售与消费品行业由于竞争压力和消费者期望一直是AI的早期推动者。
金融服务业效率增幅最大
金融服务业是试验最密集的行业。2023年初,每注册一个模型需记录29次试验。到2024年3月,其效率近三倍提升,达到10:1的比例。在受监管行业中,投产机器学习模型的风险更高,因此需要更长的测试周期。
为何今年更多公司能够投产更多模型?一个关键因素可能是数据智能平台的可用性,这些平台为机器学习生命周期中的从业者提供了标准化、开放的环境。公司能够在一个平台上执行从数据准备、模型训练到实时服务和监控的每个阶段,同时确保数据治理、隐私和安全。这提高了输出质量并支持了投产准备。
效率提升:金融服务业在模型投产方面的效率提高了近三倍
机器学习应用:NLP爆发
NLP连续第二年成为最顶级的数据科学和机器学习应用
非结构化数据在各个行业和地区无处不在,使得NLP技术成为解析数据意义的关键。生成式AI是NLP的一个重要应用场景。
以下图表聚焦于Python库,因为它们在机器学习进展和AI中处于前沿,且始终是最受欢迎的编程语言之一。在我们的数据中,我们汇总了特定Python库的使用情况,以确定组织中使用的前五大数据科学和机器学习(DS/ML)应用。
连续第二年,我们的数据显示NLP是顶级DS/ML应用;有50%的专门Python库被用于NLP。数据团队也热衷于利用地理空间和时间序列应用。地理空间库常用于基于位置的分析,以便定制用户体验,是第二大受欢迎的应用场景,占Python库使用量的30%。
医疗保健与生命科学行业对NLP的应用率最高
在我们研究的行业中,医疗保健与生命科学行业对NLP相关Python库的使用比例最高,高达69%。根据Arcadia与医疗信息与管理系统协会的调查,医疗行业产生了全球30%的数据量,并且其增长速度超越其他任何行业。NLP可以助力临床研究分析,加快新药上市流程,并提升销售和营销的商业成效。
50%的专门Python库服务于NLP
NLP作为应用最广的DS/ML技术,其增长势头依然不减。随着AI驱动应用的兴起,各行业对NLP解决方案的需求持续上升。尽管NLP在Python库的使用中占主导地位,但它也是所有应用中增长最为迅猛的,年增长率高达75%。
NLP:75% 地理空间:55% 图形处理:44% 时间序列:42% 计算机视觉:34%
所有行业均大力投资于NLP领域
在我们关注的行业中,制造与汽车行业在NLP应用方面取得了最大进展,同比增长率高达148%。NLP可帮助该行业提升运营效率,从分析客户反馈到监控质量控制,再到驱动聊天机器人等。公共部门和教育行业在NLP方面的增长紧随其后,同比增长率达139%。
从野火监测到禽流感预防,时事推动机器学习发展
地理空间是另一个在所有六个行业中显著增长的应用领域。企业越来越倾向于探寻基于位置数据的模式、趋势和关联。公共部门和教育行业在地理空间领域的高增长可能与灾害管理和应急响应规划密切相关。
在所有应用和行业中,第三高的增长率出现在医疗与生命科学行业对时间序列库的应用上,同比增长率高达115%。时间序列支持患者风险预测、供应预测和新药发现。在2023年NIH进行的一项审查中确认,“时间序列分析使我们能够更轻松、快速地进行新型大流行病的短期精确预测,直接从数据中估算”。
现代数据与AI技术栈:迈向生成式AI的新时代
顶级数据与AI产品揭示生成式AI的下一发展阶段
数据领导者一直在寻找最佳工具来实施其AI战略。我们的十大顶级数据和AI产品展示了在Databricks数据智能平台上最广泛应用的集成方案。我们的产品类别涵盖数据科学/机器学习、数据治理与安全、编排、数据集成和数据源产品。
在我们的顶级产品中,十个产品中有九个是开源的。企业更倾向于选择灵活性更高的方案,以避免专有壁垒和限制。正如我们将在后续报告中讨论的那样,我们还观察到开源大型语言模型(LLMs)越来越受欢迎。
Plotly Dash保持领先地位
Plotly Dash是一款低代码平台,让数据科学家能够轻松构建、扩展和部署数据应用程序。这样的产品帮助企业更快、更便捷地交付应用程序,以应对不断变化的业务需求。在超过两年的时间里,Dash一直稳居榜首,显示出数据科学家在开发生产级数据和AI应用程序方面面临的压力日益增大。
Hugging Face Transformers跃居次席
Hugging Face Transformers位列第二,是我们客户中广受欢迎的产品之一,相比去年上升两个名次至第2位。许多公司利用这个开源平台的预训练Transformer模型,结合企业数据构建和微调基础模型。这一趋势支持了我们所观察到的与RAG(检索增强生成)应用程序相关的增长趋势。
LangChain跻身顶级产品之列
LangChain是一个用于处理和构建专有大型语言模型(LLM)的开源工具链,在集成不到一年后便跻身顶级产品之列,跃升至第4位。当公司构建自己的现代LLM应用程序并使用专门的Transformer相关Python库来训练模型时,LangChain可以帮助他们开发提示接口或与其他系统的集成。
公司投资构建高质量数据集的产品
我们顶级10大产品中有三个数据集成产品的显著地位表明公司正专注于构建可信赖的数据集。dbt(数据转换)、Fivetran(数据管道自动化)和Great Expectations(数据质量)均保持稳步增长。最显著的是,dbt在过去一年中上升了两个名次。
向量数据库:企业竞相定制LLM
LLM支持多种业务应用场景,具备语言理解和生成能力。然而,在企业环境中,单独的LLM有其局限性。它们可能是信息来源不可靠且容易产生误导信息的源头,被称为“幻觉”。根本原因在于,单独的LLM并没有针对特定组织的领域知识和需求进行定制。
数据表明越来越多的公司转向RAG而不是依赖单独的LLM。RAG使组织能够使用自己的专有数据更好地定制LLM,并交付高质量的生成型AI应用程序。通过为LLM提供额外的相关信息,这些模型可以给出更准确的答案,并减少产生幻觉的可能性。
RAG引领企业生成式AI
去年,我们的LLM Python库图表显示SaaS LLM的热度轨迹,在短短五个多月内增长了1,310%。像GPT-4这样的SaaS LLM是在庞大的文本数据集上训练的,并在不到两年前走向主流。
今年,向量数据库的应用正在迅速攀升。整个向量数据库类别同比增长了377%,自Databricks向量搜索公开预览以来,增长了186%。
什么是RAG?
检索增强生成(RAG)是一种生成型AI应用模式,它会找到与问题或任务相关的数据和文档,并将其作为上下文提供给LLM,从而提供更准确的响应。
向量数据库和RAG如何协同工作?
向量数据库生成非结构化数据的主要表示形式。这对于RAG应用中的信息检索非常有用,因为它可以根据查询中的关键词相似度找到文档或记录。相比现成的解决方案,RAG应用具有许多优势。RAG迅速成为一种流行方式,可以将专有的实时数据整合到LLM中,而无需耗费时间和成本进行微调或预训练模型。向量数据库的指数级增长表明公司正在构建更多的RAG应用,以将企业数据与LLM整合。
Transformer训练:用于训练Transformer模型的库(如Hugging Face Transformers) SaaS LLM:用于访问基于API的LLM的库(如OpenAI) LLM工具:用于处理和构建专有LLM的工具链(如LangChain) 向量数据库:向量/KNN索引(如Pinecone和Databricks向量搜索)
企业在构建LLM方面逐渐成熟
去年,客户纷纷应用现成的模型快速涉足LLM领域。尽管SaaS LLM的客户数量同比增长了178%,但企业开始更多地掌握对LLM的控制权,并构建满足其特定需求的工具。向量数据库、LLM工具和Transformer相关库的持续增长表明,许多数据团队选择自主构建而非直接购买。企业越来越倾向于投资LLM工具,如LangChain,以处理和构建专有的LLM。Transformer相关库如Hugging Face在训练LLM方面依然拥有最高的客户应用率,这些库的使用量同比增长了36%。这些趋势表明,开源LLM的应用正在变得更加成熟和理性。
使用向量数据库的客户数量同比增长了惊人的377%。
开源LLM的一大优势在于其可定制性,特别是在企业环境中。客户通常会尝试多种模型和模型系列。我们分析了Meta Llama和Mistral这两个最大的开源模型的使用情况,发现开源LLM领域充满流动性,新的最先进模型能够迅速获得应用。
对于每个模型,成本、延迟和性能之间存在权衡。总体来看,使用参数较少的Meta Llama 2模型(7B和13B)显著多于最大的Meta Llama 2 70B。在Meta Llama 2、Llama 3和Mistral的用户中,有77%选择了13B参数或更少的模型,这表明公司非常注重成本和延迟。
企业迅速尝试新模型
Meta Llama 3于2024年4月18日发布后,组织迅速开始使用它,而非其他模型和提供商。发布仅4周后,Llama 3就占据了所有开源LLM使用量的39%。
使用LLM的公司中有76%选择了开源模型,并通常与专有模型一起使用。
利用生成式AI的公司中,有70%使用工具、检索和向量数据库来定制模型。
生成型AI:高度监管行业成早期应用者
在高度监管的行业中,人们通常被视为风险规避者,对于新技术的应用持有犹豫态度。这背后主要有几个原因,比如严格的合规要求、难以替代的遗留系统,以及在实施前必须获得监管部门的批准。
然而,尽管许多行业都在积极拥抱AI创新,但两个高度监管的行业——金融服务和医疗与生命科学——不仅紧随其后,甚至经常超越那些监管较少的行业。
在2023年12月,Databricks发布了基础模型API,为用户提供对Meta Llama、MPT等流行开源大型语言模型的即时访问。随着这些模型的不断优化和快速进步,我们预计对开源模型的兴趣将显著增长,这一点从最近发布的Llama 3中便可见一斑。
开源LLM满足行业特定需求
制造与汽车以及医疗与生命科学在应用基础模型API方面处于领先地位,每个客户的平均使用量最高。在制造业中,供应链优化、质量控制和效率被视为最有前途的应用场景。
据MIT科技评论洞察报告指出,医疗与生命科学领域的CIO们普遍认为生成式AI将为他们的组织带来价值。开源LLM使高度监管的行业如医疗与生命科学能够在保持数据完全控制的同时,整合生成式AI技术。
CPU与GPU:金融服务行业对LLM的承诺在六个月内增长了88%
CPU作为通用处理器,主要用于处理各种任务,但在并行处理任务的数量上有限,常用于经典机器学习(ML)。而GPU是专门设计的处理器,可以并行处理数千甚至数百万个独立任务,是训练和服务LLM所必需的。
通过分析模型服务客户的CPU和GPU使用情况及其增长,我们发现GPU主要与LLM相关联。
金融服务业主导GPU应用
金融服务业是高度监管的行业之一,但它在每家公司GPU的平均使用量上遥遥领先,并且在过去六个月中GPU使用量增长了88%。LLM支持了包括欺诈检测、财富管理以及投资者和分析师应用在内的关键业务应用。
高度监管的行业在统一治理的应用上领先
AI安全和治理对于建立组织对AI计划的信任至关重要。它们帮助数据从业者在遵守严格指南和标准的同时开发和维护产品。统一治理解决方案,如Databricks Unity Catalog,覆盖所有数据和AI资产,使组织能够更容易地在私有数据上训练和部署生成型AI模型。
根据Gartner的报告,AI信任、风险和安全管理是2024年影响业务和技术决策的顶级趋势。领导者比以往任何时候都更希望利用数据和AI来转型其组织。我们在客户中观察到的统一治理的应用情况反映了这一趋势。
金融服务业在数据和AI治理方面处于领先地位
监管和安全合规深深植根于金融服务组织的文化中。根据MIT Technology Review Insights的CIO Vision 2025报告的调查数据,金融机构预计在数据管理和基础设施方面的投资增长最高,金融行业受访者预计从现在到2025年之间增长74%,而整个样本的增长率为52%。
企业转向无服务器以构建实时机器学习应用
实时机器学习系统正在通过基于输入数据立即做出预测或行动来革新企业运营。但它们需要快速且可扩展的服务基础设施,这需要专业知识来构建和维护。无服务器模型服务会根据需求变化自动扩展或缩减,从而降低成本,因为公司只需为其使用量付费。企业可以构建从个性化推荐到欺诈检测的实时机器学习应用。模型服务还支持用户交互的LLM应用。我们观察到无服务器数据仓库和监控的应用在稳步增长,这也根据需求进行扩展。
金融服务业是无服务器产品的最大应用者,使用量在六个月内增长了131%。该行业致力于市场预测,实时预测提供了更强的市场分析能力。医疗保健与生命科学行业的无服务器产品使用量在六个月内增长了132%。过去一年中,该行业从第4位上升到第2位。医疗保健与生命科学在数据处理需求方面经历了显著波动,特别是在高峰时期或处理大型数据集(如基因组数据或医学影像)时。
总结
数据科学和AI正在推动企业向更高的效率迈进,生成型AI为各种可能性打开了新的局面。通过数据智能平台,整个组织可以在一个统一的、有治理的数据和AI环境中运作。我们的数据显示,各行各业的公司都在应用这些工具,早期应用者可能来自意想不到的行业。组织在将机器学习模型投入生产方面已经取得了可衡量的成果。公司越来越频繁地应用和使用自然语言处理(NLP)来从数据中解锁洞察。他们使用向量数据库和RAG应用将自己的企业数据整合到LLM中。开源工具是未来的趋势,因为它们在我们最受欢迎的产品中持续占据重要地位。公司正在制定统一数据和AI治理的策略。
结论:每个行业的赢家将是那些最有效利用数据和AI的公司。
Source: State of Data+AI, Databricks, June 11, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)