查看原文
其他

AI/ML正在爆发,哪些环节和玩家值得关注?

拾象 海外独角兽 2022-11-13



作者:Casber Wang,Aditya Reddy

编译:Kefei,李雨婷

在过去半年,海外独角兽对 data infra 行业进行了持续的研究和跟踪,我们曾在 DataRobot 文章中提出我们对数据行业发展的判断:过去十年是数据上云的十年,未来十年是如何用好数据、如何从数据中获取更多洞见的十年。


从投资机会来看,底层的云、中间层的数据湖与数据仓库,以及围绕云数仓创造出来的小工具,这些领域的竞争格局都已相对明朗,最好的投资时点已去,现在是时候将目光转向数据行业应用层。


在数据行业应用层,AI/ML 是关键。由于数据量变得十分庞大,人们无法通过传统方式分析和利用数据。近年来,随着 GPU 和 AI/ML 技术的进步,人们能够以经济高效和可扩展的方式分析大量数据,AI/ML 被广泛运用到实际应用中。


在行业发展初期,人们通过使用平台化的产品、综合的解决方案开始他们的 AI/ML 之旅。随着人工智能的使用情况变得越来越复杂,企业对更专业的模块化产品的需求越发强烈,AI/ML 行业呈现出由平台化向模块化转变的趋势。


本文是我们在研究过程中有幸读到的一篇高质量文章,文章由拾象朋友 Casber Wang 及其同事 Aditya Reddy 共同撰写。Casber 是美国著名投资机构 Sapphire 的合伙人,Sapphire 长期专注于 Enterprise 领域,目前已投出 DocuSign、Monday、JFrog、DataRobot 等明星项目。


文章详细介绍了 AI/ML 的核心应用场景、用户群体、行业发展情况以及 MLOps 每个环节所涉及的产品和工具,是一张完整的 AI/ML 全景图,我们可以通过本文建立起对 AI/ML 行业的整体认知。我们十分看好 AI/ML 的未来。



以下为本文目录,建议结合要点进行针对性阅读。


👇


01. AI/ML 三类核心用户

02. 为什么综合的解决方案现在会胜出

03. 从平台化向模块化转变

04. AI/ML 模块化发展

05. 结论

当我们提到人工智能和机器学习时,人们往往想到自动驾驶汽车、机器人或超级计算机。但实际上,能够推动商业成果的人工智能用例并不都是那么“性感”。


Databricks 首席执行官 Ali Ghodsi 曾提出“无聊 AI(Boring AI)”的概念——通过使用 AI 来降低成本,增加收入,提高生产力,提升业务价值。


通过使用人工智能,营销人员能够更多地收集客户的建议、制造商能够更好地预测供应链瓶颈、保险公司能够更准确地评估风险。这就是为什么企业级 AI 市场(Enterprise AI Market)每年以 35% 的速度增长,预计该市场规模 2026 年将达到 530 亿美元;此外,人工智能专家和数据科学家的职位分别增长了 74% 和 37%。


一些 AI 应用的实例如下:


  • 销售:分析客户如何与内容交互,以便销售团队调整战术并提高获客效率。


  • 安全:利用机器学习来监测客户是否存在欺诈行为和财务异常。


  • 产品:使用基于 AI 的技术将实时或录制的视频、音频转换为高度准确的字幕或文字记录。


我们认为,近年来人工智能应用的迅速普及不仅可以归功于帮助人工智能运作的新软件平台,还可以(甚至更直接地)归功于核心计算硬件的进步,让计算机能够支持海量数据的信息处理。随着 GPU 计算(通用并行处理)和以人工智能为中心的 ASIC(特定应用处理)的兴起,如今的从业者能够以经济高效和可扩展的方式分析大量数据,使人工智能在整个业务中广泛应用,并回答对业务具有重大影响的问题。


ASIC 指专用芯片,在集成电路领域被认为是一种为专门目的而设计的集成电路。ASIC 芯片技术发展迅速,ASIC 芯片间的转发性能通常可达到 1 Gbs 甚至更高,于是给交换矩阵提供了极好的物质基础。TPU(张量处理器)是 Google 为机器学习定制的专用芯片(ASIC),专为 Google 的深度学习框架 TensorFlow 设计。


随着人工智能和机器学习不断吸引更多的关注、创造新的可能性,企业希望以更精简的方式构建和部署人工智能应用。由于内部资源和专业知识有限,企业过去常常寻求实施机器学习(ML)的一体化解决方案。现在,我们看到对模块化、一流工具的需求正在增加,这些工具使得如今更强大的 ML 团队有能力灵活地运行高度定制的、高效的 ML 工作负载。由于内部 ML 工具积累了越来越多的系统“技术债务”,ML 团队也越来越多地寻求第三方软件供应商的帮助,而不是自己定制开发工具,让第三方软件供应商来管理其建模工作流程的各个部分。这已经成为下一代 ML 工具公司需求的重要驱动力。


在认识新一代 ML 工具前,需要先了解为什么人工智能市场趋向模块化——为此,我们必须探讨是什么推动着这个变化。首先,让我们来看看目前市场是如何划分人工智能用户的。



01.


AI/ML 三类核心用户


Off-the-shelfers


Off-the shelfers 指日常的业务分析师,他们在 IT 和业务成果之间架起桥梁,提供由数据驱动的洞见和建议。他们精通 Excel,通常还精通 VBA 和 SQL 等结构化数据库语言,只要能够拥有 AI 工具并稍微提升其技能,他们就能迅速成为人工智能专家。


正如他们的定义一样,这些客户想要 "现成的"(Off-the-shelfers)产品,来解决他们眼前的业务问题。他们不一定想知道算法是如何工作的,他们只想确保算法是有效的。


将人工智能模型构建和部署工作流程的各个部分抽象化,对于向这个用户群体展示有形价值是至关重要的。有了一体化的 AI 工具,"Off-the-shelfers"可以将人工智能和机器学习应用于基本任务,只需点击几下就可以快速得到结果。这些现成的工具对营销、金融和医疗等领域特别有吸引力,预测、分析时间序列和寻找变量之间的因果关系可以为这些领域提供更强大的决策能力。


Bet-the-farmers


Bet-the-farmers 通常指大型企业里的数据科学家团队,是大型企业的一部分。大企业愿意花费数百万美元,雇用数据科学家团队,建立定制化的机器学习操作系统,从大数据中获得重大见解。


Bet-the-farmers 针对"百万美元级别的问题"建立专门的解决方案,如怎样让汽车保险费提高 1%、预测医疗保险费用或预测供应链的延误。这种解决方案可以改善低效或无效的流程,因为他们的业务规模很大,所以这往往相当于降低数百万的成本以及提高利润。


对于 bet-the-farmers 而言,他们使用机器学习的能力与他们搭建机器学习系统的能力同样重要。因为这些组织内部很复杂——包括技能组合的多样性、员工 onboard 不受重视、本地私有化部署的数据中心、同时进行的上云计划等等——这些组织通常需要定制的机器学习解决方案。


员工 onboard:一方面,指确保 ML 专家在组织内轻松运用他们的知识;另一方面,指推动新人才的技术提升。


从人工智能投资角度看,bet-the-farmers 的机会最大。由于预算问题,机器学习目前在该领域的应用不多,但因为潜力巨大,bet-the-farmers 大规模采用机器学习只是时间问题。


Rocket scientists


Rocket scientists 是 AI/ML 领域的超级脑力劳动者,例如超大规模科技公司的科学家、火箭技术领域的科学家、制药和生物技术分析师,他们具有超强的代码知识和能力,能够建立属于自己的人工智能解决方案。这些公司配备了高技能人工智能从业人员,他们拥有必要的知识,可以在内部为特定的 AI 工作负载建立一个完整的、端到端的工具栈。鉴于对这些人才的高度需求,雇主们,尤其是 FAANGs,通常会给这些人才支付业内顶级的工资。


FAANG 指的是五家著名美国科技公司:Meta(以前称作 Facebook)、亚马逊(AMZN)、苹果(AAPL)、Netflix(NFLX)以及 Alphabet(GOOG)。


Rocket scientists 不一定需要一个商业平台,相反,他们定制自己的解决方案或使用开源代码,因为他们准确地知道自己所需要的工具以及如何解决问题。


虽然从人工智能技术应用的角度来看,这个市场更加成熟,但值得关注的是,"我们可以从他们的世界中获得什么,并将其应用于 bet-the-farmers?"


这三类客户都有不同的机器学习需求和期望,但是,随着越来越多的大型组织将大笔资金投入到人工智能计划中,我们认为 bet-the-farmers 作为市场定义的客群,将在未来几年推动大部分人工智能赋能的技术的应用。



02.


为什么综合的解决方案现在会胜出


自动化机器学习(AutoML)解决方案通过处理核心工作流程组件,包括数据准备、模型选择和训练以及模型部署,简化了端到端的人工智能项目周期,所有工作都是通过一个单一的集成平台完成。通过拖放功能和易于理解的可视化功能,这些平台用强大的人工智能武装数据科学家。就在几年前,随着强大的 AI 平台的出现,民主化的数据科学家的数量比专业化的数据科学家的数量多 100 倍。


民主化的数据科学家:即数据和业务分析师,是指没有接受过高等数学和统计学教育的知识工作者,他们使用应用程序从数据中提取高价值见解。

专业化的数据科学家:是一些能综合运用编程和统计技术的人,他们通过各种方式让数据发挥更大的作用。


多亏了 AutoML 供应商,那些缺乏专业数据科学家的企业也可以部署机器学习工作负载。AutoML 平台已经能够帮助任何行业回答具有重大影响的业务问题。例如,DataRobot 与费城 76 人的票务销售团队合作,识别出最有可能流失的粉丝,并优先考虑他们的客户参与计划,以防止客户流失。


就像人工智能与机器学习所承诺的那样,这些一体化的集成解决方案为企业利用高级分析提供了一个切实可行的途径。这些解决方案受到欢迎的其中一个原因是:在市场初期,成功基本上是由产品性能和功能决定的。



03.


从平台化向模块化转变


随着人工智能的使用情况变得越来越复杂,越来越多人接受高级数据科学培训,企业将不再想要一个集成的“黑盒”。企业希望能够灵活地调整他们的模型和模型构建工作流程的每一个组件,以得到最适合他们特定需求的系统和分析结果。


如今,定制 ML 生命周期的不同组件是高度手工化的,从业者大多采取 DIY 的方式。虽然这对"rocket scientist"来说是可以接受的,但大多数企业更倾向于在建模过程的每个步骤中,底层功能和硬件有一定的共性,因为他们没有(或者不想投资)内部资源来定制部分功能,如数据标签、实验跟踪、模型监控等。相反,我们看到大多数组织选择采用重点供应商的最佳解决方案,以便对其建模工作流程进行选择性的监控,而不需要太关注内部究竟发生什么。


Source: Clayton Christensen’s Modularity Theory


很快,大型数据团队将转而采用模块化的、具有几十个解决方案的工具包,以管理 AI 生命周期的不同阶段。对"bet-the-farmers"来说更是如此,他们需要定制化的、一流的工具来提供灵活的解决问题的方案。


在这一点上,性能将不再是市场的唯一要求。相反,供应商将同意通过定制来保持差异化,这种差异化能够让 AI 解决方案与组织所面临的实际问题更相关。这导致了整个 AI 堆栈(AI stack)的模块化,用户可以在内部设置人工智能建模功能,以适应其特定的组织目标。


但是,如果狭隘地认为模块化是人工智能的未来,或者当市场成熟时,平台化是必然的,那就大错特错了。事实上,从"off-the-shelfers"和"bet-the-farmers"的使用情况看,模块化和平台化的人工智能的使用都在增长,市场没有被任何一方完全接管,而是走向了模块化和平台化的平衡点。


我们看到,平台化参与者正在采取措施使自己变得更模块化。例如,DataRobot 最近收购了 Zepl(协作)和 Algorithmia(部署),希望为更多的技术用户提供先进的开发环境,让数据科学家可以加入自己的定制代码。


同时,许多模块化厂商意识到,仅仅提供工具链的一小部分是不够的。他们也需要开始推销其商业价值,所以一些供应商也在朝着提供更广泛的功能方向发展。


最后,模块化是一个昂贵的设计选择。一个真正的模块化技术栈是一项重大投资,需要与它所包含的各个模块进行有效的沟通。现在,ML 团队花费资源使用自定义脚本,在不同的工具之间建立连接——在某些情况下,这些团队放弃自己组建模块化技术栈,转而采用定制化解决方案。因此,尽管我们的确看到更多的模块化解决方案出现,但从长远来看,模块化预计将保持在一个合理的水平,平台化也将继续蓬勃发展。



04.


AI/ML 模块化发展


随着技术栈模块化的趋势越发明显,我们看到人工智能生命周期工具链的发展如下:



注:Dremio、Snowflake、Alteryx、DataRobot、Verbit、Zesty、Clari 和 Moveworks 是 Sapphire 目前仍持有的或已退出的投资标的。


数据平台


将准确的数据送到下游 AI/ML 系统是如今一项重要工作。随着企业捕获更多数量、更多类型的数据,能够帮助企业整合数据并支持 AI/ML 管道数据需求的平台变得至关重要。这一领域的公司包括数据库,数据湖,Snowflake、Databricks 和 AWS S3 等湖仓一体平台,以及 Dremio 等查询引擎。


数据预处理(数据标注、数据准备和数据质量)& 特征库


数据处理是将原始数据转化为结构化数据以训练 ML 模型的过程。为了确保数据集的完整性,添加标注、转换数据以生成一定的特征。大部分数据都有缺失或错误的数据点,一旦它们被使用,可能会影响 ML 模型的准确性。对于更复杂的机器学习和深度学习模型,用户需要一个已标注的训练数据流(基于原始数据),通常是通过手工标注、程序化标注或手工与程序化混合的标注方式来实现。


除了数据转换,许多解决方案还能评估数据集的质量,以确保数据点的多样性,并确保数据已被适当地预处理,获得准确的模型。这个领域的公司包括 Scale、Labelbox 和 Snorkel。


ML 架构


一旦数据被清洗并准备用于分析,人工智能科学家必须确定最佳的模型类型和超参数设置,以获得最佳结果。通常情况下,选择模型的方法是:在训练的数据集上运行,确定模型的拟合度;在验证的数据集上运行,评估模型性能,同时调整参数;在测试的数据集上运行,确保模型在实际应用时的准确性。能够有效选择和训练模型的平台包括 Hugging Face、PyTorch 和 TensorFlow。


分布式计算


现代 AI/ML 训练通常需要巨大的数据集和强大的计算引擎来处理数据。分布式数据引擎对计算进行编排,以便在服务器集群中处理数据。像 Dask、Ray 和 Spark 这样的开源平台,由于使 ML 工程师能够在更短的时间内轻松地大规模处理大数据工作负载,而迅速得到了普及。由于分布式平台难以建立和维护,商业实体已经出现,目标是通过建立管理经验来支持大规模数据项目。这个领域的公司包括 Coiled、AnyScale 和 Databricks。


模型评估和实验跟踪


就像在软件开发中跟踪元数据和版本一样,AI/ML 团队跟踪与模型训练相关的日志、数据和代码至关重要。构建模型是一门经验科学,需要多次迭代,涉及模型和底层代码的无数组件的具体调整。终端用户需要一个记录所有变化的系统,以便他们在业务中实现无缝协作和对 AI/ML 计划的调整。作为模型实验过程的最后一步,工程师们更愿意将最终版本送到模型"注册处",让其他 ML 工程师或企业员工能够轻松访问。这个领域的公司包括 Weights & Biases 和 Comet.ML。


模型部署


一旦一个模型被选中并训练完成,就可以开始部署模型。模型部署工具与底层 ML 基础设施、运营工具以及生产环境整合,以优化模型性能,并简化将模型推向生产的过程。这类工具将 ML 工程师从基础设施和硬件层面的决策中抽象出来,协调 IT 团队、业务人员、工程师和数据科学家的工作。这个领域的公司包括 OctoML、被 DataRobot 收购的 Algorithmia 和 Velohai。


模型监测和管理


与将模型投入生产同样重要的是,监测模型在整个生命周期中的性能。当模型从一个封闭的研究环境过渡到实际应用时,模型监测工具试图识别这一过程中的问题,包括跟踪模型正常运行时间(可用性)的指标、识别模型漂移、标记数据质量的下降等等。这个类别下的一个子集专注于推动人工智能的可解释性,这可以帮助工程师和商业用户理解 AI/ML 模型的输出。这个领域的公司包括 Arize、Fiddler 和 WhyLabs。


模型漂移:由于生产数据特征与训练数据特征的不同而导致的模型性能下降。


商业决策与应用


即将大量推出的商业应用让我们看到 AI/ML 的潜力是无限的,这些商业应用旨在利用高级分析来回答企业面临的重要问题。无论是专门解决特定问题的软件(如 Gong、Abnormal Security、Clari、Moveworks、Verbit、Zesty 等),还是使用户能够建立灵活数据应用的开发架构(如最近宣布被 Snowflake 收购的 Streamlit、Plotly),建立 AI/ML 堆栈应用层的公司,正通过向企业提供实用和可操作的产出,来完成 AI 的最后一英里承诺。


深度学习


深度学习是 ML 中一个更复杂的子集,它涉及到神经网络中的几个层次。随着企业正在寻求自动化的新机会、了解其运营中的关键问题,深度学习正被整个数据科学界所采用。然而,由于历史上缺少足够大的标注数据集、缺乏高性价比的大规模算力,深度学习的工作负载大多在研究环境中运行。


随着训练方法的发展(如无监督学习)以及高效的硬件和处理系统的出现,我们相信未来会看到深度学习在人工智能数字原生企业和投资于数据科学的传统企业中,得到更广泛的使用。纵观深度学习在现实世界中的众多案例——无论是功能超强的虚拟助手,还是像 Rivian 和 Tesla 这样的自动驾驶汽车,甚至是医疗保健(如医学图像分析)和制造业(如可预测的机器维护)等核心行业的其他"无聊 AI"应用——改善商业和社会的可能性是无限的!


任务编排和调度


任务编排和调度工具在 AI/ML 工程师中越来越受欢迎,因为它们能够简化、自动化繁杂的建模工作流程,但它们不一定是为了运行和管理整个人工智能生命周期而存在。ML 模型必须持续运行、学习和更新,以保持高性能——确保结构化和可重复性,编排工具帮助 ML 团队配置 ML 管道的不同组件(例如,模型训练、评估等)、管理相关关系(例如,管理相关的数据流)等。对于任何模块化的技术栈,不同组件之间的无缝“对话”也尤为关键。任务编排工具是连接不同工具的抽象层,允许 ML 团队快速操作他们的模块化技术栈,这是任务编排工具能够发挥作用的另一个场景。这个领域的代表公司包括 Pachyderm、Prefect 和 Arrikto KubeFlow。


任务编排:是指安排一系列步骤或任务的过程。

任务调度:是指系统为了自动完成特定任务,在特定时间去执行任务的过程。在 AI 训练中,可能同时运行数百个任务和上千个节点,如果没有任务调度工具,用户尝试执行的任务将无法与可用资源进行正确的匹配。


平台型解决方案


平台型解决方案采用经过清洗和预处理的数据,并测试几个不同的模型,以确定与任务最匹配、最精确的算法。虽然这个过程并不总是选中最佳模型,但对于缺乏数据科学知识的团队来说,它是一个很好的基础工具。它还能节省数据科学家的资源和时间,减少该过程所需的手工工作。这个领域的公司包括 DataRobot 和 Dataiku。



05.


结论


AI/ML 市场正在迅速增长,因为各个行业的组织都在寻找利用它们不断扩大的数据集的方法,来为整个企业提供更好的决策。因此,这些组织越来越希望投资于必要的资源——无论是顶级的 ML 人才还是软件工具——以实现创建和维护强大的内部 ML 系统及功能。


我们看到新技术供应商的数量正在爆炸性增长,它们以高效的方法,解决整个 AI/ML 生命周期的无数核心问题。比以往更清晰的是,有很多重要的公司有机会因此成长起来,为 AI/ML 团队提供一流的软件解决方案。人工智能变得更加模块化,并且出现了新的工具类别,我们十分期待人工智能未来的发展。




Reference

https://medium.com/sapphire-ventures-perspectives/the-future-of-ai-infrastructure-is-becoming-modular-why-best-of-breed-mlops-solutions-are-taking-fd85c6ca8bcf


     延伸阅读


DataRobot:数据科学民主化还有多远?


Grafana:SpaceX的数据监测利器,云原生领域的Tableau


Bessemer 2022云行业报告:SaaS嬗变,7大趋势预测解读


Fivetran:云计算时代的数据管道,估值56亿美金的行业创新者


HashiCorp:企业上云的桥梁,云计算领域的Shopify

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存