AI新基建:Scale AI如何成为数字世界的“水源”?
“软件正在吞噬世界”这句名言的出现已经过去十多年了。无论是在购物、娱乐、医疗保健还是教育领域,软件已经成为生活几乎各个方面的关键组成部分。然而现在,人工智能 (AI) 和机器学习 (ML) 开始蚕食软件。早期的例子包括特斯拉的 Autopilot、GitHub Copilot、TikTok 内容推荐和人工智能生成的艺术品。此外,生成式人工智能可以直接将软件工程生产力提高 20-45%,主要是通过减少某些任务所需的时间,例如生成初始代码草稿、代码修正和重构、根本原因分析以及生成新的系统设计。
构建人工智能和机器学习应用程序的一个长期存在的问题是缺乏构建模型所需的干净的数据。数据的匮乏延长了构建人工智能模型所需的时间,并导致应用程序的准确性下降。此外,如果没有强大的数据集来训练这些人工智能应用程序,这些应用程序的功能通常会下降,脆弱性也会增加。此外,缺乏数据通常会从根本上限制应用程序的构建。例如,在医学研究中,由于可用于诊断罕见疾病和病症的数据量有限,因此构建人工智能应用程序来识别此类病症通常很困难且不准确。
Scale AI 旨在解决这些问题。Scale AI 的愿景是成为人工智能和机器学习应用背后的基础设施。该公司从用于构建 AI/ML 模型的数据标签和注释开始。数据标记和数据注释涉及用于训练 ML 模型的标记数据集的相关信息或元数据。要训练和构建任何机器学习算法,模型需要基于正确标记的准确数据。Scale AI 的核心价值主张是围绕确保公司正确标记以允许他们构建有效的机器学习模型而构建的。通过构建全面的数据集来训练 AI/ML 应用程序,Scale AI 致力于帮助开发人员构建功能增强、漏洞有限的准确应用程序。(点击底部左下角阅读原文)
一、创立故事
Alexandr Wang(首席执行官)和 Lucy Guo(联合创始人)于 2016 年创立 Scale AI。
二、公司产品
了解为任何给定垂直行业构建机器学习模型的生命周期,对理解 Scale AI 的基本业务非常重要。整个路线图从数据及其来源开始,然后到数据工程,其中很多工作内容都与数据科学相关。
Source: Andy Scherpenberg
Scale AI 的核心业务就是围绕这样的数据工程组件构建的。具体来说,Scale AI 可以帮助公司对“真实数据”进行数据注释和标记。该真实数据是指以预期格式正确标记数据,例如将猫的图片标记为“猫”或帮助区分图像中的狗和猫。
Scale AI 通过提供各种产品解决方案(包括数据注释、数据管理、自动数据提取、模型评估和合成数据生成)来管理 ML 生命周期的每一步。
1、数据引擎
Scale AI的主要产品是其数据引擎。公司用来构建和训练机器学习算法。数据引擎收集、整理和标注数据来训练和评估模型。Lyft、丰田、Airbnb 和通用汽车等公司向 Scale AI 付费,以获得由人工承包商或机器学习算法标记的高质量注释数据。
2、数据注释和标签
Scale AI 可注释许多不同类型的数据,包括 3D 传感器融合、图像、视频、文本、音频和地图。虽然图像、视频、文本和音频产品可以推广到多个行业,但 3D 传感器融合和地图标签特定于自动驾驶、机器人以及增强现实和虚拟现实 (AR/VR) 行业。
Scale Rapid 是一个标签平台,供 ML 团队快速开发生产质量的训练数据。它允许用户在几个小时内上传数据、设置标签指令并获得初步标签的反馈和校准,以便快速将数据标签过程扩展到更大的容量。Scale AI 有一支庞大的标记数据所需的标注人员队伍。
Scale Studio 是一个管理公司注释项目和员工的平台。该产品提供了一个跟踪和可视化注释器指标的工具,还提供了 ML 辅助注释工具来加快注释速度。它可以跟踪吞吐量、效率和准确性等指标。
Scale Studio 和 Scale Rapid 之间的区别在于标记数据的方法。Scale Rapid 要求数据由 Scale AI 进行注释,而 Scale Studio 则要求公司客户自带注释人员。
3、管理和评估数据
2020年8月,Scale AI推出了“数据调试SaaS产品Nucleus。Nucleus 提供了用于理解、可视化、管理和协作公司数据的高级工具,使团队能够构建更好的机器学习模型。具体来说,Nucleus 允许进行数据探索、调试不良标签、比较不同版本的 ML 模型的准确性指标以及查找失败案例。
Source: Not Boring
4、生成式人工智能平台
Scale AI 还提供开发定制的 ML 模型和解决方案服务,包括其 Document AI 产品,可以从数字文档中提取信息。Brex 和 Flexport 等公司将其用于发票和物流文书工作。Scale AI 声称,与传统的光学字符识别 (OCR) 方法相比,Document AI 可以生成更高质量的数据,延迟更低,有助于节省时间和金钱。
Source: Not Boring
Scale Forge 是一款人工智能驱动的营销套件。该产品使营销人员和创意人员能够生成产品图像、社交媒体广告和生活方式图片。Scale AI 声称这些图像可以在几秒钟内生成。营销人员可以对不同的视觉产品进行实验和原型设计,生成产品图像,并利用高质量图像提高转化率。
Source: Scale AI
Scale E-Commerce AI 是一款供电子商务平台创建、丰富和增强电子商务目录数据的产品。Scale AI 声称该产品提高了参与度、可发现性和转化率。该产品使电子商务和零售团队能够从卖家源和公共互联网获取高质量的数据。电子商务套件使用注释来删除重复项、合并变体、修复不一致之处并纠正电子商务平台上的错误。
Scale Content Understanding 旨在通过丰富内容元数据、发现趋势洞察和标记敏感内容来改进商业智能和分析。具体来说,内容理解可以通过全面管理复杂的机器学习功能(例如重复数据删除、对象识别和欺诈检测)来减少开销。
Scale Synthetic 是一种帮助公司生成合成数据的产品,合成数据只是计算机算法生成的注释信息,作为现实世界数据的替代品。合成数据可以提高机器学习模型的性能,并且获取成本更低。截至2023年9月,Scale AI支持生成合成图像、视频和3D点云合成数据。然而,合成数据和真实数据之间的领域差距可能不会导致机器学习模型性能的提高;Scale AI 承认这一风险。此外,生成 3D 合成数据的计算成本和人力成本都很高,尽管这种成本可能会随着时间的推移而降低。
Scale Donovan 是提供给联邦政府的人工智能套件。可以从云、混合和本地源获取数据,组织数据以使其可交互,并使操作员和分析师能够向传感器源和地图/模型数据提出问题。此外,还制定了行动方案、总结报告和其他可行的见解,以帮助操作员实现任务目标。
Source: Scale AI
Scale Spellbook 是 2022 年 11 月发布,旨在帮助开发人员构建、比较和部署大型语言模型应用程序的产品。其功能包括扩展 CPU 和 GPU 计算、管理模型部署和 A/B 测试,以及监控正常运行时间、延迟和性能等实时指标。Spellbook 还包括通过回归测试和模型比较对 ML 模型进行结构化测试。
三、市场格局
1、公司客户
Scale AI 大部分收入来自几家头部客户。这些公司包括通用汽车旗下的 Cruise、Zoox、Nuro 等大型组织,以及其他需要大量带标签的摄像头数据的自动驾驶公司。Scale AI的客户不仅包括自动驾驶公司,还包括机器人公司,包括Kodiak Trucks、Embark、Skydio和丰田研究院。
凭借 Document AI 产品,Scale AI 将其客户群扩展到 Flexport、Brex 和 SAP 等公司。Scale AI 还拥有在其产品中使用计算机视觉的初创客户,包括用于管理葡萄酒收藏的 CellarEye、用于优化原木库存和管理的 TimberEye 以及用于加快房地产交易速度的 States Title。
Scale AI 的营销和电子商务套件使 Scale AI 能够访问营销人员和零售平台。截至 2023 年 9 月,Scale Forge 仍是通过候补名单逐步推出的新产品,目前,Instacart、Faire、Pinterest 和 Square 等公司都在使用 Scale AI 的电子商务套件。
随着 Scale Donovan 的推出,Scale AI 的业务范围扩大到为联邦政府和国防承包商提供服务。主要客户包括美国陆军、美国空军和国防创新部门。
Source: Scale AI
2、市场规模
人工智能的兴起可归因于几个关键因素,包括人工智能芯片计算能力的增强、训练数据量的增加、技术瓶颈的改善(例如transformer的出现)以及云存储和计算成本的降低。Scale AI 凭借其数据标签和注释产品,主要瞄准数据收集和标注市场,预计到 2030 年该市场将达到 171 亿美元,预计 2023 年至 2030 年复合年增长率为 28.9%。
Scale AI 的模型定制和数据调试产品线已不断扩大,以满足全球人工智能市场的需求。2022年全球人工智能市场价值1366亿美元,预计到2030年将以37.3%的复合年增长率增长。
3、行业竞品
在数据收集和标签市场中,Scale AI面临着Amazon Mechanical Turk、Labelbox、Appen和Hive等厂商的竞争。这些竞争对手还利用别的公司难以匹敌的海量的人力来标记数据。数据标签行业相当市场化,因为除了运营效率之外几乎没有什么独特的竞争优势。
从长远来看,Scale AI 的竞争优势来自于改进其内部的 ML 标记算法,使整个人工标记更加自动化、成本更低,从而获得规模经济。
凭借 Scale Nucleus、Document AI 和 Launch 等新产品,Scale AI 的业务范围已从一家数据收集和标签公司扩展为一家 ML 基础设施公司。他们在这一类别中面对的传统玩家的商品化程度要低得多。该领域主要有以下两类公司:
ML SaaS独角兽:像Databricks这样的公司,是在关键的差异化优势之上构建ML产品。对于Databricks,其优势在于其数据湖仓库,存储AI工作流和模型训练系统所消耗的数据。同类公司包括C3、H2O和Dataiku。
云巨头:AWS 等公司拥有 ML 生态系统作为其产品线的一部分,包括从 Mechanical Turk 用来标注数据、S3 和 Redshift 用来存储数据,以及 Sagemaker 来根据这些数据训练 ML 模型。微软和谷歌正在 Azure 和 GCP 上构建类似的平台。
其中,Scale AI 属于第一类,它试图在数据标签的基础上构建机器学习工具。然而,由于Scale AI不提供自己的存储,它需要像AWS的S3一样读写存储,这使得Scale AI后续的ML产品的成本高于AWS。Scale AI 在未来可能面临像AWS这样的云巨头的竞争。
数据收集和标注市场
Labelbox
成立于2018年,是一个机器学习应用的训练数据平台。该公司已从 Andreessen Horowitz 和 Snowpoint Ventures 等投资者处筹集了总计 1.88 亿美元的资金。2022 年 1 月,Labelbox 筹集了由软银领投的 1.1 亿美元 D 轮融资,估值未公开。与 Scale AI 一样,Labelbox 提供了一个用于 AI 模型训练数据的平台,但不同之处在于它更专注于机器学习应用程序。Scale AI 于 2022 年 10 月推出机器学习开发工具 Spellbook 。Scale AI 的企业计划包括访问其开发工具中的新功能,这意味着公司打算提供更强大的 Spellbook 版本。
Hive(详见AI周报014期)
成立于2013年,Hive为理解内容提供基于云的AI解决方案,与Scale AI相似。截止到2023年6月,Hive已从包括General Catalyst和8VC的投资者那里筹集了总计1.2亿美元,最后一次是在2021年4月以20亿美元的估值筹集了8500万美元的D轮融资。虽然Scale AI主要针对政府和大型企业云服务为其客户基础,但Hive则推广为市场、约会应用以及其他面向B2C和点对点的公司预建的模型。因此,Hive更专注于实时标记用户生成的内容以进行审核。Scale AI对政府和企业的关注使其产品对于开发复杂云服务的公司更有用。
Appen
成立于2011年,Appen收集并标记内容以建立和改进AI模型。2017年1月,Appen在澳大利亚证券交易所上市。到2023年9月,Appen的市值约为2.213亿美元。与Scale AI一样,Appen专注于企业AI解决方案,包括从文档中提取信息、为自动驾驶车辆进行物体检测以及其他各种数据类型。Appen强调与AWS、Nvidia和Salesforce的合作伙伴关系。Scale AI和Appen都能够获得企业和长期合同,这也可能意味着产品差异性的缺乏和有限的竞争壁垒。
机器学习 SaaS 市场
Databricks(详见AI周报#019)
成立于 2013 年,帮助公司构建 ML 产品,并拥有其 AI 工作流程和模型训练系统使用的自定义数据存储解决方案。2023年9月,Databricks获得5亿美元轮融资,估值430亿美元,融资总额达40亿美元。与 Scale AI 相比,Databricks 的独特卖点是其数据湖库基础设施,这是其所有 ML 产品的基础,而 Scale AI 则拥有一系列聚焦在 ML领域的产品,包括 Scale Nucleus、Document AI 和 Launch 等。
Humanloop
成立于 2020 年,通过提示和响应评级,帮助企业以简化的方式微调 LLM 模型。2022 年 7 月,该公司筹集了由 Index Ventures 领投的 260 万美元种子轮融资,截至 2023 年 9 月,其总资金达到 270 万美元。与 Scale AI 不同,Scale AI 专注于通过工程师优先的 API 和平台提供广泛的数据标记服务Humanloop 专注于自然语言处理 (NLP) 模型,采用无代码第一、API 第二的训练解决方案,其更关注比较窄的 AI 领域且面向初学者。Scale AI 的平台更加强大,可为视频和文档提供数据标签,帮助公司解决生成文本以外的问题。
AWS 机器学习套件
AWS ML Suite 是 Amazon Web Services 提供的一套机器学习工具。它与 Scale AI 竞争,提供超过 27 种机器学习服务,但它是亚马逊云服务套件的一部分。亚马逊于 2015 年推出了 ML 计划。亚马逊于 1997 年 5 月上市,截至 2023 年 9 月,亚马逊的市值约为 1.5 万亿美元。然而, Scale AI 与亚马逊也有合作伙伴关系,Scale AI 可以与 AWS 一起使用,甚至可以与其集成。
四、商业模式
Scale AI 并未公开披露其定价模型。它有两个定价策略:一层针对企业客户,一层针对个人。
1、Enterprise 企业
Scale AI 提供企业定制定价的数据标注服务。
Source: Scale AI
2、自助数据引擎
对于Scale AI的自助数据引擎,客户可以在同一平台上管理和注释机器学习项目的数据,但需要使用自己的劳动力。
Source: Scale AI
Scale AI采用信用卡按需支付的方式为这一产品定价。前1000个标注单位是免费的,超过1000个的标价则未透露。公司会支付Scale AI来为数据打标签,费用根据数据量和数据类型(如图像、视频、文本、3D LiDAR等)而异。Scale AI利用超过10万的承包商资源来为数据打标签。该公司还开发了内部算法来确保数据的质量。此外,Scale AI还采用其机器学习算法来自动化标注过程。
由于 Scale 的大部分客户都为 enterprise 客户,因此实际上大部分收入均为项目制收入,客单价几十万美金至几千万美金不等。Scale 2022 年收入为 2.9 亿美元,毛利约为 70%。
五、公司亮点
Scale AI 已经不仅仅局限于自动驾驶汽车标签市场,还获得了大型政府合同来标记地理空间数据。此外,Scale AI 还成功与 Brex 和 OpenAI 等公司签订了自然语言处理方面的企业合同。近年来,该公司加大了产品的发布力度,将之前完全基于注释的产品线发展成为包括模型训练、收集和调试的产品线。
Source: Not Boring
六、公司估值
2021 年 4 月,Scale AI 获得 3.25 亿美元 E 轮融资,估值 73 亿美元,由 Dragoneer、Greenoaks Capital 和 Tiger Global 共同领投。最新一轮融资使该公司的总资金达到约 6.026 亿美元。
七、投资机会
1、行业拓展
Scale AI专注于为特定行业如自动驾驶提供数据标签和注释服务。吸引新客户并进入新行业是一大商机。到2018年,Scale AI已为通用汽车、Cruise、Lyft、Zoox、nuTonomy等自动驾驶公司做了大量的数据标注。
到2023年,它的客户群已扩展到包括国防部这样的政府机构、Airbnb这样的在线市场、Brex这样的金融科技公司以及人工智能开发者OpenAI。尽管这些客户的数据标注需求各不相同,但Scale AI已证明能够赢得他们的合同并提供高质量的服务。在2023年,Scale AI也透露了对进军增强现实和虚拟现实(AR/VR)领域的兴趣。
Source: Scale AI
2、产品扩展
Scale AI可以扩展其在机器学习生命周期中的产品。Scale AI已经推出了Nucleus产品,帮助公司评估和调试数据。此外,Scale AI还开发了Synthetic,用于生成用于训练机器学习模型的合成数据。尽管合成数据与真实世界的数据存在一些差距,但结合使用合成数据和真实世界的数据来训练机器学习模型可能会提高模型性能,同时降低数据获取成本。借助人工智能生成艺术的最新进展,Scale AI可以扩展合成数据的功能。
到2023年9月为止,Scale AI正在开发并推出Forge,供市场营销团队生成图像。将来,Scale AI可以继续寻找其他行业用例的新型创新人工智能应用。
八、主要风险
1、监管风险
Scale AI面临的一个主要风险是欧盟的立法,例如《通用数据保护条例》(GDPR)和《人工智能法案》(AI Act),要求在其公民上收集的数据存储在欧盟,并限制某些类型的人工智能应用。这意味着Scale AI可能无法在其他地理区域使用在欧盟收集的数据,需要构建额外的服务以确保合规。此外,这可能导致在Scale AI的客户运营的欧盟地区有较少的人工智能应用。
2、竞争风险
Scale AI 正在扩展到数据标注之外的 ML 领域的其他部分,包括通过像 Nucleus 这样的产品进行 ML 模型的调试和评估。但在 ML 基础设施的每个领域中,都有许多竞争者,包括 Databricks、Labelbox Model 和 Snorkel Flow。Scale AI 的核心竞争优势是其大规模的人工参与,使得数据标注成本降低。但是激烈的竞争,也可能是公司在2023年初丢失三星、Nvidia 和 AirBnB 等大客户的原因。当 Scale AI 想要扩展到 ML 基础设施的其他领域时,由于面临剧烈的竞争,它可能不具备同样的产品优势。
九、总结
Scale AI 已成为自动驾驶和机器人行业数据标记的领先解决方案。该公司正在迅速扩展到新兴的机器学习类别以及电子商务、营销和政府合同等新的垂直领域。它在相对较短的时间内成功地获得了关注。
尽管取得了巨大进展,但其大部分业务仍然基于数据标签领域相对无差异化的产品。ML 基础设施领域的竞争非常激烈,这使得 Scale AI 成为 AWS、GCP 和 Microsoft 的攻击目标,这些公司受益于拥有自己的数据中心和存储基础设施所带来的规模经济。Scale AI 未来的成功将取决于其在机器学习领域的创新和执行力。
在读的您,如果对AI和科技感兴趣,欢迎联系凯瑞(pkcapital2023),与一群志同道合的创始人和投资人一起探讨。
更多阅读:
AI+国防:Vannevar Labs 万尼瓦尔实验室,军事人工智能掘金者