查看原文
其他

Hugging Face:通往 AI/ML 淘金潮的高速公路

拾象研究 海外独角兽 2022-11-13



作者:Kefei

编辑:penny

排版:Bonnie

最近一段时间,我们对 AI/ML 行业进行扫描和研究,在用户访谈过程中,Hugging Face 引起了我们的注意。Hugging Face 常常被用户主动提及,且用户对它的评价非常高,甚至有不少用户认为 Hugging Face是完美的。我们认为好的用户反馈是最真实的价值体现,因此决定对 Hugging Face 进行深入研究。


Hugging Face 是一个 AI/ML 社区和平台,早期靠 Transformers 模型库和高质量社区受到关注。用户可以在 Hugging Face 上托管和共享 ML 模型、数据集,也可以构建、训练和部署模型。截至目前,Hugging Face 上共有 7.7 万个预训练模型,以 NLP 模型为主,目前 NLP 模型占比为 50%,2022 年初为 70%,这一比例未来会继续下降。Hugging Face 现在是 NLP 领域的 GitHub,未来希望成为整个 ML 领域的 GitHub,并逐渐向 ML Workflow 的其他环节渗透。


截至目前,Hugging Face 在 GitHub 上拥有超过 1,440 名贡献者,35,200 名用户,71,800 颗 stars 和 16,400 次 forks,平均每天有超过 5 万人从 Hugging Face 上下载模型。Hugging Face 是史上增长最快的开源项目,也是 AI/ML 领域最负盛名的社区之一。


2022 年 5 月,Hugging Face 完成 1 亿美元的 C 轮融资,估值达到 20 亿美元,C 轮由 Lux Capital 领投,其他投资方包括 Sequoia US、Coatue 等。Hugging Face 目前拥有 1,000 多名客户,包括英特尔、高通、辉瑞和彭博社等。据透露,Hugging Face 2021 年收入约 1,000 万美元,并在 2022 年年中接近盈亏平衡。


AI/ML 是未来 10 年最重要的市场之一,Hugging Face 当前核心业务位于 ML Workflow 的上游,是用户进入 AI/ML 的入口。与此同时,Hugging Face 不断向下游探索商业化路径,包括私人模型及数据集托管、模型推理与部署、AutoTrain 等。假若下游布局顺利,商业化取得成功,Hugging Face 将有可能渗透至 ML Workflow 的各个环节,成为 AI/ML 的中心。


Hugging Face 联合创始人兼 CEO Clément 认为:“机器学习未来会成为技术开发的默认方式,而 Hugging Face 会成为机器学习的头号玩家。” Lux Capital 合伙人 Brandon Reeves 也表示:“如果这一愿景得以实现,结果可能是公司上市后获得 500 亿、甚至 1,000 亿美元的市值。”



🦄️ 活动预告

【Hugging Face 主题闭门讨论会】


围绕 Hugging Face ,海外独角兽将在近期组织一场关于 AI/ML 的小型线上闭门讨论,邀请对 AI/ML 有着自己研究洞见的朋友一起探索这一未来十年最重要的行业。如果您对我们的活动感兴趣,欢迎填写问卷!我们会对问卷结果进行筛选后和您联系。


· 讨论主题:Hugging Face 的商业化与未来

· 活动形式:线上闭门讨论( 20 人以内)

· 活动时间:具体时间报名成功后通知

· 报名方式:




以下为本文目录,建议结合要点进行针对性阅读。


👇


01 Thesis

02 什么是 Hugging Face?

03 商业模式

04 市场与竞争

05 成功要素与风险

06 结论

07 附录:访谈纪要



01.


Thesis


Hugging Face 是以 NLP 模型起家的 AI/ML 社区及平台,在 AI/ML 这一未来 10 年最重要的行业中占据重要位置。


随着数据存储、处理、分析、可视化的成熟,数据在过去 10 年体现了巨大的价值,但数据的价值远不止于此。数据行业的挑战不在于数据处理或分析,而在于 last mile,即如何动态地把数据和人类层面的实际问题联系起来,高效、实时地改善和解决问题。AI/ML 正是 last mile 的核心。


NLP 是 AI 大版图中至关重要的一部分语言是人类的 API,人们通过语言进行交流,语言包含了大量的信息。在软件吞噬一切的时代,每个人都不可避免要与机器交互,此前,人们只能通过代码、结构化数据等方式与机器进行交互, NLP 让人类有机会以自然语言的形式完成人机交互。随着基于 Transformer 的一系列模型的出现,NLP 迎来转折点,行业正迎来质变。



02.


什么是 Hugging Face?


发展历程


Hugging Face 是一个 AI/ML 社区和平台,早期靠 Transformers 模型库和高质量社区受到关注。用户可以在 Hugging Face 上托管和共享 ML 模型和数据集,也可以构建、训练和部署模型。截至目前,Hugging Face 上共有 7.7 万个预训练模型,以 NLP 模型为主,目前 NLP 模型占比为 50%,2022 年初为 70%,这一比例未来会继续下降。Hugging Face 现在是 NLP 领域的 GitHub,未来希望成为整个 ML 领域的 GitHub,并逐渐向 ML Workflow 的其他环节渗透。



公司成立之初的业务形态并非如此。2016 年,Hugging Face 作为一家 AI 应用公司诞生,当时的产品形态是聊天机器人 APP,Hugging Face 为用户生成机器人朋友,用户和机器人可以互相发送信息或交换自拍。该应用在峰值时期达到 10 万 DAU 且拥有较为可观的留存率。



为了训练机器人的 NLP 能力,团队构建了一个底层的模型库来存储各种 NLP 和机器学习模型,同时将部分模型开源,在 GitHub 上发布。


2018 年,Google 开源了 BERT 模型的 TensorFlow,Hugging Face 团队随即发布了更加友好和便捷的 PyTorch 版 BERT,并取名为 Pytorch-Pretrained-BERT。他们用当时更普及的 PyTorch 框架复现了 BERT 的性能,并提供预训练模型的下载,使没有足够算力的开发者也能够在几分钟内实现 state-of-art-fine-tuning。


2019 年 7 月,Pytorch-Pretrained-BERT 在 Repo 上已经拥有包括 BERT、GPT、GPT-2、Transformer-XL、XLNET、XLM 在内的 6 个预训练语言模型,名字也改成 PyTorch-Transformers。2019 年,PyTorch-Transformers 再次更名为 Transformers,Hugging Face 业务也从聊天机器人完全转变至 NLP 社区和模型库。


Transformers 模型库提供了数千个预训练模型,几乎涵盖了所有重要模型(不包含 GPT-3)。使用者可基于 Transformers 库的模型进行调整,用于执行自己的任务。


💡

注:

Transformers 指基于 Transformer 开发的不同模型的总称,BERT、GPT 等模型均是基于 Transformer 开发。

Transformers 模型库是将这些基于 Transformer 开发的预训练模型汇聚在一起的模型库。


Transformers 模型库吸引了大量的数据科学家和开发者,包含了从初创企业到 Google、Microsoft、Facebook 等大型科技企业的员工。他们在 Hugging Face 上发布、分享自己的模型,同时也参考和使用其他社区成员发布的模型。



实际上,现在 Hugging Face 上 99% 的模型都由社区贡献,Hugging Face 在其中更多扮演策划和运营的角色。


Transformers 模型可应用于:

  • 文本:文本分类、信息提取、Q&A、摘要、翻译、文本生成等,支持 100 多种语言;

  • 图像:图像分类、图像检测、图像分割等;

  • 音频:语音识别、音频分类等。


由于模型变化迅速,且复杂程度越来越高,管理和部署模型的成本越来越高,压力也越来越大。Hugging Face 通过提供预训练模型,为开发者和数据科学家节省数天到数周的时间,以及几十万至几千万美元的计算资源。


在当前,平均每天都有超过 5 万人从 Hugging Face 上下载模型,仅几年时间,Hugging Face 在 GitHub 上拥有超过 1,440 名贡献者,35,200 名用户,71,800 颗 Stars 和 16,400 次 Forks。Transformers 成为 NLP/ML 领域最有名的模型库,也是史上增长最快的开源项目,而 Hugging Face 也成为该领域最负盛名的社区。



团队


Hugging Face 有三位联合创始人,分别是 Clément Delangue(CEO),Julien Chaumond(CTO) 以及 Thomas Wolf(CSO),他们均来自法国。目前 CEO Clément base 纽约,其他两位创始人 base 巴黎,公司员工也主要分布在美国和法国两个地区。


从左到右分别为 Julien Chaumond(CTO)、Thomas Wolf(CSO)、Clément Delangue(CEO)


Clément 毕业于欧洲高等商学院 ESCP。在公司成立初期,Clément 是 Hugging Face 唯一一位商科背景的成员,其余全部为工程师,不过 Clément 通过 Stanford 的一个 Computer Science 项目也掌握了计算机知识和编程能力。Clément 此前主要从事产品和市场营销工作,有独立创业经历。Clément 在大学时期曾作为 CEO 创办一家笔记协作公司 VideoNot,之后作为产品和市场负责人,前后加入两家软件创业公司,Moodstocks 和 Mention,这两家公司已分别被 Google 和 Mynewsdesk 收购。


Julien 和 Thomas 是技术背景。Julien 2013-2015 年间曾作为 CTO 在纽约创立了一个名叫 Glose 的阅读平台,之后回到巴黎在 Stupeflix 担任工程师,Stupeflix 是一个视频创作平台,2016 年被 GoPro 收购。Thomas 则是在 2011 年完成量子力学 PhD 学业后,在法国巴黎第一大学学习了 1 年法律知识,并加入一家拥有 100 多年历史的法律服务公司 Plasseraud IP,为 Deep-Learning 和 ML 公司提供法律、战略、技术咨询服务,是一个复合型人才。


Hugging Face 目前拥有 100 多名员工,技术人才比例依然很高,但与早期相比,Hugging Face 当前团队构成已相对多元,产品、市场、销售、专家咨询团队都已经招聘到核心人员。



03.


商业模式


Hugging Face 自 2021 年起开始商业化探索,目前正在进行以下几种尝试:


· AutoTrain


AutoTrain 即 AutoNLP,AutoTrain 提供端到端的自动化 NLP 模型解决方案,该方案门槛较低,用户只需创建任务,并上传数据,AutoTrain 就能自动创建、调整、评估模型,找到最佳模型,并将模型部署到实际应用中。


AutoTrain 与其他 AutoNLP 或 AutoML 平台提供的服务相似,如 DataRobot、H2O.ai 等。AutoTrain 根据时间和计算资源计费,采用 pay-as-you-go 的收费模式。根据用户反馈,与市场上同类产品相比,Hugging Face 的 AutoTrain 价格更低,效果更好。


· Inference API & Infinity


Hugging Face 在 Inference(推理)方面先后推出两款付费产品,Inference API 和 Infinity。Hugging Face 首先发布了 Inference API,Inference API 需要用户将数据和模型部署在 Hugging Face 的服务器上,好处是内部没有自建 infra 的团队或没有数据科学家的团队也可以使用 ML 解决方案,因此 Inference API 的目标用户通常为 SMB 企业。


但对于大型企业尤其是金融、能源、医疗等企业而言,出于安全与合规考虑,他们无法将数据和模型部署在第三方服务器上,Inference API 无法满足他们的需求。因此,Hugging Face 推出了一款针对大型企业客户的 inference 产品,名字叫 Infinity。Infinity 允许客户将数据和模型部署在自己的 on-prem 服务器上,目前已经有一些客户将 Infinity 用于实际应用中,JP Morgan 等大型金融企业为该产品的主要潜在客户。


Hugging Face 的 Inference 产品采用传统的租用 CPU/GPU 的 pay-as-you-go 的收费模式,根据用户反馈,目前市面上的 Inference 解决方案价格普遍偏高,Hugging Face 也不例外,Hugging Face 的 Inference 产品价格仍有优化空间。


· Private Hub


就像 GitHub 靠私人代码托管实现商业化,Hugging Face 的 Private Hub 通过替用户托管模型、数据集、Pipeline 收取一定的费用。Private Hub 对用户权限有严格的限制,确保 Hub 数据安全。Private Hub 采用定制化的收费方式。


· Expert Support


Hugging Face 内部组建了一支世界级的机器学习专家团队,对外为客户解决 ML 部署和实施问题,提供相应的解决方案。专家咨询服务采用 seat-based + 个性化的混合定价模式,具体价格视企业规模和项目规模及难度而定。



以上四种商业模式中,我们认为 AutoTrain 和 Inference API & Infinity 是 Hugging Face 未来收入和利润的 key driver。因为 AutoTrain 和 Inference 的使用频次较高,ARPU 值较大。除此之外,该模式下收入的体量与用于训练模型和推理的数据量密切相关,未来随着越来越多的数据进入 AI/ML 的 Workflow,AutoTrain 和 Inference 有可能迎来爆发式的增长,且空间巨大。


相比较而言,Private Hub 和 Expert Support 天花板较低,但 Private Hub 在行业中具有独特的战略意义,而 Expert Support 将有机会为其他三种产品和模式转化更多的客户。


截至 2022 年 6 月,公司拥有 1,000 多名客户,包括英特尔,高通,辉瑞,彭博社等。据透露,Hugging Face 2021 年收入约 1,000 万美元,并在 2022 年年中接近盈亏平衡。


2022 年 5 月,Hugging Face 完成 1 亿美元的 C 轮融资,估值达到 20 亿美元。C 轮由 Lux Capital 领投,其他投资方还包括 Sequoia US、Coatue 等。而此前在 B 轮筹集的 4,000 万美元现在还在银行里等待调用,业务和现金流十分健康。



04.


市场与竞争


市场


Hugging Face 目前主要位于 NLP 市场,未来逐渐向整个 ML 领域过渡。根据 Straits Research 测算,2021 年全球 NLP 市场规模为 135 亿美元,预计到 2030 年扩大至 910 亿美元,CAGR 为 27%。与此同时,ML 市场预计在 2030 年达到 2,099 亿美元。


从 Hugging Face 的商业模式也可以看出,Hugging Face 指向的市场相当于 AutoML + Private Hub + Large Language Model,未来还可能渗透到 MLOps 领域。若能成功,Hugging Face 将会成为 AI/ML 行业的一个庞然大物,就算不能全部实现,每条路径单拆来看也是一个巨大的市场。


竞争


Hugging Face 的竞争对手主要包括以下几类公司:


· OpenAI


OpenAI 和 Hugging Face 是最常被用来比较的两家公司。Hugging Face 与 OpenAI 的区别主要体现在:Hugging Face 是开源的,有数千种预训练模型;OpenAI 是闭源的,并且只有少数几个模型。OpenAI 针对 GPT-3、DALL·E 2.0 等模型进行开发,用户仅能针对给定模型进行消费和应用,不可对模型进行分叉或修改。


由于 OpenAI 专注于少数几个模型,因此它所训练的模型更大,模型大意味着结果更准确。但大模型的问题在于成本过高,例如,微软和英伟达最新发布的、迄今为止最大的(5,300 亿个参数)自然语言模型 MT-NLG,训练一个这样的模型需要数百台 GPU 服务器,每台服务器成本将近 20 万美元,再加上网络设备和托管成本等费用,任何想要复制这一实验的人都必须花费数千万、甚至上亿美元。GPT-3 训练一个模型也需要 400-1,000 万美金,能负担此费用的用户寥寥无几。而 Hugging Face 则通过开源预训练模型的方式,让所有人都能使用 ML 模型,降低了使用门槛,极大程度推动了 AI/ML 的民主化。


此外,Hugging Face 也在 2022 年 7 月发布了开源的预训练大语言模型 BLOOM,BLOOM 架构与 Open-AI 的 GPT-3 相似。BLOOM 的发布使 Hugging Face 与 OpenAI 的竞争变得更加直接、更加激烈。不过有了数万个预训练模型与 BLOOM 大模型的组合,Hugging Face 既可以满足长尾客户的需求,也可以满足资金充裕、追求高精确度的大型企业客户的需求。


· AutoML 公司


AutoTrain 是 Hugging Face 当前的主要收入来源,因此 AutoML 公司也是 Hugging Face 的重要竞争对手,如 DataRobot、H2O.ai 等。


但 Hugging Face 与 DataRobot 相比,仍处在非常早期的阶段,目前 Hugging Face 的 ARPU 值约为 1 万美元,DataRobot 的 ARPU 值为 5-10 万美元,但这也表明 Hugging Face 在 ARPU 值方面仍有较大提升空间。


· 云厂商


三大云厂商将成为 Hugging Face 的终极竞争对手。AWS 的 ML 平台 SageMaker 有 full stack;Google 的 ML 技术和研究走在行业领先;Azure 也在加速 ML 平台的建设,并且于 2019 年向 OpenAI 投资 10 亿美元,又于 2020 年 9 月获得 OpenAI 开发的 GPT-3 的独家授权,成为 OpenAI 的唯一云供应商。


事实上,Hugging Face 也和 SageMaker 建立了战略合作关系。对于 Hugging Face 而言,与 SageMaker 合作能够带来更多的用户和用例。因为用户数据大多在 AWS 上,Hugging Face 与 SageMaker 合作后,用户可以把数据放在 AWS 的同时在 Hugging Face 完成模型的训练,而不必担心外部 API 调用带来的数据安全隐患。对于 SageMaker 而言,Hugging Face 有行业内最先进的模型,且源源不断在更新,这是 SageMaker 短时间内无法超越的,并且 Hugging Face 聚集了大量的、顶尖的 ML 用户,与 Hugging Face 合作也能为 AWS 带来更多的 workflow。因此这也算是一次双赢的合作,但长期来看,两者依然存在极强的竞争关系。


不过,与云厂商及 OpenAI 相比,Hugging Face 的一大优势在于”多云“,这也是 Snowflake 当年与云厂商竞争的其中一个优势。客户为了不受单一云厂商的限制,为了自身业务安全与稳定,通常会将业务部署到不同的公有云厂商的服务器上,多云是未来一大趋势。



05.


成功要素与风险


成功要素


· 优越的市场和位置


Hugging Face 所在的 AI/ML 市场是未来 10 年最重要的市场之一。典型的 ML Workflow 主要包括以下几个环节:



用户在进行 ML 工作时,首先去寻找适用于目标应用场景的模型,看看是否有可以“开箱即用”的预训练模型,或微调后可以使用。即使是不使用预训练模型的用户,也会去看看行业内最新模型进展,看看别人训练出来的模型有什么值得参考和借鉴的地方。


以前大家都是去 Google 搜索,或在论文中寻找自己想要的模型,现在是直接去 Hugging Face。Hugging Face 有很多模型,微调一下就能满足某个特定需求。此外,Hugging Face 汇集了最优秀的 ML 人才和最先进的模型, 大部分从事 ML 工作的数据科学家和工程师都很难忽视或绕开 Hugging Face。


因此,Hugging Face 实际上位于整个 ML Workflow 的上游,是用户进入 AI/ML 的入口,很多用户将其视为必经之路。Hugging Face 借着优越的战略位置,扼守入口,并向下游进行商业化探索。


此外,未来大模型或通用人工智能一旦成熟,基于大模型之上会长出很多适用于不同行业、不同场景的模型和产品,这些模型未来有可能分别掌握在不同的创业公司手中,但也有一种可能,它们会被聚集到 Hugging Face,因为目前没有比 Hugging Face 更适合存放及分享模型的地方。


除了市场位置优越,Hugging Face 在 AI/ML 生态中的位置也很独特。Lux Capital 合伙人 Brandon Reeves 曾说过:“那些乍一看以为是 Hugging Face 竞争对手的公司,无论是 Google、亚马逊还是 Facebook,它们都是 Hugging Face 的支持者。在这个生态系统里,Hugging Face 就像是个中立国。”


· 社区用户快速增长,用户忠诚度高


作为史上增长最快的开源项目,Hugging Face 现已拥有 35,200 名用户,并且用户忠诚度与活跃度高。Hugging Face 在 GitHub 上拥有超过 1,440 名贡献者,71,800 颗 stars 和 16,400 次 forks。平均每天都有超过 5 万人从 Hugging Face 上下载模型。


Hugging Face 目前已触达大量用户,其中有许多用户来自大型企业,就好比 Hugging Face 的手已经伸进了不少 Enterprise 客户的钱袋子,下一步则是考虑如何把钱取出来。事实上,Hugging Face 已经从不少高质量客户的钱袋子中取出钱,例如英特尔、辉瑞、彭博社等,它们所对应的科技、医药、金融行业客户是付费能力和付费意愿最强的。To B 公司要想做大,都必须做 Enterprise 客户,而不能局限在 SMB,Hugging Face 早期就能拿下如此高质量的 Enterprise 客户,未来天花板不会太低。


· 极具天赋和野心的创始人


Hugging Face 的联合创始人兼 CEO Clément 在商业方面有着过人的天赋和实力。 Clément 出生在法国北部的一个小镇,青年时期就开始经营自己的生意,17 岁就已经成为 eBay 上最顶尖的法国商人之一。 


Clément 的才能使他在大学期间收到了 eBay、Google 等公司的工作邀约,但他没有选择加入大公司,而是选择创业。Clément 在大学期间曾作为联合创始人兼 CEO 创办一家笔记协同公司 VideoNot,毕业后又作为产品和市场负责人,前后加入两家软件创业公司,Moodstocks 和 Mention,这两家公司分别被 Google 和 Mynewsdesk 收购。


Clément 对于如何做好 Hugging Face 有着非常清晰的思路,也大胆尝试。Clément 的目标是至少做到 10 亿美元的收入。并且 Clément 有十分强烈的上市意愿和决心,他曾表示:“我已经拒绝了多个诱人的收购邀约,不会像 GitHub 那样把自己卖给微软。” 他希望 Hugging Face 未来能以其标志性的 slogan 笑脸 emoji 作为股票代码,而不是几个枯燥的英文字母。


因为惊人的天赋和才能,Clément 从大学时期到现在口碑一直很好,很多人把他视为学习和崇拜的对象,这也为 Hugging Face 吸引了不少人才。根据一位 AWS 数据科学家观察,他身边不少优秀且有想法的同事已纷纷加入 Hugging Face。


风险


· 商业化未被论证


尽管 Hugging Face 已经在努力探索有价值的商业化路径,并取得一定成效,但商业化能否成功仍是我们对 Hugging Face 最大的 concern:


  1. 从数据看,Hugging Face 的商业化仍处在非常早期,尽管数据增长较快,但在该体量下我们无法判断上述商业化路径是否已经跑通或能够跑通。


  2. Hugging Face 目前的主要使用人群仍是研究员,包括企业内部研究部门的员工、高校或科研院所的教授和学生等等,说明 Hugging Face 并未被大规模地用于实际生产环境中。此外,研究员技术实力强劲,为商业化产品付费的意愿不强。


  3. 根据用户访谈我们发现,Hugging Face 的定价模型存在一定的不合理性,目前最核心也是最有价值的 AutoTrain 和 Inference 中,使用频次不高的 AutoTrain 定价过低,而使用频次较高的 Inference 定价过高,这会给用户在心理上产生“Hugging Face 太贵”的感受,对用户使用率及持续付费产生了较大影响,对商业化起反作用。


尽管如此,我们对 Hugging Face 的商业化仍持乐观态度:


  1. Hugging Face 社区汇集了最顶尖的 ML 人才,用户来自众多大型科技公司、金融机构、医疗机构等,拥有一大批高质量且忠诚的用户,未来 ML 一旦被大规模应用到实际生产中,Hugging Face 将有可能成为 ML 领域的中心。


  2. 倘若 Hugging Face 未来成为 ML 的中心,商业化未必是眼下最着急的事,现阶段最重要的是扩大 TAM,触达更多的人、团队、企业。Hugging Face 的社区和商业化产品覆盖了 ML 的大部分环节,倘若 TAM 扩得足够大,未来会有越来越多的 ML workflow 进入到 Hugging Face 中,由于 ML workflow 较复杂,未来将有很多可以收费的环节。现在触达更多的用户,未来可转化的用户基数也更大。并且就目前来看,Hugging Face 用户多来自大型企业,未来打入 Enterprise 市场的可能性很大。


  3. Hugging Face 创始团队与其他开源产品、开源社区的创始人不同,他们非常积极探索商业化,不断尝试与调整,寻找最佳商业化路径。他们最近一年也在积极招聘市场营销和销售人才,提高商业化能力。


· 赛道竞争激烈


Hugging Face 在社区和模型库方面虽然保持着相对领先的位置,但 AutoTrain、Inference 以及 Hugging Face 未来想进入的 MLOps 领域都有表现出色的玩家,赛道已经非常拥挤。


并且,由于包括三大云厂商在内的大型科技企业以及数据行业主要玩家都把 ML 视为下一个战略高地,Hugging Face 将会面临极大的竞争压力。不过对于战略位置独特的创业公司而言,在大型科技公司的主战场竞争,既是风险,也是保险,保险是指大型科技公司的收购意向。



06.


结论


Downside:被收购


据消息称,2021 年 1 月,在 Hugging Face B 轮融资之前,多家科技公司向 Hugging Face 提出收购邀约,并且给出了较高的价格,尽管这些收购邀约均被 Clément 拒绝,但这导致了 Hugging Face 的估值飙升。


直到今天,这些科技公司依然没有停止收购 Hugging Face 的想法,鉴于它们对 Hugging Face 有极高的兴趣和热情,我们基本可以认为 Hugging Face 最坏的情况也只是被收购,且极大可能是被开得起好价钱的大型科技企业收购。


Upside:AI/ML 的中心


Hugging Face 现在的定位是 GitHub for NLP,目标是成为 GitHub for ML,但我们认为 Hugging Face 想象空间远不止于此,优越的战略位置和越走越宽的商业化路径使 Hugging Face 未来有机会切入 ML workflow 的多个环节。


从 Hugging Face 的商业模式及竞争对手就可以看出,Hugging Face 所覆盖的市场包括 AutoML、模型训练与推理、模型库、专家咨询,也可以这样理解:Hugging Face = DataRobot + OpenAI +  GitHub,未来若进入 ML workflow 的更多环节,则有可能直接对标 SageMaker,想象空间巨大。


Hugging Face 四类产品的竞争对手或可比公司数据如下,从数据看,Hugging Face 指向一个大约 $500M 收入、$10B 市值的市场,但我们认为这是一个相对保守的预测。第一,Inference 是 Hugging Face 未来主要收入来源,但该模式的竞争对手的数据暂未公开,因此没有计入该部分收入与市值;第二,下述竞争对手或可比公司业务仍处于高速增长阶段,未来收入和估值水平仍会持续提升;第三,公司当前市值受宏观环节影响较大,二级市场公司市值目前处在历史低位。



💡

注:

1. Private Hub 与 GitHub、GitLab 的商业模式相似,Hugging Face 的 Private Hub 业务形态是模型和数据集托管,而 GitHub、GitLab 为代码托管。因此,我们将 GitHub、GitLab 视为可比公司。

2. OpenAI 与三大云厂商的 Inference 业务无公开数据。

3. Expert Support 并非 Hugging Face 的核心业务,我们暂不统计和预测该部分收入。


Hugging Face 核心业务位于 ML workflow 的上游,是 AI/ML 的入口。假若未来商业化取得成功,下游布局顺利,Hugging Face 将有可能渗透至 ML workflow 的更多环节,成为 AI/ML 的中心。事实上,在过去一年中,Hugging Face 已经在多个领域成为 AI/ML 模型的中心,例如自动驾驶的图像识别、制药领域的推荐系统等等。


除了巨大的市场,Hugging Face 未来几年的成长性也非常可观。根据 Kaggle 调查,2021 年末,Hugging Face 渗透率刚好超过 10%,对应 S-curve 曲线,渗透率 10% 是一个极佳的入场时机,10% 意味着公司仍处在早期,但离爆发时点已非常接近。


Clément 认为:”机器学习未来会成为技术开发的默认方式,而 Hugging Face 会成为机器学习的头号玩家。” Lux Capital 合伙人 Brandon Reeves 也表示:如果这一愿景得以实现,结果可能是公司上市后获得 500 亿、甚至 1,000 亿美元的市值。”



07.


附录:访谈纪要


1. AI Researcher at Facebook


数据科学家进行 ML 工作第一步是去找预训练模型,供参考或直接使用。以前是去 Google 搜索,或阅读论文引用论文中的模型,现在是直接去 Hugging Face 找。Hugging Face 有很多模型,微调一下就能满足某个特定需求。如果现有的模型无法满足,也可以用 Hugging Face 的 AutoTrain,把数据发给 AutoTrain,训练新的模型。


2. ML Engineer at Adobe


Hugging Face 社区汇集了最优秀的 ML 人才和最先进的模型, 大部分从事 ML 工作的数据科学家和工程师都很难忽视或绕开 Hugging Face,绕开 Hugging Face 就像是被行业最领先的群体抛弃。我们通常在训练模型之前,会想去看看别人是怎么做的,有没有可以直接借鉴和使用的模型。


3. ML Architect at Bloomberg


Hugging Face 的预训练模型优势在于易用、快速、便宜。从最终效果看,参数相对较小的预训练模型与大模型差距为 0.1-0.3% 左右,这对于很多应用场景是可接受的。Hugging Face 和云厂商以及 OpenAI 相比,一大优势是它可以支持多云的环境。


4. Senior ML Solution Architecture at Amazon


AWS 有很多我很欣赏的、非常专业的同事都去了 Hugging Face,Hugging Face 里也有不少 Kaggler(Kaggle 是全球最顶级、最权威的数据科学竞赛),因此我相信 Hugging Face 具有独特的吸引力,并且人才质量是足够高的。但他们的销售团队水平远没有技术团队强,他们需要更激进地招聘顶级的销售人员。



Reference

https://www.forbes.com/sites/kenrickcai/2022/05/09/the-2-billion-emoji-hugging-face-wants-to-be-launchpad-for-a-machine-learning-revolution/?sh=7f458083f732

https://www.youtube.com/watch?v=db_ltgsCR54

https://www.youtube.com/watch?v=zgc5VL19oHk

https://www.youtube.com/watch?v=SJx9Fsnr-9Q

https://www.youtube.com/watch?v=kO0jveQ5lys

https://exchange.scale.com/public/videos/are-transformers-becoming-the-most-impactful-tech-of-the-decade


     延伸阅读



OpenAI与AIGC:改变人类生产范式,通往“万物的摩尔定律”


AI/ML正在爆发,哪些环节和玩家值得关注?


Scale: 目标做AI领域的AWS,数据标注生意做到73亿美元估值


dbt:数据行业新物种,估值 42 亿美金的数据转换工具


DataRobot:数据科学民主化还有多远?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存