Data 50: 世界顶尖的50家数据初创公司 | Hello Tech
“
云原生时代,技术基础设施层迎来了结构性变革的机会,数据加工、处理的每个环节都有了重塑的可能性和必要性,技术的发展催生了新一代的数据公司。
基础设施是全球化的,近几年中国在云和数据领域的技术积累和人才储备逐渐成熟,我们相信中国必将出现世界级的基础软件公司。九合已布局了EMQ、一流科技、Datafuse Labs、跑象科技等多个项目。
同时,在技术基础设施之上,数据智能正加速对产业的重塑,改变生命科学等领域的研究范式。我们也将继续关注数据、算法与产业以及science交叉点所产生的新机会。
本期的“Hello, Tech”栏目将与大家分享风投机构a16z发布的Data 50榜单,此次上榜的50家数据初创公司,勾勒出了数据领域值得关注的技术和商业创新。
”
来源 | a16z
作者 | Jennifer Li, Sarah Wang, Jamie Sullivan
编译 | 九合创投
“大数据”并不是新鲜的概念,已诞生十多年,但仍然历久弥新。不管在大型企业还是初创公司,数据一直是非常重要且发展迅猛的创新驱动要素,已成为各类组织中负责决策的中枢神经系统。不只是数据方面的科学家、分析师和工程师在使用数据,如今几乎每个人都是数据的生产者和消费者。
随着数据的运用越来越广泛,“数据管理”已成为技术基础设施中增长最快的领域之一,预计价值超过700亿美元,占2021年企业基础设施支出的五分之一以上。数据市场结合了软件工程、分析和人工智能领域,同时顺应了云计算的潮流。
数据行业的发展也催生了过去几年中最具影响力的一批企业软件公司。Snowflake和Confluent 等巨头改变了数千家企业的运营和数百万种产品的构建方式。
2021年,数据公司获得了破纪录的数百亿风险投资,2022年的发展势头也非常强劲。a16z编制了首批“数据50强”(Data 50)名单,集结了数据领域最受关注的公司。这50家公司的总市值超过1000亿美元,共撬动了约145亿美元的资金,其中20家公司在2021年已成为独角兽公司。
Data 50 评选标准
Data 50公司成立于 2008 年之后,在过去两年中有新融资,其员工数量同比增长至少30%,为多个行业提供数据或数据应用。
排名基于最新估值、公司规模、过去两年的员工增长、运营年限和当前收入规模。员工数据基于LinkedIn的公开数据,资金数据基于Pitchbook和Crunchbase的公开数据,统计时间截至2022年3月22日。
此名单不包括CockroachDB、PlanetScale 和 Yugabyte 等交易型数据库公司,因为他们对数据的使用本质上是交易型的,而不是分析型的。
a16z将Data 50细分为七个子类别
1. 查询和处理
查询和处理技术是访问、聚合、计算数据的核心引擎,主要涉及“批处理”(如Databricks和Starburst)和“实时处理”(如ClickHouse和Imply)。随着实时应用程序的需求不断增加,“实时处理”在过去几年中受到越来越多的关注。
2. AI/机器学习
人工智能和机器学习类别包括应用算法建模和机器学习来处理大规模数据的软件。从上榜公司的庞大数量可以看出,这个领域正日趋成熟,蓬勃发展。其中一些公司专注于特定类型的数据(如专注自然语言的Rasa和Hugging Face),另一些公司则专注于多个领域,例如 AI 的产品化(这类公司包括Scale、Tecton和Weights and Biases等),或作为“计算层”运行AI工作负载(例如Anyscale) 。
3. ELT(Extract-Load-Transform) 和数据编排(Orchestration)
ELT和编排是支持数据移动的传输层,保证数据准确、准时到达目的地。该类别从基于本地拖放界面的传统ELT供应商演变而来。新兴玩家大多具有云原生(例如Fivetran和dbt)、对开发者友好(如Astronomer和Prefect)的特点,并且可以处理不同数据环境中更复杂的需求。
4. 数据治理和安全
随着数据堆栈变得越来越复杂,涉及更多利益相关者,数据治理和安全正成为关键问题。尤其是受到监管的行业,需要数据治理工具来确保数据的安全性,并在整个数据生命周期中保持合规性(例如OneTrust和Collibra)。此类别相对较新,通常服务于受到监管的大型企业。
5. 客户数据分析
过去,客户数据分析是由营销团队负责。但由于其重要性日益增加,如今数据团队更多地通过中央数据平台,参与到数据的分析和整合之中。此类别侧重于捕获客户数据(如Rudderstack和ActionIQ),或以数据服务于一线业务(如Census和Hightouch)。
6. BI (商业智能)& 笔记本电脑
BI & 笔记本电脑覆盖了数据的消费层。尽管这是一个成熟的类别,但Preset、Metabase等新玩家采取了开源的方法,吸引技术数据工程师以及商业智能团队。数据需求的快速变化也催生了对交互式笔记本电脑(如Hex)和自动化分析决策平台的需求(例如Sisu)。
7. 数据可观察性
数据可观察性从软件工程堆栈的最佳实践中汲取灵感。随着数据堆栈越来越依赖于上下游工具,并且数据的准确性具有更广泛的影响,可观察性成为最新的类别,监控和诊断数据流。
尽管市场的主要推动因素是数据量和使用频率的增加,但每个类别的驱动力各不相同。例如,在查询和处理领域,驱动因素主要是计算和存储的分离、数据上云,以及算力成本的减低。而在数据治理和数据可观察性领域,驱动力则是不断增长的应用场景和数据工作流的复杂性。
查询和处理类别的公司融资总额最高
查询和处理类别仅占Data 50公司的五分之一,但投资于该类别的资金是惊人的,几乎占总资本量的50%。尽管这一数据受到Databricks近期16亿美元融资的影响,但即使不考虑这笔融资,该类别仍占总资金量的37%,是排名第二类别融资额的两倍多。
当按公司数量查看类别时,分布更加平衡。就公司数量而言,AI/机器学习是最大的类别,主要因为该领域仍在不断发展,需要一套新的独立工具来训练、测量和生产模型。
Data 50聚集在美国湾区
在这50家公司中,47家(94%)位于美国,3家为国际公司。大多数公司(33家)位于旧金山湾区,9家位于华盛顿特区、费城、纽约和波士顿,两家在西雅图,一家在辛辛那提,一家在亚特兰大。
这种分布受到历史上大规模数据生态系统所在位置的影响(例如Oracle和 Teradata都在湾区成立)。但随着数据工程人才和数据工具的需求遍布全球,我们看到越来越多的数据公司在各国涌现(如Firebolt和Matillion)。
AI/机器学习类别推动了2019年新数据公司的激增
大多数Data 50公司成立于2014年之后,在AI/机器学习工具爆炸式增长的推动下,2019年成立的上榜公司数量位于顶峰。事实上,2019年之后有更多的数据公司成立,但因为榜单关注的是达到一定规模的公司,所以大多数新成立的公司没有上榜。
每个类别的投资都在增长
从每个类别的投资来看,最显著的趋势是AI/机器学习类别的公司获得了投资者前所未有的兴趣,主要集中在早期阶段。ELT和数据编排也是如此,Fivetran和dbt都获得了巨额融资。查询和处理类别的公司也持续吸引大笔资金,这些公司往往处于相对靠后的轮次。
a16z坚信,未来10年将是数据的十年,包括基础设施、应用程序以及两者涉及的一切领域。因此,我们将继续看到创纪录的增长、融资和市值。
(点击“阅读原文”可查看Data 50完整榜单)
关于我们
九合创投是一家从Day 1起就聚焦中国科技领域的早期投资机构,擅长发掘技术赋能和交叉学科等领域的投资机会,创始人王啸曾是“百度七剑客”之一。目前九合管理着 4 支人民币基金和1支美元基金,投资轮次覆盖天使轮、Pre-A及A轮,关注硬科技、开源、企业服务、产业互联网、生物技术、新能源、新材料等领域。
九合代表Portfolio
企业服务:混合云先行者与领导者青云(688316.SH)、服务新经济参与者平台36氪(KRKR.US)、领先的HR SaaS科技服务商众合云科、开源物联网基础软件供应商EMQ映云科技、云原生安全厂商小佑科技、全链路健康险科技平台寰宇关爱等
AI/数据智能:“医疗AI第一股”鹰瞳Airdoc(02251.HK)、自动驾驶公司Momenta、智能销售SaaS服务提供商探迹科技、新一代深度学习框架平台一流科技、AI标准化财富管理平台理财魔方、智能客服机器人公司晓多科技等
传感器/芯片:毫米波雷达领跑企业楚航科技、专注于国产安全可控的DSP芯片研发商中科昊芯、基于RISC-V的高性能 CPU研发商微核芯、无线通信与定位SoC芯片解决方案提供商诺领科技、传感器芯片研发商泽声科技、基于MEMS的气体传感器芯片研发商慧闻科技等
生物科技:合成生物研发平台态创生物、AI新药研发平台青云瑞晶、专注于液体活检的癌症早筛企业人科生物、药物递送创新企业载愈生物、人源免疫豁免细胞技术开创者华卫恒源等
新能源&新材料:新能源商用汽车公司司凯奇、全场景清洁能源储能产品研发商羲和未来、数字配电开关引领者京硅智能、锂电池废料提取回收商道童新能源、深耕半导体材料产业的解决方案提供商铂韬新材料等
BP投递:contact@unityvc.com