其他
万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单,一场大型凡尔赛
榜单方认为,第一类可以再分成两类,批处理和流处理。批处理,例如Databricks和Starburst;流处理(实时处理),例如ClickHouse和imply。
“在实时这个很大的课题里,很多人把实时处理当成,‘有一堆各种不同的开源组件,组合一个架构’,就相当于,‘面对什么情况,组装什么东西’。”
榜单发布方认为,查询和处理类别仅占 Data50 公司的五分之一,但投资于该类别的资金是惊人的,几乎占资金总量的 50%。尽管此数据受到赛道扛把子Databricks高额融资的影响,但如果没有它,该类别仍将占所有资金的37%。所有类别的投资都在增长,查询和处理公司继续吸引大笔资金,尽管这些公司往往处于后期阶段。
榜单发布方认为,从上榜公司的庞大数量可以看出,这个类别正在成熟和蓬勃发展。
一些参与者专注于特定类型的数据和模型(例如自然语言的Rasa和Hugging Face),而其他大多数人专注于 AI 的产品化(例如Scale、Tecton和Weights and Biases)。
“榜单里数据科学公司发展成熟。对比国内,虽然国内数据库公司查询类还有一批,但是国内数据科学AI类的数量非常得少。”
大多数 Data50 公司成立于2014 年之后,而AI/ML类的基础设施公司开始变多是在2019之后 。
榜单方认为,这一类是传输层保证数据准确、准时到达目的地。此类别是从基于本地拖放界面的传统 ETL 供应商演变而来。另外,新类别的玩家大多是云原生的(例如Fivetran和dbt),对开发人员友好(例如Astronomer和Prefect),并且可以处理不同数据环境之间更复杂的依赖关系。
榜单发布方认为,随着数据堆栈变得越来越复杂,并且涉及更多利益相关方,数据治理和安全性正成为关键问题。此类别相对较新,通常服务于受监管的大型企业公司。
榜单发布方认为,客户数据分析传统上由营销团队拥有。然而,由于其重要性日益增加,数据团队现在更多地参与将客户数据与中央数据平台集成。此类别侧重于捕获客户数据(例如Rudderstack和ActionIQ)或操作该数据用于服务一线业务案例(例如Census和Hightouch)。
榜单发布方认为,尽管BI是一个成熟的类别,但Preset或Metabase等新参与者正在采取开源优先的方法,并吸引技术数据工程师以及商业智能团队。数据需求的快速变化性质也对迭代和交互式笔记本(例如Hex)和自动洞察生成(例如Sisu)产生了更多需求。
数据可观察性从软件工程堆栈的最佳实践中汲取灵感。随着数据栈越来越依赖于上下游工具,并且数据的准确性具有更广泛的影响,可观察性成为提供跨数据流监控和诊断能力的最新类别。
榜单发布方认为,未来 10 年将是数据的十年,包括基础设施、应用程序以及介于两者之间的一切。
AI框架系列:1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)2.搞AI框架那帮人丨贾扬清独家专访(二)
DPU系列:1.造DPU芯片,如梦幻泡影?丨虚构短篇小说2. 永远不要投资DPU?3. DPU加持下的阿里云如何做加密计算?
其他:1. 梅长苏:推荐系统难道就是琅琊榜?2. 超级计算机与人工智能:大国超算,无人领航3. 隐私计算:消失的人工智能 “法外之地”4. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?5. 我怀疑京东神秘部门Y,悟出智能供应链真相了6. 两大榜单揭晓啦,2021年中国高性能计算机性能TOP100+国际人工智能性能排行榜AIPerf5007. “重型卡车自动驾驶,无量产,则无意义”赢彻科技CTO杨睿刚博士观点8. AI芯片公司:拿下“超级石油”,助力地质模拟和人工智能
最后,再介绍一下主编自己吧,我是谭婧,科技和科普题材作者。为了在时代中发现故事,我围追科技大神,堵截科技公司。偶尔写小说,画漫画。生命短暂,不走捷径。个人微信:18611208992。还想看我的文章,就关注“亲爱的数据”。