查看原文
其他

AI咆哮后,一个赚大钱的AI+Data公司估值居然430亿美元?

亲爱的数据 亲爱的数据 2024-03-26

原创:亲爱的数据 谭婧

悄然间,Databricks公司逆风扬帆,将估值推到430亿美元。

因其仍未上市,且行为低调,财务构成长久以来都是秘密。

Databricks中文名直译:数据砖头。

但似乎没人这么叫,太土了。

念出Databricks,发五个音节,短促干脆,给人以一种美国湾区科技的既视感,很高级,有排面。

这又是一个美元堆上的新故事。

(一)营收多少?增速多快?

清晨的一缕阳光从窗户懒懒地洒进来,

Databricks公司的CEO阿里·戈西(Ali Ghodsi)从美梦中笑醒。

“这是一家分析数据的云软件平台公司”,外国财经媒体描述语焉不详。市面上也有很多人管Databricks叫大数据公司。

采访镜头里,CEO意气风发,豪言壮语言,他相信公司已成为世界上“增长最快的软件公司”。

文末有视频为证。

虽然美国美联储加息周期仍未结束,但是美股科技指标股走得好,诸位贵人,别着急。

戈西CEO的说法,我不敢附和,或许会违反某国广告法。

增长速度如此之快着实少见,戈西CEO说其中之一的增长原因是,数据仓库产品(202112月发布到20234月共计17个月)服务收入总额(准确说是ARR,这词后面解释)超过一亿美元。

也就是说,一个刚起步的业务,只用17个月就做到了如此成绩。

不难发现,这家公司是谭老师我长期观察,且内心喜爱的科技公司。

为啥喜欢?

既爱创新,又很能打,年收入10个亿美金,谁不喜欢。

盈利,产品,技术项项都能叩开投资人心门。

估值讨论事宜还处于商讨阶段,也有可能破裂。

估值数额来自外媒爆料,想当年,Databricks也度过一段不尽如人意的日子:在2022年底其估值下调至310亿美元。如今,掉在地下的面子都捡起来了。

Databricks的估值和谁比较才好呢?

那非Snowflake莫属。

SnowflakeDatabricks一开始很不同。Databricks从一个大名鼎鼎的开源计算引擎Spark起家。想当年,谭老师我还买了一本书叫做《Spark高级数据分析》,阅读后发现是用Scala语言来教我做数据分析。

Spark计算是分布式的,存储在数据湖上,所以,Databricks是从数据湖往数据湖仓方向前进。而Snowflake则不同,它是数据仓库起家,也往湖仓方向前进。

反正,湖仓就是大趋势,这点果然“英雄所见略同”

好比,以前美团APP是外卖起家想做打车业务,而滴滴APP是打车业务起家想做外卖业务。如果美团和滴滴均把打车和外卖都做好了,那就有点像现在DatabricksSnowflake的竞争态势了。

相信你也看出来了,我对Snowflake也是不吝赞美。

粗略地用一家估值和另一家市值对比,看上去,趋势线有碰面的可能。

在如此靠后的融资轮次上,有研究认为(其实就是我认为)投资人主要考察的重点不外乎两点:

公司营收,营收增速。两者均佳,估值乐观。

第一,营收。

这种平台性的公司最重要的指标是年度订阅收入+从附加组件和升级收入(财报上的Annual recurring revenueARR),那些每年每月都付钱的客户,谁人不爱,也有人理解为租金

企业市场做得好是Databricks一大亮点,企业客户有钱,而且让企业客户越离不开,就越赚钱。有些技术超强的公司痴迷技术领先,可惜把“技术极客”服务好了也很难赚钱,他们有超高的工程化能力,谁还付费。

第二,增速。

敢问一句,有没有一种可能,我是说可能,Databricks的营收增速高于Snowflake

我可没有说我问过Databricks员工。

有研究认为(其实就是我认为),无需去猜市场上或者别的投资者会出什么价,正确“估值”是这公司能挣多少钱,以后若干年能挣多少钱。

阿里·戈西说:“我们总会上市。”

这对上市的态度有些佛系了吧?赢家都是这样。

甚至,在他看来,没公开上市的好处是:想买什么AI公司都可以放开了买。

“上市之后,想证明这些收购的合理性就会困难得多。”

他如此说。

(二)AI咆哮的红利

第三浪,不辜负。

大模型大风吹到,数据加人工智能(Data +AI)龙头公司终于成了“显眼包”。

这里,还是要谨慎提醒一句,在没有大模型以前,DatabricksAI平台准确地说是传统机器学习平台。此AI,非彼AI,以免混淆讨论。

多数甲方企业用AI还是在关系型数据上面做机器学习,比如,财务数据用来进行销量预测。

再说回浪潮。

细数,这已是数据领域第三次浪潮,前两次分别是数据库和大数据,五六十年前和二十几年前。

数据库和大数据相辅相成,大数据和人工智能亦如此。

这一轮大模型创业公司当中,几乎100%的大模型公司团队都有数据组,而且数据组的负责人有时还会是个博士。我知道的一家国产大模型独角兽的数据负责人是博士,还有,美团大模型团队数据组负责人也是博士。

我描述这个现象是想强调,数据组的技术含量很高。他们招聘数据清洗、标注、挖掘等等职位的工程师,负责大模型的数据工作。

看吧,“数据贵如石油”的风又吹回来了。

是时候,让魔法加持魔法了。

你看那镜头前的戈西CEO,礼貌一笑,嘴上贵贵贵,手上买买买。

收购人工智能初创公司MosaicML(贵死了,做AI基础设施),

收购人工智能存储初创公司Rubicon(没公布价格,做AI存储),

收购人工智能数据治理初创公司Okera(没公布价格,全球为数不多的面向AI的数据治理平台,将其技术整合到Databrick数据目录产品Unity Catalog)。

天下武功,唯快不破。

这简直把AI创业公司的核心技术当AI组件一个劲地往自己的平台上组装,Databrick你真行。

Data+AI平台的生产线越长,越统一,越完备,就越有优势,企业用户来了就别想走,别家就不用去。

被组装的不止“AI创业公司”。

数据仓库、数据湖、数据库皆可被视为Data平台里面的功能组件。

只不过它们有个共同的任务——负责存储。你可以有仓库,有管结构化数据的存储组件,也可以有数据湖做非结构化存储组件。

甚至可以这样理解,传统的机器学习平台也是数据平台的组装件之一。

以前, AI负载占比不算多,很多企业把它当成一个相对独立组件,现在更强调融合。

不仅如此,现在,还需要大模型专用组件。

总之,Data平台像一个大型装配生产流水线。

不过这种表述是增加你对Data平台和AI平台的理解,在实际场景中,在企业里,数据平台和AI平台不是包含关系。

AI平台用到数据平台里的数据。如果那些做AI平台产品的公司硬要把自己包装成数据平台也能做,最后结果是跟企业客户已经有的数据平台打架,卖不进去。

我们回到大模型创业公司数据组这个例子,不止他们,甲方客户企业也会重新考虑数据库里这些成堆的数据,怎么能被大模型消费掉。这必然带动数据摄取、数据转化、数据存储等业务量。

或者说,如果一个企业其实它有机会能采到很多的数据,但不能把这个数据保存或者用起来,这个平台就不称职了。

红利逻辑是,数据好,模型好,有了信心,更多资源投入到建设公司核心数据资产这件事上。

Databricks吃到了“红利”,还吃了两次。

(三)技术栈
(学霸选读)

Data平台和AI平台可以从多个是视角来看:

在采购视角下,好比采购两种不同的标准化组件。

业务视角下,都需要统一平台,越方便,越便宜,越好。

技术视角下,两个平台用完全不同的计算引擎,干完全不同的事情。

如果有人问我,Data平台和AI平台哪个更重要,我只能说:Data平台(数据库、大数据系统)已经是必选项了,AI 还是可选项。

往深处聊,聊聊DataAI的技术栈。

二者截然不同。

先看数据技术栈,有研究认为(其实就是我认为),这些年,数据技术栈中唯一不变的就的趋势。比如从离线到实时,从多个引擎到统一引擎,从LambdaKappa架构……

再看AI技术栈,有两个大模型带来的难点:

第一,AI技术栈自有特色,自成体系,建设、维护和系统的复杂度高。传统IT软件就没有模型这个事物。

第二,AI技术栈正在发生重塑性变革,新的软件栈正在形成之中。

一部分旧式AI基础设施会逐渐消失,或者用处有限。就像汽车车轴上的零配件淘汰青铜兽面纹车軎(wèi)。

的确,无论是Data平台,还是 AI 平台都没法来用自己的经验解决对方的问题,所以,有位AI大佬曾对我说,Databricks 没法自己生长出AI 大模型产品,想要拥有完整的产品体验,要么合作,要么购买。

Databricks果断购买。

即便如此,依然面临的难题有:

第一,对海量异构数据存储和管理。

第二,对AI 计算范式的支持。

第三,如何设计Data AI 结合而来的新的产品形态。

还有很多有意思的小问题,答案可能不止一个:

1.数据库和AI怎么结合出新产品?

有人可能会回答向量数据库。

2.MLOps(机器学习运维)或LLMOps(大语言模型运维)如何调整与设计?

答案可能是增加向量检索组件,增加和提示工程有关的功能。

3.数据湖仓的趋势是什么?

有的答案是用统一且完整的产品,取代一堆产品的组合解决方案的局面。

所有的难题,不止Databricks在干,其他竞品也在干,那就要看谁干得好。

有研究认为(其实就是我认为),有些问题Databricks正在解决,有些基本解决了。

Databricks的答案包括:

第一,支持大模型的需求,比如,帮甲方企业用户既低成本易用地训练、微调和管理这些模型。例如,如何用小规模专有数据集微调大模型。

第二,用开放湖仓架构支持AI

资深架构师会告诉你,这类产品从计算引擎做到存储架构,痛苦并不是计算引擎带来的,而是存储架构带来的。好比,有了你我以为躲过了暴风雨,结果发现你就是暴风雨。因为存储架构面对的难题比计算引擎大。

传统的为结构化数据设计的数仓架构不能很好地支撑 AI,而Databricks的做法是,从数据湖仓上发展出支持AI的能力。

第三,搞定自有场景。

那些有生成式AI能力的公司都在自家场景院子里大干快上、挥汗如雨,Databricks也是比较积极的一个。

据说Databricks2023年年初的时候,公司内部流行语是:“今天你用了 LLM 吗?”,谭老师我上次听到的如此上头的文案还是在咖啡店的时候:“今天你没事(美式)了吗?”

Apache Spark功能运行Python应用程序的时候,因为API有上千个之多,知识过于密集。

于是,Databricks发布了“English SDK”,考虑用大语言模型学习理解Apache Spark API

2023年是Spark进入Apache基金户会的第十周年。可想而知积累了很多开源文档、QA问答。这些喂给大模型,以便用户用英文发号施令以代替代码编程做指挥棒。

不能只说好不说差,Databricks是跑得飞快的美国公司,而今大部分企业的数字化水平仍然较差,无法自建AI,至今连AI都用不上。

谭老师我最喜黄昏(因为早上起不来),天边映晚照,余霞可爱多。

不知道Databricks的其他几位创始人近期看晚霞是什么样的好心情,毕竟估值430亿美金了。

其他几位创始人是谁呢?

他们是Andy KonwinskiArsalan Tavakoli-ShirajiIon StoicaMatei ZahariaPatrick WendellReynold Xin(辛湜)

带货ing

《我看见了风暴》谭老师新书,京东有售


更多阅读

AI大模型与ChatGPT系列:
1. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?
2. ChatGPT:绝不欺负文科生
3. ChatGPT触类旁通的学习能力如何而来? 
4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进
5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将
6. ChatGPT大模型用于刑侦破案只能是虚构故事吗?
7. 大模型“云上经济”之权力游戏
8.  云从科技从容大模型:大模型和AI平台什么关系?为什么造行业大模型?
9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场?
10. 深聊京东科技何晓冬丨一场九年前的“出发”:奠基多模态,逐鹿大模型
11. 老店迎新客:向量数据库选型与押注中,没人告诉你的那些事
12. 抢滩大模型,抢单公有云,Databricks和Snowflake用了哪些“阳谋”?
13. 大模型“搅局”,数据湖,数据仓库,湖仓选型会先淘汰谁?
14. 微调真香,漫画科技博主竟然在用国产大模型生成系列漫画女主角
15. 美国大模型风向速报(一)为何重视提示工程?LangChain+向量数据库+开源大模型真香

AI大模型与学术论文系列:
1.开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?
2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)
3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)


漫画系列
1. 是喜,还是悲?AI竟帮我们把Office破活干完了
2. AI算法是兄弟,AI运维不是兄弟吗?
3. 大数据的社交牛气症是怎么得的?
4. AI for Science这事,到底“科学不科学”?
5. 想帮数学家,AI算老几? 
6. 给王心凌打Call的,原来是神奇的智能湖仓
7. 原来,知识图谱是“找关系”的摇钱树?
8. 为什么图计算能正面硬刚黑色产业薅羊毛?
9. AutoML:攒钱买个“调参侠机器人”?
10. AutoML:你爱吃的火锅底料,是机器人自动进货
11. 强化学习:人工智能下象棋,走一步,能看几步?
12. 时序数据库:好险,差一点没挤进工业制造的高端局
13. 主动学习:人工智能居然被PUA了?
14. 云计算Serverless:一支穿云箭,千军万马来相见
15. 数据中心网络数据还有5纳秒抵达战场
16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到


AI框架系列:
1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)
2.搞AI框架那帮人丨燎原火,贾扬清(二)
3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家
4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事
注:(三)和(四)仅收录于《我看见了风暴》。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存