数据和计算是最终的生产力飞轮|Hello Tech
“
自Marc Andreessen提出Software is eating the world,已经过去十二年。软件巨头相继崛起,成为发展数字经济的重要驱动力,而数据则是软件运转必需的原材料。
在过去数据爆炸的时代,数据海量且低价。但是在GPT出现之后,软件和数据的价值点位发生了改变。随着数据变得越来越有价值,数据和计算的生产力飞轮将加速运转,重构商业生态。
九合认为,除了基于大模型的AI原生应用,上一代深耕行业的AI公司也有望借助技术迭代,进行结构性升级。谁能更早的挖掘数据价值,建立数据和用户反馈之间的正循环,规模化获取用户,谁就更有机会赢得领先优势。
”
作者 | Abraham Thomas
编译 | 九合创投
2010到2020年是数据爆炸的十年。世界开始创造、记录和使用比以往更多的数据,Meta、亚马逊等互联网巨头正是借助了数据优势,成为科技行业的大赢家。
但随着人工智能新纪元的到来,竞争格局将被打破。数据和计算创造了一个由语言模型驱动的飞轮,生成比以往更多的数字信息。这改变了软件生态系统中的价值点位,为大型企业和初创公司都带来了重要的机遇。
01
•
内存增长带来数据爆炸
20世纪80年代之后,随着电脑存储空间逐渐增大,以及硬件的成本下降和易于访问,数据成为关键的竞争优势。
过去十年中,大多数成功的商业模式都位于数据爆炸的下游,包括社交媒体生态、电商物流生态,以及支持这些生态系统的基础设施和开发工具,
以广告为例,它仍然是互联网最大的经济引擎。Facebook、Reddit、YouTube、Instagram、TikTok和Twitter的模式都是在用户、内容和广告商之间建立闭环。
他们为用户提供免费的无限存储空间,用于存储照片、视频、文章、音乐等;内容吸引更多用户,这些用户又吸引广告商,广告商则为平台带来营收。
在物流领域,亚马逊和优步的数据飞轮则是基于用户位置、购买和旅行习惯,以及商店库存等信息。如果没有低价、充足的存储空间,这一切都不可能发生。
这些飞轮不仅由数据驱动,它们还会生成新的数据,数据爆炸是一种连锁反应。
02
•
数据成本下降和软件成本的上升
这些飞轮和基于数据的商业模式本质上都是软件。数据和软件是一枚硬币的两面。
如果没有数据,用于优化业务的软件将毫无用处。而如果没有软件的运行,数据也毫无价值。如同没有材料,工具就毫无用处;反之,如果不使用工具,材料也没有价值。
数据和软件互相配合,才能发挥效用。经济学家将此类要素称为“完全互补品”,两种要素必须同时被使用,无法相互替代,只有两种要素同比例增加,才能提高消费者的满足程度。对于“完全互补品”,如果其中一方的价格大幅下跌,那么另一方的价格大概率会上涨。
例如裁缝需要针和布料缝制衣服,产出受到针和布料的数量限制。如果由于新技术的出现,针的价格暴跌。裁缝将用节省下来的钱购买更多布料,缝制更多衣服。每个裁缝都这么做,布料的价格就会上涨。裁缝和消费者的状况都获得改善,服装的总产量增加,但针和布料的相对价值发生了变化。
在过去十多年里,世界上的数据量呈爆炸式增长,数据获取的成本在隐性下降。因此,软件变得相对稀缺,价格也随之水涨船高。从软件工程师的薪水,到顶级软件公司的市值,都可以看到这些变化。在低价、海量数据的帮助下,软件主宰了世界。
但是在GPT出现之后,一切都改变了。
03
•
计算革命使数据变得更有价值
GPT 是数据爆炸的产物。谷歌的研究人员撰写了《Attention Is All You Need》,这篇论文介绍了AI大模型的底层架构Transformer。
尽管大语言模型的发明是为了管理数据,但它们的用途远不止于搜索。GPT 极大地提高了软件的生产力,程序员能更快的编写代码。未来,我们将告别数据时代,迎来“计算+”的时代。
首先,计算革命使数据变得更有价值,这有利于已经拥有数据的公司。
但在AI世界中,数据的价值正在发生微妙的变化。一些拥有独特数据资产的公司将更有效地将数据货币化。例如BloombergGPT接受了高质量金融数据的训练,而其他大模型难以拥有这样的数据。
其他公司也将意识到他们拥有潜在的数据资产,而这些数据的价值尚未被发掘。并不需要大量的数据或昂贵的训练来获得有意义的结果,LoRA等技术能以相对较低的成本,使用专有数据补充大模型。因此,小规模的数据也可以拥有很大的价值。
训练数据时,数据质量比数据规模更重要。在一定的语料库规模之上,与增加数据的覆盖范围相比,提高数据质量能获得更高的回报率,这表明高质量的数据非常关键。
04
•
数据生态系统的未来
数据价值的增长会对下游产生一些影响。如果用淘金热来比喻,勘探者需要极大的运气,铲子提供者有最好的风险回报,珠宝商借此获利,少数金矿主将变得非常富有。
生态系统
围绕AI用例重塑的优质数据资产是新的金矿。在AI的新纪元,针对数据而专门设计的“铲子”有着绝佳的机会。
这些工具将为AI构建新的数据资产,连接现有数据和AI基础设施,使用AI提取潜在数据,并将各种数据资产货币化。
整个数据堆栈需要被重构,使生成式模型更好的成为数据的使用者和生产者。很多公司正致力于此,包括 Pinecone 和 Chroma 等基础设施提供商,Jasper 和 Regie 等内容引擎, 中间层的LangChain等等。
除了工具,在人工智能新纪元,围绕数据的商业生态系统有待构建。模型的定价和使用、合规性和数据权利、新一代数据市场等等,一切都需要更新和重构。
数据和计算的飞轮
人工智能的另一个重要影响是,世界上数据和计算的数量将急剧增加。数据增长和计算爆炸之间互相推动,大模型不仅使用数据,同时也产生数据,使数据的增长越来越快。
目前的数据输出大多不是持续性的。但随着越来越多的业务流程融入生成式环节,这种情况已经发生了变化。
这对数据意味着什么?我们正在进入一个拥有无限内容的世界。其中一些是合法的数据,也有很多是虚假或垃圾信息。
计算万物
数据变得更有价值,生态系统需要重组,数据爆炸将加速,数据之间的可信关系将会明确。那么计算本身将发生什么变化?
如同数据的默认行为从“节省内存”转变为“保存一切”,软件的默认行为也将变为“计算一切”。
“计算一切”意味着什么?copilot、AI导师、AI应用等AI Agents将无处不在。我们曾经通过人主导的迭代(human-in-the-loop)来改进软件的流程,未来,我们将更多地看到软件主导迭代(software-in-the-loop),来简化人工流程。
其中一些AI Agents将有助于数据和内容的生成,成为生产力工具。其他Agents则在数据和内容消费等方面提供支持,它们是定制的管理员,将根据个人偏好进行调整。
05
•
新的丰富,新的稀缺
19世纪的英国经济学家杰文斯(William Jevons)观察到煤炭行业的一个悖论。尽管随着时间的推移,个别燃煤电厂的效率越来越高(生产能源使用的煤炭更少),但电厂的煤炭使用总量并没有下降,反而有所增加。效率的提升降低了煤炭的价格,导致整个社会对煤炭需求的增加,这被称为杰文斯效应。
数据和软件也发生了类似的情况。随着数据和软件在生产力飞轮中相互加强,大模型驱动的计算效率越来越高,降低了计算的价格,其结果是将会出现更多的计算需求。
那么,新的稀缺是什么?
一种可能是为计算和数据提供动力的硬件。当数据和计算呈指数增长时,硬件无法跟上,例如持续且反复出现的芯片短缺。这可能并不是供应不足,而是杰文斯效应中需求无法被满足的现象。
另一个可能稀缺的要素是能源。虽然大模型训练消耗大量能源,但仅限于少数研发大模型的公司。加速飞轮、计算爆炸和无处不在的Agents,将使能源消耗变得非常巨大。
我们要警惕人为的稀缺。社会整体上可能会从数据和计算的“丰富”中受益,但具体到个人和企业,可能有不同的动机。他们可能会寻求限制无处不在的低价数据和计算,或设法从中获取收益。
在这个新世界里,人类会发生什么?我们是一种稀缺且宝贵的资源吗?如果稀缺,这来源于我们的创造力还是体力?人工智能会增强人类的能力,还是将其自动化?找到答案的唯一途径是持续探索。