数据和计算是最终的生产力飞轮｜Hello Tech

Original 九合创投九合创投 2024-01-01

“

自Marc Andreessen提出Software is eating the world，已经过去十二年。软件巨头相继崛起，成为发展数字经济的重要驱动力，而数据则是软件运转必需的原材料。

在过去数据爆炸的时代，数据海量且低价。但是在GPT出现之后，软件和数据的价值点位发生了改变。随着数据变得越来越有价值，数据和计算的生产力飞轮将加速运转，重构商业生态。

九合认为，除了基于大模型的AI原生应用，上一代深耕行业的AI公司也有望借助技术迭代，进行结构性升级。谁能更早的挖掘数据价值，建立数据和用户反馈之间的正循环，规模化获取用户，谁就更有机会赢得领先优势。

”

作者 | Abraham Thomas

编译 | 九合创投

2010到2020年是数据爆炸的十年。世界开始创造、记录和使用比以往更多的数据，Meta、亚马逊等互联网巨头正是借助了数据优势，成为科技行业的大赢家。

但随着人工智能新纪元的到来，竞争格局将被打破。数据和计算创造了一个由语言模型驱动的飞轮，生成比以往更多的数字信息。这改变了软件生态系统中的价值点位，为大型企业和初创公司都带来了重要的机遇。

•

内存增长带来数据爆炸

20世纪80年代之后，随着电脑存储空间逐渐增大，以及硬件的成本下降和易于访问，数据成为关键的竞争优势。

过去十年中，大多数成功的商业模式都位于数据爆炸的下游，包括社交媒体生态、电商物流生态，以及支持这些生态系统的基础设施和开发工具，

以广告为例，它仍然是互联网最大的经济引擎。Facebook、Reddit、YouTube、Instagram、TikTok和Twitter的模式都是在用户、内容和广告商之间建立闭环。

他们为用户提供免费的无限存储空间，用于存储照片、视频、文章、音乐等；内容吸引更多用户，这些用户又吸引广告商，广告商则为平台带来营收。

在物流领域，亚马逊和优步的数据飞轮则是基于用户位置、购买和旅行习惯，以及商店库存等信息。如果没有低价、充足的存储空间，这一切都不可能发生。

这些飞轮不仅由数据驱动，它们还会生成新的数据，数据爆炸是一种连锁反应。

•

数据成本下降和软件成本的上升

这些飞轮和基于数据的商业模式本质上都是软件。数据和软件是一枚硬币的两面。

如果没有数据，用于优化业务的软件将毫无用处。而如果没有软件的运行，数据也毫无价值。如同没有材料，工具就毫无用处；反之，如果不使用工具，材料也没有价值。

数据和软件互相配合，才能发挥效用。经济学家将此类要素称为“完全互补品”，两种要素必须同时被使用，无法相互替代，只有两种要素同比例增加，才能提高消费者的满足程度。对于“完全互补品”，如果其中一方的价格大幅下跌，那么另一方的价格大概率会上涨。

例如裁缝需要针和布料缝制衣服，产出受到针和布料的数量限制。如果由于新技术的出现，针的价格暴跌。裁缝将用节省下来的钱购买更多布料，缝制更多衣服。每个裁缝都这么做，布料的价格就会上涨。裁缝和消费者的状况都获得改善，服装的总产量增加，但针和布料的相对价值发生了变化。

在过去十多年里，世界上的数据量呈爆炸式增长，数据获取的成本在隐性下降。因此，软件变得相对稀缺，价格也随之水涨船高。从软件工程师的薪水，到顶级软件公司的市值，都可以看到这些变化。在低价、海量数据的帮助下，软件主宰了世界。

但是在GPT出现之后，一切都改变了。

•

计算革命使数据变得更有价值

GPT 是数据爆炸的产物。谷歌的研究人员撰写了《Attention Is All You Need》，这篇论文介绍了AI大模型的底层架构Transformer。

尽管大语言模型的发明是为了管理数据，但它们的用途远不止于搜索。GPT 极大地提高了软件的生产力，程序员能更快的编写代码。未来，我们将告别数据时代，迎来“计算+”的时代。

首先，计算革命使数据变得更有价值，这有利于已经拥有数据的公司。

但在AI世界中，数据的价值正在发生微妙的变化。一些拥有独特数据资产的公司将更有效地将数据货币化。例如BloombergGPT接受了高质量金融数据的训练，而其他大模型难以拥有这样的数据。

其他公司也将意识到他们拥有潜在的数据资产，而这些数据的价值尚未被发掘。并不需要大量的数据或昂贵的训练来获得有意义的结果，LoRA等技术能以相对较低的成本，使用专有数据补充大模型。因此，小规模的数据也可以拥有很大的价值。

训练数据时，数据质量比数据规模更重要。在一定的语料库规模之上，与增加数据的覆盖范围相比，提高数据质量能获得更高的回报率，这表明高质量的数据非常关键。

•

数据生态系统的未来

数据价值的增长会对下游产生一些影响。如果用淘金热来比喻，勘探者需要极大的运气，铲子提供者有最好的风险回报，珠宝商借此获利，少数金矿主将变得非常富有。

生态系统

围绕AI用例重塑的优质数据资产是新的金矿。在AI的新纪元，针对数据而专门设计的“铲子”有着绝佳的机会。

这些工具将为AI构建新的数据资产，连接现有数据和AI基础设施，使用AI提取潜在数据，并将各种数据资产货币化。

整个数据堆栈需要被重构，使生成式模型更好的成为数据的使用者和生产者。很多公司正致力于此，包括 Pinecone 和 Chroma 等基础设施提供商，Jasper 和 Regie 等内容引擎，中间层的LangChain等等。

除了工具，在人工智能新纪元，围绕数据的商业生态系统有待构建。模型的定价和使用、合规性和数据权利、新一代数据市场等等，一切都需要更新和重构。

数据和计算的飞轮

人工智能的另一个重要影响是，世界上数据和计算的数量将急剧增加。数据增长和计算爆炸之间互相推动，大模型不仅使用数据，同时也产生数据，使数据的增长越来越快。

目前的数据输出大多不是持续性的。但随着越来越多的业务流程融入生成式环节，这种情况已经发生了变化。

这对数据意味着什么？我们正在进入一个拥有无限内容的世界。其中一些是合法的数据，也有很多是虚假或垃圾信息。

计算万物

数据变得更有价值，生态系统需要重组，数据爆炸将加速，数据之间的可信关系将会明确。那么计算本身将发生什么变化？

如同数据的默认行为从“节省内存”转变为“保存一切”，软件的默认行为也将变为“计算一切”。

“计算一切”意味着什么？copilot、AI导师、AI应用等AI Agents将无处不在。我们曾经通过人主导的迭代（human-in-the-loop）来改进软件的流程，未来，我们将更多地看到软件主导迭代（software-in-the-loop），来简化人工流程。

其中一些AI Agents将有助于数据和内容的生成，成为生产力工具。其他Agents则在数据和内容消费等方面提供支持，它们是定制的管理员，将根据个人偏好进行调整。

•

新的丰富，新的稀缺

19世纪的英国经济学家杰文斯（William Jevons）观察到煤炭行业的一个悖论。尽管随着时间的推移，个别燃煤电厂的效率越来越高（生产能源使用的煤炭更少），但电厂的煤炭使用总量并没有下降，反而有所增加。效率的提升降低了煤炭的价格，导致整个社会对煤炭需求的增加，这被称为杰文斯效应。

数据和软件也发生了类似的情况。随着数据和软件在生产力飞轮中相互加强，大模型驱动的计算效率越来越高，降低了计算的价格，其结果是将会出现更多的计算需求。

那么，新的稀缺是什么？

一种可能是为计算和数据提供动力的硬件。当数据和计算呈指数增长时，硬件无法跟上，例如持续且反复出现的芯片短缺。这可能并不是供应不足，而是杰文斯效应中需求无法被满足的现象。

另一个可能稀缺的要素是能源。虽然大模型训练消耗大量能源，但仅限于少数研发大模型的公司。加速飞轮、计算爆炸和无处不在的Agents，将使能源消耗变得非常巨大。

我们要警惕人为的稀缺。社会整体上可能会从数据和计算的“丰富”中受益，但具体到个人和企业，可能有不同的动机。他们可能会寻求限制无处不在的低价数据和计算，或设法从中获取收益。

在这个新世界里，人类会发生什么？我们是一种稀缺且宝贵的资源吗？如果稀缺，这来源于我们的创造力还是体力？人工智能会增强人类的能力，还是将其自动化？找到答案的唯一途径是持续探索。

继续滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

何炅突然高调官宣喜讯，网友恭喜：30年了，终于等到这一天！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

数据和计算是最终的生产力飞轮｜Hello Tech

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

何炅突然高调官宣喜讯，网友恭喜：30年了，终于等到这一天！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

生成图片，分享到微信朋友圈

数据和计算是最终的生产力飞轮｜Hello Tech

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！