ChatGPT:受惊骇的巨头们与焦虑中的军备竞赛
作者:Ben Thompson
编译:Johnson、penny
排版:Lydia
ChatGPT 给微软带来了一张王牌,也让 Google 等手握筹码的大厂被迫加快了下注的速度和幅度。
由于大模型对算力、人才、数据有极高的需求,因此虽然新一代 AI 应用可能来自创业公司和开源社区,但大公司在这一波科技浪潮中捕获价值的能力不容忽视。
Ben Thompson 是美国知名科技评论作者,多年来对 FAANG 和其他科技公司进行了很多追踪和分析。最近他从颠覆式创新的角度,分析了科技巨头们在大模型和 AI 时代的优势和挑战。
海外独角兽一直在探索未来十年最重要的趋势,如果要寻找新时代的苹果和微软,就需要更深入理解当下新技术与旧巨头相遇碰撞出的火花。因此我们对 Ben Thompon 的观点进行编译,并对五大科技巨头的布局补充说明。
2022 年苹果从开源世界收到了一份令人难以置信的礼物:Stable Diffusion,这个模型未来有望集成进 iPhone 手机,开启 APP Store 新一轮繁荣。
与苹果面向消费者的业务相反,亚马逊会通过 AWS 收到许多云端推理的订单,但短期会有 GPU 算力不足的焦虑,长期则面临推理成本久居不下,和下游公司自建数据中心的巨大变量。
Meta 应该加大对 GPU 数据中心的投资,从长期来看,无论是对于加深自身的广告业务的护城河,还是将社交媒体和集成式 VR 设备作为生成式 AI 技术的入口而言,都会有极大的帮助。
对于 Google 而言,这家曾发明了 Transformer 模型的伟大企业和当年的柯达遭遇了同样的困境,后者也是颠覆式技术数码相机的发明者。因为聊天机器人无需用户点击,这颠覆了传统的按点击量付费的搜索 - 广告商业模式。
不过,未来无法精准预测,曾经被认为是颠覆式创新受害者典型代表的微软,如今反而借助云计算等技术抵达新的浪潮之巅,同时,在生成式 AI 的新一轮技术革命中,微软处在一个最好的生态位置,也正通过 Bing 结合 Chat GPT 的方式成为新的颠覆者。
生成模型未来会成为一种基础设施,带给这个世界更多惊喜,但对单个公司影响力有限,处于产业链更上游的英伟达和台积电很可能成为最大赢家;同时机会也可能来自那些最在乎确定性的行业,因为该行业的传统公司预计很难给予基于概率统计的人工智能技术以充足的投资,正如当年柯达不会给予基于数字图像的数码相机技术以充足的投资一样,但也同当年数字技术一样,人工智能技术在飞速发展。
以下为本文目录,建议结合要点进行针对性阅读。
👇
01 苹果
02 亚马逊
03 Meta
04 谷歌
05 微软
06 英伟达
2022 年堪称 AIGC 元年,首先出现了图像生成模型,包括 DALL-E、MidJourney 以及开源的 Stable Diffusion,然后是 ChatGPT,发布仅两个月用户便已经突破 1 亿,扩张速度前所未见,表明我们已经进入一个新的技术纪元。
为了确定 AI 时代可能的发展走向,不妨回顾一下 26 年前最著名的战略书籍之一,克莱顿·克里斯坦森的《创新者的窘境》,他在其中提出了颠覆式创新(disruptive innovation)的概念:
大多数新技术促进了产品性能的提高,我把这些技术称为渐进式(sustaining)技术,它们的共同点是沿着主要市场的主流客户历来重视的性能维度,改善现有产品的性能。在特定行业中,大多数技术进步是渐进的。
颠覆性技术为市场带来了与以往截然不同的价值主张。一般来说,颠覆性技术在主流市场上的表现不如成熟产品。但它们有一些局部的,边缘的(一般是新的)客户看重的其他特点。一般情况下,基于颠覆性技术的产品更便宜,更简单,更小,使用起来更方便。
通过观察创新进入市场后现有公司的表现,便很容易回顾历史,并确定一项创新是渐进性创新还是颠覆性创新:如果创新是渐进的,那么现有公司变得更强大;如果是颠覆性的,那么估计初创公司会抓住大部分的价值。
回顾过去科技时代的节点:
• 个人电脑对几乎所有的当时的大公司都是颠覆性的,这些相对便宜和低功率的设备在能力和利润率方面甚至比不上微型计算机,更不用说大型机。所以 IBM 最初很乐意把个人电脑的芯片和操作系统分别外包给英特尔和微软,然后将产品集成后满足自己的企业客户;但个人电脑的速度越来越快,当市场将过去的一切都甩在了身后,英特尔和微软反超 IBM 占据了上风。
• 互联网几乎完全是颠覆式的市场创新,因此由全新的公司来定义,它们颠覆的领域,是在远离技术的行业,特别是涉及信息的行业(即媒体),这是谷歌、Facebook、在线市场和电子商务等的时代,所有这些应用都运行在由 Windows 和 Intel 驱动的个人电脑上。
• 云计算虽然是互联网的一部分,但我认为它也是极具颠覆性的:商业 X86 架构垄断了专用服务器硬件,一大批 SaaS 初创公司从现有的公司中剥离出功能来建立公司。值得注意的是,云计算的核心基础设施主要是由上个时代的赢家建造的:亚马逊、微软和谷歌,尤其是微软,他们已经把其传统软件业务已过渡到订阅模式,逐渐 SaaS 化。
• 虽然移动互联网最终被苹果和谷歌主导,但这并不意味着它不是颠覆性的,苹果创新了 UI 范式,要求消费者们不会把手机看作是小型电脑;谷歌则创新了商业模式,要求公司们不能把手机终端当作操作系统的直接利润来源,而是看作广告业务的护城河 。
这段历史值得注意的是,颠覆性创新确实一直来自于市场的新进入者,但这些新进入者未必是初创企业:以往的科技时代,一些最大的赢家往往是现有的大公司利用其现有业务优势进入新领域。同时,克里斯坦森理论在其他方面也是成立的:微软在移动互联网领域十分挣扎,是因为移动互联网本身是颠覆性的,但由于微软及时调整了自身的商业模式,所以云计算时代它并没有被颠覆,反而在 SaaS 领域始终有渐进性创新。
鉴于现有公司在新世纪的成功,在思考人工智能的影响时,最明显的起点是五个大厂:苹果、亚马逊、Facebook(Meta)、谷歌和微软。
01.
苹果
著名的科技战略书籍,乔尔·斯波尔斯基的《战略信条》 第五章曾提到:
聪明的公司试图让它们产品的互补品商品化(commoditize their products' complements)。
互补品是指两种商品必须组合在一起才能满足需要。例如,在相机价格不变时,如果作为其互补品的胶卷的价格大幅度上涨,则人们对相机的需求也会减少;胶卷价格下降,人们对相机的需求则会相应增加。
通俗一些理解,商品化就是用价值换钱的行为。产品商业化的过程就是产品寻求商品变现的过程,所有对产品的投入只有通过变现才能最终体现商业价值。
而斯波尔斯基是在解释为什么大公司会投资开源软件时写下这句话:
无论是否开源,完成调试的代码都是有成本的,即使你不为它支付现金,它也有机会成本、时间成本等。毕竟可用于开源工作的开发人员是有限的,每个开源项目都在与其他开源项目竞争同样有限的编程资源,只有最有前景的项目才拥有足够多的开发人员。总之,我对那些试图证明免费软件的狂热经济性的人不感冒,一道“N 除以零”的数学计算题注定是错误的。
开源代码依旧需要遵守经济规律,我们在 Eazel、ArsDigita、之前知名的 VA Linux 公司和其他许多公司中看到了这一点。但是许多非常大的上市公司,纵然负有使股东价值最大化的责任,但它们正在投入大量资金支持开源软件,通常是通过支付大量的程序员团队来进行工作。
这可以用“互补原则”作为解释:在经济学中,当一个产品的互补品的价格下降时,对该产品的需求就会增加。一般来说,一个公司的战略利益是让它的补充产品的价格尽可能地低,理论上可持续的最低价格是 "商业价格"——即有一群竞争对手饱和式竞争后的产生的价格。因此,聪明的公司试图让它产品的互补品商品化,增加自己的产品的需求,赚取更多的利润。
苹果公司投资开源技术,比如开源操作系统的 Darwin 内核和 WebKit 浏览器引擎,后者符合斯波尔斯基的分析,因为保证网络与苹果设备的良好运行可以使苹果的设备更具价值。
与此同时,苹果在人工智能方面的努力在很大程度上是闭源的:传统的机器学习模型被用于推荐、图像识别和语音识别等方面,但这些东西无法对苹果的业务产生重大影响,不过,2022 年苹果从开源世界收到了一份令人难以置信的礼物:Stable Diffusion。
Stable Diffusion 之所以引人注目,不仅仅因为它是开源的,还因为它的模型出奇地小:当它被发布时,它已经可以在一些消费级显卡上运行,在几周内,它已经被优化到可以在 iPhone 上运行 。
这里压缩至 iPhone 端运行的说法有些夸张,据官网展示信息,可以判断目前该模型可以 Mac 端运行,且图片生成时间较慢。
相比于大语言模型动辄千亿的参数量,图像生成模型事实上要小一些,OpenAI 基于扩散模型的闭源模型 DALL-E2 只有 35 亿参数大小,而开源模型 Stable Diffusion 则在保持了生成质量的情况下将模型大小压缩至 8.9 亿 ;主流笔记本电脑集成显卡显存标准为 2GB ,刚刚满足经过专业优化后的模型运行。
目前移动端设备显存要低于笔记本电脑一个数量级,综合技术进步,预计图像生成模型 1-2 年后能集成进入手机终端,且体验良好。
苹果公司已经抓住了这个机会,上个月其机器学习小组宣布了这个消息:
今天,我们很高兴在 macOS 13.1 和 iOS 16.2 中发布对 Stable Diffusion 的 Core ML 的优化,以及开始部署到苹果设备的代码...
Stable Diffusion 在任何应用程序中的一个关键问题是模型在哪里运行,在应用程序中,相比于基于服务器的方法,在设备上部署 Stable Diffusion 模型更有优势,原因有三条:首先,这能够更好地保护终端用户的隐私,因为用户向模型输入的任何数据都会留在用户的设备上;其次,在初始下载后,用户不需要互联网连接就可以使用该模型;最后,在本地部署这个模型使开发者能够减少或消除他们的服务器相关成本...
为 Stable Diffusion 优化 Core ML 并简化模型转换,使开发者更容易以保护隐私和经济可行的方式将这项技术纳入他们的应用程序,同时在苹果设备上获得最佳性能。该版本包括一个 Python 包,用于使用 diffusers 和 coremltools 将 Stable Diffusion 模型从 PyTorch 转换到 Core ML,以及一个 Swift 包,用于部署这些模型。
值得注意的是,这一宣布分为两部分:首先,苹果对开源模型 Stable Diffusion 模型本身进行了优化;其次,苹果更新了其操作系统,并针对苹果自己的芯片进行了调整。
此外,似乎可以假设这只是一个开始:虽然苹果多年来一直在自己的芯片上搭载所谓的 "神经网络引擎",但这种人工智能专用硬件是根据苹果自己的需求调整的,似乎未来的苹果芯片(如果不是今年,可能是明年)也会为 Stable Diffusion 进行调整。同时,"Stable Diffusion" 本身也可以内置于苹果的操作系统中,任何应用程序的开发者都可以很容易地获得 API。
这就带来了这样的前景:"足够好 "的图像生成能力将有效地内置到苹果的设备中,因此任何开发者都可以使用,而不需要像病毒式流行的 Lensa(Lensa 是一个多合一的图像编辑应用程序) 那样需要忙着扩大后端服务器的规模,最终赢家看起来像 App Store,苹果公司赢在生态优势,而小型独立应用程序制造商则拥有 API 和分销渠道来建立新的业务。
另一方面,输家将是像 Dall-E 或 MidJourney 这样的集中式图像生成服务,以及支撑它们的云供应商(以及迄今为止支撑上述 Lensa 等 Stable Diffusion 应用程序的云供应商)。虽然 Dall-E 和 MidJourney 都比 Stable Diffusion "好",至少在我的估计中是这样,苹果设备上的 Stable Diffusion 不会占领整个市场,但内置的本地能力将影响集中式服务和集中式计算的最终可处理市场。
02.
亚马逊
在图像和文本生成这样的 C 端场景中,亚马逊的优势似乎不太明显,重要的是 AWS,它可以在云中出售 GPU 的算力。
其中一些用于训练,包括 Stable Diffusion, 根据 Stability AI 的创始人兼首席执行官 Emad Mostaque 的说法 ,该公司使用了 256 台 Nvidia A100,所有显卡总计耗时 15 万小时,市场价格为 60 万美元(这是个令人惊讶的低价),不过,更大的需求是推理,即实际应用模型来产生图像(或文本,在 ChatGPT 的情况下),每次你在 MidJourney 中生成图像,或在 Lensa 中生成头像时,推理都是在云端的 GPU 上运行。
目前英伟达 80GB 显存的 A100 显卡售价约 1.7 万美元,每张卡在云计算平台租用约为 4 美元/小时。
Stable Diffusion 需要 256 张 A100 训练,约 24 天,并向 AWS 支付 15 万小时的价格,相比于动辄千亿参数几百上千万美元开销的语言生成模型,的确是很低的价格。
在过去两年半里,类似 GPT-3 等模型的训练成本下降了 80% 以上,目前仅需要 140 万美元(首次训练开销约为 1200 亿美元),高性能大语言模型的训练成本将进一步降低。
亚马逊在这一领域的前景将取决于若干因素:首先最明显的是这些产品最终在现实世界中的实用性如何,除此之外,苹果直接在终端生成 AI 也会对亚马逊产生重大影响。好在亚马逊本身就是一个芯片制造商:虽然它迄今为止的大部分努力都集中在其 Graviton CPU 上,但它可以为 Stable Diffusion 等模型建立的专用硬件,并在价格上竞争,同时 AWS 和 Nvidia 建立了良好的合作伙伴关系。
AWS Graviton 是由 AWS 设计的基于 ARM 架构的 64 位CPU。第一代于 2018 年推出的,第二代产品于2019年12月推出,已在AWS EC2 实例中得到广泛应用,产品目前已迭代至第三代。
AWS 与 NVIDIA 已合作超过 10 年,提供基于 GPU 的解决方案,从云(使用 NVIDIA GPU 支持的 Amazon EC2 实例)到边缘(使用部署了 NVIDIA Jetson Nano 模块的 AWS IoT Greengrass 之类的服务)不等。
亚马逊的短期大问题将是对于需求的衡量:他们目前没有足够的 GPU 满足客户的计算需求,但如果购买太多闲置的 GPU ,又会大大提高公司的运营成本。
更有挑战的是:人工智能的挑战之一是推理要花钱,换句话说,不同于传统软件,用人工智能做东西有边际成本。
我认为在开发人工智能产品时边际成本问题被大大低估了。
虽然云服务一直都有成本,但 AIGC 可能会使它难以实现 product-market fit ,我并不认为 ChatGPT 对终端用户是免费的,并可以由 OpenAI 的一家公司提供,实际上背后还有 Azure 的支持,OpenAI 不仅建立了自己的模型,还与微软达成了计算能力的优惠协议,这并不是一个偶然,长远来看,或许 AWS 不得不廉价出售 GPU 算力,才会刺激更加繁荣的生成式应用。
当然,随着时间的推移,这些成本应该会下降:模型会随着芯片的进步变得更有效,而市场上需求的繁荣会给云服务带来应有的规模回报。不过,除了上述苹果在设备端推理的可能性之外,AWS 长期同样会受到全栈集成的模型供应商的影响,这一切都是不确定的。
对于模型供应商而言,AI 计算的需求不同于传统上所说的“云计算”:AI 训练一般会占满物理机,并不要求特别强的虚拟化,需要更高的性能和带宽,同时很多任务是离线的。
换言之,对于以 Midjourney 为代表的既自己训练模型又直接面向用户的公司,未来未必会选择公有云平台,同时 AWS 在 AI 云计算方面能力并不领先于微软云和谷歌云。
03.
Meta
在 Meta Myth 中,我详细说明了为什么对 Meta 来说,人工智能是一个巨大的机会,值得该公司巨额投资:
Meta 有巨大的数据中心,但主要是 CPU 集群,用来支撑 Meta 基于确定性的广告模型和网络内容推荐算法业务。
不过,ATT(苹果的透明跟踪技术)的长期解决方案是建立概率模型,不仅要弄清楚客户目标,还要了解哪些广告转化了,哪些没有。这些概率模型将由大规模的 GPU 数据中心建立,一张 Nvidia 显卡成本为五位数,如果是过去那样的确定性的广告模型,Meta 并不需要投资更多的 GPU ,但技术在进步,Meta 需要面对全新的时代,在客户定位和转化率层面投入更多。
此外,基于概率模型的算法对网络飞轮的持续增长至关重要:从互联网中推荐内容比只从你的朋友和家人那里推荐内容要困难许多,特别 Meta 打算不仅推荐视频,还推荐所有类型的媒体,并将其与你关心的内容穿插在一起,这种情况下,人工智能模型也将是关键,而建立这些模型需要花费大量资金购买设备。
长远看,关于显卡的投资能得到丰富回报:首先,更精准的客群定位和转化率可以帮助 Meta 重启收入增长,其次,一旦这些人工智能数据中心建成,后续只需要支付维护和升级成本,这远低于其建造成本;第三,这种大规模投资是其他竞争对手无法做到的,除了谷歌(不巧的是,谷歌的资本支出也将上升)。
ATT(苹果的透明跟踪技术) 对 Meta 的伤害比任何其他公司都大,因为后者是美国市场投放第一大平台,但从长远来看,它会加深 Meta 的护城河:自建 AI 数据中心这种水平的投资对于像 Snap 或 Twitter 或数字广告领域的任何失败的竞争者来说根本不可行,一方面是 Meta 的广告算法水平会和其他竞争对手(谷歌除外)拉开差距,另一方面是由于自建数据中心它的费用又可以大大降低,到最后广告商往往别无他选。
2021年 4 月 26 日,苹果“应用追踪透明” (App Tracking Transparency,简称 ATT) 隐私采集许可新政正式实施,用户可以有权利自主选择是否被应用开发者追踪的自主权利,即模糊归因了广告的投放效果。
在 ATT 之前, 可以从内部收集数据广告商的应用和网站,非常确定哪些广告导致了哪些结果。这反过来又让广告商有信心在广告上花钱,不在乎成本投入,而是着眼于可以产生多少收入。ATT 切断了 Meta 广告与转化之间的联系,将后者标记为第三方数据并因此进行跟踪。这不仅降低了公司广告的价值,还增加了广告转化的不确定性。
苹果政策发布当日,Facebook 股价应声下跌 4.6%。
让 Meta 的人工智能发挥作用的一个重要因素,不是简单地建立基础模型,而是不断地针对个别用户进行调整,这是最复杂的一部分,Meta 必须弄清怎么低成本地提供个性化用户服务,同时 Meta 的产品也愈发集成化,它们不仅宣布自研 VR 设备芯片, 还打算自研服务器芯片,并发布上层 AI 软件工具以简化 Nvidia 、AMD 芯片之间的切换,同时也在开发自己的 AI 芯片。
长远来看,虽然 Meta 之前投资人工智能的主线是个性化推荐,但这些与生成模型 2022 年的突破相结合,最终归宿是个性化内容,这些内容将会通过 Meta 的渠道。 正如萨姆-莱辛(Sam Lessin)曾说:算法的终局是 AIGC,我在谈到 Metaverse 时也表达了类似的观点。
目前,看 Meta 的广告工具如何发展将很有趣:生成模型和 A/B 测试的整个过程都可以由人工智能完成,在大规模提供这类能力方面,Meta 是领导者。从业务角度来说,Meta 的广告更侧重于吸引消费者的眼球,更追求浏览量而非高效地转化,这也意味着有很多迭代的空间,也很方便人工智能技术切入,纵然上文提到第一代人工智能产品可能有边际成本,但这些成本已经远低于人类。
Meta 从 2013 年便开始大规模投入 AI 研究,由神经网络提出者 Yann LeCun 主导成立的 FAIR,在很长一段时间里和 DeepMind、OpenAI 并肩走在时代前列,2022年1月,FAIR 并入 Reality lab 成为下属子部门。
近一年 Meta 在生成模型层面进展加速:
• 2022年 1 月发布语音生成模型 Data2vec,该模型可以以相同的方式学习语音,视觉和文本,并于2022 年发布 Data2Vec2.0,大大提高了其训练和推理速度;
• 2022年 5 月发布开源的语言生成模型 OPT(Open Pre-trained Transformer),同 GPT3 一样使用了 1750 亿参数,并于2022年 12月 发布其更新版本 OPT-IML,还将为非商业研究用途免费开放;
• 2022年 7 月发布图片生成模型 Make-A-Scene;
• 2022年 9 月发布视频生成模型 Make-A-Video;
• 2023年 1 月发布首个 4D 场景生成模型 Make-A-Video3D,直接从文本描述中生成 3D 动态场景;
在 2022 财年报告上,扎克伯格说,Meta计划将新技术集成到几乎所有产品中,例如生成图像,视频,头像和 3D 资产,营销人员可以使用生成式人工智能来帮助他们的付费帖子提供书面副本或创建图像和视频,从 2022 年 Q3 季度财报至今,Meta 股价已经翻了一番(如下图所示):
04.
谷歌
《创新者的窘境》出版于 1997 年,当年柯达的股票达到了 94.25 美元的最高价,从技术看起来十分合理:柯达公司不仅主导了胶片技术,还发明了下一个浪潮产品:数码相机;但问题出在了商业端:卤化银胶片利润率非常高,让柯达赚了很多钱,但数码相机不需要胶片。当年柯达的管理层非常有动力说服自己:数码相机永远只适合业余爱好者,还需要等它们成本降下来,这需要很长的时间。
其实柯达的管理层是对的:从数码相机的发明到数码相机的销售超过胶片相机的销售,花了 25 年多的时间;而数码相机在专业领域的应用,则花了更长的时间。在此期间,柯达赚了很多钱,并支付了数十亿美元的分红,虽然该公司在 2012 年破产,但这是因为消费者有机会获得更好的产品:首先是数码相机,最后是内置相机的手机。
除了这种快乐的结局,还有另一种相反的观点:大多数人认为柯达是一个失败,因为我们期望公司能够永远活着。在这种观点中,柯达是一个警示,说明一个创新的公司如何因为商业模式导致最终灭亡,即使消费者在公司覆灭的过程中得到更好的东西。
因此,今天看谷歌和人工智能,谷歌发明了 Transformer 模型,这是支撑大模型浪潮的关键技术。据传闻,谷歌有一款对话聊天产品,效果远优于 ChatGPT,同时谷歌声称其图像生成能力比 Dall-E 或市场上的任何其他人都要好,然而,这些都只是说法,市场上没有见到实际产品。
2022 年 12 月,谷歌 CEO 宣布内部拉响“红色警报”以应对来自 Chat GPT 的挑战,2023 年 1 月 21 日,纽约时报报道已经退出日常工作的谷歌创始人 Larry Page 和 Sergey Brin 受现任 CEO 邀请回公司参加 AI 战略和产品会议,总共约 20 个项目将在 23 年推出。
2023 年 2 月 6 日谷歌母公司 Alphabet 的首席执行官桑达尔·皮查伊发文称,该公司将推出一项名为 Bard 的对话式人工智能服务,Bard 将由谷歌开发的大型语言模型 LaMDA 驱动。22 年 5 月时,一名谷歌软件工程师公开宣称这一人工智能是“有感知力的”,这一引发争议的说法后来受到了审查。
从技术储备层面讲,谷歌是领先于 OpenAI 的,只不过很多前沿进展没有和业务结合:
• 生成模型端:
▫ 对话模型 LaMDA;
▫ 目前最大的参数量(5400亿)通用语言生成模型 PaLM;
Ⅰ. 2022年8月,PaLM-saycan,具身机器人,基于机器人动作序列数据集;
Ⅱ. 2022年12月,Med-PaLM,医疗机器人,基于医疗领域数据集;
Ⅲ.(正在开发)PaLM-Coder 2,代码生成工具;
▫ 图像生成模型 Imagen;
▫ 音乐生成模型 MusicLM。
• AI 系统端:
▫ 大模型训练系统 Pathway 平台;
▫ 自研 Tensorflow 和 Jax 框架;
▫ 谷歌云和 TPU 芯片。
同时 Google 于 2022 年底向 OpenAI 竞争对手 Anthropic 投资 3 亿美元,投资条款类似微软投资 OpenAI,包括要求 Anthropic 使用谷歌云的算力,以及从 Pytorch 切换至 JAX 框架。Anthropic 团队主要来自 OpenAI,自称“是一家人工智能安全和研究公司,致力于构建可靠、可解释和可操纵的人工智能系统”,近期内测了一款名为 Claude 的智能聊天机器人,据称在多项指标上优于 Chat GPT。
2 月 8 日,谷歌在 Google presents : Live from Paris 大会上首次展出 Bard ,但整场发布会没有过多关于 Bard 的内容,还在展示的 Demo 中犯了事实性错误,当日股价下跌 3%,作为对比,微软股价上涨 6% 。
长期以来,谷歌一直是 AI 领域的领导者,他们使用机器学习技术不断优化搜索产品和其他消费者服务产品,并通过谷歌云将该技术作为一项服务提供。不过,搜索一直依赖于人类作为最终的仲裁者,谷歌只提供链接,最后需要通过用户选择正确的链接,这也延伸到了广告。在二十年前,谷歌的服务是革命性的,它首创了依据点击量收费的商业模式,颠覆了传统的只依靠模糊印象的品牌性广告投放方式。
2015 年,我在《谷歌和战略的局限性》一文中写到了这对谷歌在人工智能世界中的业务带来的难题:
在昨天的主题演讲中,谷歌首席执行官桑达尔-皮查伊 (Sundar Pichai) 在回顾了 PC -网络-移动时代的科技历史之后,宣布我们正在从一个 Mobile-first 的世界转向 AI-first 的世界,顺势推出了谷歌助理。
一年以后苹果 iOS 6 则首次以 Siri 的名义引入了助手的概念,你第一次可以(理论上)通过语音进行计算,起初它的效果并不好(可以说现在也是如此),但它对计算机和谷歌的具体影响是深远的:语音交互扩大了计算的范围,尽管有一定限制,但它把你的眼睛和双手从设备中解放出来。AI 助手必须比搜索结果页面更加积极主动,仅仅提供可能的答案是不够的,相反,它们需要给出正确答案。
这是谷歌技术的一个可喜的转变,从一开始,搜索引擎就包括一个 "我感觉很幸运 "的按钮,谷歌创始人拉里-佩奇对搜索引擎能够提供你想要的确切结果如此有信心,虽然昨天的谷歌助理演示是有剧本的,但它在涉及上下文感知时候,比市场上的其他助理更惊艳,延申开来,当涉及到作为其助手基础的 AI 技术时,谷歌是公认的领导者。
不过,一个企业不仅仅是技术问题,特别是在涉及到 AI 助手时,谷歌有两个重大缺陷:首先,该公司缺少一个终端的入口 :助手只有在可用的情况下才有用,对于数以亿计的 iOS 用户来说,这意味着下载和使用一个单独的应用程序(或者建立像 Facebook 那样的体验,用户会愿意花大量的时间)。其次,如果用户不必从搜索结果中进行选择,便没有机会点击广告,这对于 Google 现有商业模式有很大冲击。
当年那篇文章结论导向谷歌助理将集成入谷歌手机作为独家入口,现在看是错的,但基本的分析仍然有效。在过去七年里,谷歌的主要商业模式创新是将更多的广告塞进搜索中,这在移动端尤其有效。而且坦率地说,谷歌挣钱最多的那种搜索:旅游、保险等,都不太适合聊天界面。
所以谷歌的管理层可能需要越来越担心,在特定的搜索场景中,生成式 AI 代表的是颠覆式创新而非渐进式创新。而在开始的时候,颠覆性创新往往不如现有的产品好,所以它很容易被谷歌的经理们驳回,来避免思考商业模式的挑战。但颠覆性的产品注定会变得更好,同样的当前产品会变得越来越臃肿和难以使用,听起来好像谷歌搜索目前的轨迹。
我没有说谷歌注定会衰落,我以前也这么说过,但错得离谱,谷歌也有它的云计算,YouTube 的主导地位依旧在强化,但搜索业务似乎已经抵达巅峰似乎很清楚,即使多年来它保持着丰沛的现金流,贡献了海量利润。
05.
微软
微软似乎是所有公司中生态位最好的,像 AWS 一样,它有一个销售 GPU 的云服务,它也是 OpenAI 的独家云供应商,这些投资都是令人难以置信的昂贵 ,但鉴于 OpenAI 似乎有成为这个时代最强人工智能公司的潜质,所以这些基础设施的投入都是值得的。
• 2019 年,微软向 OpenAI 投资 10 亿美元,其中包括要求其云计算平台从谷歌云迁移至 Azure,这十亿美元很大一部分是以云计算积分形式进行,根据 The Information 查看的数据,
公司在截至 2019 年年中的财年中,即在获得微软投资之前的一整年中,在微软产品上花费了 84.5 万美元,在微软投资后的第一个完整年度,OpenAI 在扣除信用额度后仅大约花费了 5.2 万美元。
• 2022年,微软计划对 OpenAI 追加 100 亿美元的投资,这笔资金还包括其它风险投资机构:
▫ 投资后微软将获得 OpenAI 的 75% 利润,直到它收回投资,在这之后微软将获得 OpenAI 49%,其他投资者获得另外 49% 的股份,OpenAI 的非营利性母公司获得 2% 的股份。
▫ 盈利后的 OpenAI 的利润分配将按照以下四个阶段进行:
第—阶段将优先保证埃隆马斯克、彼得泰尔、雷德霍夫曼等首批投资者收回初始资本;
在第二阶段,微软将有权获得 OpenAl 的利润,直至收回其 130 亿美元投资;
第三阶段,在 OpenAI 的利润达到 920 亿美元后,微软在该公司的持股比例将下降到 49% , 剩余 49% 的利润由其他风险投资者和 OpenAI 的员工分享;
第四阶段,在利润达到 1,500 亿美元后,微软和其他风险投资者的股份将无偿转让给 OpenAI 的非营利基金。
与此同时,Bing 就像 iPhone 前夕的 Mac 一样:它确实贡献了相当多的收入,但这些只占了微软整体份额的一小部分。而 Bing 搜索引擎与 Chat GPT 的结合,从搜索引擎的视角看是一个比较有风险的商业模式,但这样一个挑战 Google 的机会,值得一搏。
2023 年 2 月 8 日,微软发布 GPT-4 支持的 Bing 和 Edge 浏览器,新版 Bing 除了传统搜索展示的网页链接,还会在网页右侧直接给出答案。
CEO 萨提亚·纳德拉在发布会后的一场专访上对媒体表示,自十五年前的云计算浪潮之后,AI 是少有的能让他如此兴奋的新技术。他还强调,AI 加持的搜索引擎,是他在任 CEO 9 年来微软公司“最重要的产品”。
关于搜索成本的计算:
• 理论层面目前推算单次搜索成本为 0.5 美分,谷歌日均 10 亿次搜索,目前市场占有率 91%,引入聊天机器人后可能会使成本提高 1-2 倍,大概占 Google 年营收 15%--25%;
• 未来通过模型蒸馏、系统优化、芯片提升等三个维度的技术进步,该成本有望每半年下降一半以上;
• 但 Bing 本次的演示表明实际产品中的搜索成本并不是简单的一次搜索和一次生成的成本相加,而是有机的结合,具可靠信息:本次演示的 Bing 的搜索成本比 Google 高 2 个数量级。
同时, 来自 The Information 的最新报道称,GPT 最终将进入微软的生产力应用程序,代码生成工具 GitHub Copilot(它建立在 GPT 之上)的成功,让它找到了一个很好的创新点。
2023 年 2 月 2 日,微软 CEO 萨蒂亚·纳德拉(Satya Nadella)透露,计划将 ChatGPT 等人工智能工具整合到旗下所有的产品中,包括且不限于 Bing 搜索引擎、Office、Azure 云服务、Teams 等,并将其作为平台提供给其他企业使用。
未来我们可以享受的服务:
• 我们可以通过 VS code 订阅 Github Copliot 产品辅助编程;(VScode 和 Github 均为微软旗下产品);
• 可以使用集成了 ChatGPT 的搜索引擎;
• 在终端零成在本地享受集成了生成模型的 Windows 系统和 Office 套件;
• 可以在 Azure 云服务上调用 GPT 和 DALL-E 系列;
• 可以在 Teams 上享受 ChatGPT 助理的辅助办公。
重要的是,增加新的功能,与微软的订阅商业模式完全相符,令人感慨的是,这家公司曾被认为是颠覆式创新受害者的典型代表,但现在来看,它们反而借助颠覆式技术抵达了更高的平台。
过去十年微软的股价上涨 9 倍,标普 500 指数上涨约 4 倍,而曾经的颠覆式创新者 Google 上涨仅 4 倍。
06.
英伟达
最大的赢家可能是 Nvidia 和台积电,Nvidia 对 CUDA 生态系统的投资意味着该公司不仅拥有最好的人工智能芯片,还拥有最好的人工智能生态系统,它们目前正在投资扩大该生态系统的规模 。当然,这同样来自谷歌的 TPU 等内部芯片的竞争,不过,至少在可预见的未来,所有人都将在台积电制造他们的芯片。
英伟达数据中心的业务在 2023 年 Q1 正式超越游戏业务成为第一大业务,据其 2023 财年第三季度财报显示:数据中心业务同比增长 31% 达到 38 亿美元,而游戏业务收入下降 51% 至 16 亿美元;
目前在数据中心 GPU 领域,英伟达垄断地位甚至强于消费端:
• 市占率常年稳定在 80% 附近,据 Top500.Org 数据显示:英伟达 GPU 产品在全球 Top 500 超算中心的渗透率逐年提高,由 2013H1 的 72.2% 提升至 2021H2 的 90.3%,研究文献中引用英伟达 GPU 的次数是顶级AI芯片初创公司总和的 90 倍;
• 同时其 CUDA 生态开发开发者在过去两年翻了三倍到接近 350 万,形成了强大的软件生态护城河,并不会担心来自谷歌 TPU 等专用 ASIC 芯片的竞争;
• 目前人工智能领域的算力需求约每 3.5 个月翻一倍,导致其芯片常年供不应求,即使最新一代 H100 芯片已经发布,上一代芯片 A100 市场价较发布初期依旧有所上涨,这在硬件端是极不寻常的事情;
• 继摩尔定律后,英伟达 CEO 黄仁勋提出黄氏定律:每 12 个月 GPU 性能翻一倍,且不受物理制程约束。
不过,摩根斯坦利最近的报告认为:
长期训练用硬件的增长速度会比较平稳,正在开发的语言模型大小预计不会更快增长。
另外,推理成本是一个高估的数字,市面上的计算都是基于 A100 的成本进行推测,但 A100 不是推理专用芯片。Azure 在云产品中建议推理工作应该运行在 Nvidia T4 上,硬件成本比 A100 低 80%,功率效率更高,所以预计每次推理成本未来会迅速降低。
由于英伟达没有在推理端垄断,这指向了一个新的兵家必争之地——更具性价比的新型架构 AI 推理芯片,AMD、Intel 和创业公司都有机会。推理市场可能比训练市场更具前景。
关于人工智能的潜在影响,还有很多东西要写,但这篇文章已经够长了,从新公司的角度来看,OpenAI 显然是最有趣的:OpenAI 有可能成为所有其他人工智能公司赖以生存的平台,这将最终意味着 OpenAI 之外的人工智能的经济价值可能相当有限。
还有另一种可能性,即除了图像生成之外,开源模型在文本生成领域也会激增,在这个世界上,人工智能成为一种基础设施:这可能是对世界影响最大的结果,但矛盾的是,对单个公司的影响很弱,所以我怀疑最大的机会将出现在那些最在乎确定性的行业:因为该行业的传统公司很难给予基于概率统计的人工智能技术以充足的投资,正如当年柯达不会给予基于数字图像的数码相机技术以充足的投资一样,但也同当年数字技术一样,人工智能技术在飞速发展。
最大的影响也可能是在我们的雷达之外, 纳特·弗里德曼在 Stratechery 采访中告诉我 Riffusion ,它使用 Stable Diffusion 法通过视觉声波图从文本中产生音乐,这让我想知道当图像真正普及开后还有什么可能。文本是通用的界面 ,因为自文字发明以来,文本一直是信息传递的基础,然而人类又是视觉动物,人工智能在图像的创造和解释方面的可用性可能会从根本上改变传递信息的方式,这也是无法预测的。
目前,我们的预测必须受到更多的时间限制,而且要适度,这或许是人工智能时代的开始,但即使在科技领域,时代也需要十年或更长时间来改变周围的一切。
Reference
1.原文链接:AI and the Big Five – Stratechery by Ben Thompson
https://stratechery.com/2023/ai-and-the-big-five/
2.《创新者的窘境》
http://claytonchristensen.com/books/the-innovators-dilemma/
3.广告业务的护城河
https://abovethecrowd.com/2011/03/24/freight-train-that-is-android/
4.《战略信条》
https://www.joelonsoftware.com/2002/06/12/strategy-letter-v/
5.Stable Diffusion 可在 Iphone 上运行
https://stratechery.com/2022/lensa-and-stable-diffusion-stable-diffusion-and-apple-silicon-open-questions/
6.苹果公司模型优化
https://machinelearning.apple.com/research/stable-diffusion-coreml-apple-silicon
7.Stability AI 的创始人兼首席执行官 Emad Mostaque 发言
https://twitter.com/EMostaque/status/1563870674111832066
8.Meta Myth
https://stratechery.com/2022/meta-myths/
9.自研 VR 设备芯片
https://stratechery.com/2022/metas-chip-decision-horizon-worlds-platform-fees-metas-missing-metaverse-strategy/
10.上层 AI 软件工具
https://www.reuters.com/technology/meta-launches-ai-software-tools-help-speed-up-work-blog-2022-10-03/
11.算法的终局是 AIGC
https://stratechery.com/2022/instagram-tiktok-and-the-three-trends/
12.Metaverse 访谈
https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/
13.谷歌和战略的局限性
https://stratechery.com/2016/google-and-the-limits-of-strategy/
14.谷歌的缺陷:终端入口
https://stratechery.com/2016/googles-go-to-market-gap/
15.谷歌的未来
https://stratechery.com/2014/peak-google/
https://stratechery.com/2019/the-google-squeeze/
16.微软独家云供应商
https://www.theinformation.com/articles/why-openai-spent-barely-a-dime-on-microsofts-cloud-after-1-billion-deal
17.The Information 最新报道
https://www.theinformation.com/articles/ghost-writer-microsoft-looks-to-add-openais-chatbot-technology-to-word-email
18.英伟达人工智能生态系统
https://stratechery.com/2022/nvidia-in-the-valley/
19.Top500.Org
20.纳特-弗里德曼在 Stratechery 的采访
https://stratechery.com/2022/an-interview-with-daniel-gross-and-nat-friedman-about-chatgpt-and-the-near-term-future-of-ai/
21.Riffusion
https://arstechnica.com/information-
technology/2022/12/riffusions-ai-generates-music-from-text-using-visual-sonograms/
22.文本是通用的界面
https://scale.com/blog/text-universal-interface
https://stratechery.com/2022/the-ai-unbundling/
23.其他参考链接
https://mp.weixin.qq.com/s/cvzlLPg0cNMtybvfbNqmSQ
https://stratechery.com/2023/ai-and-the-big-five/
https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/
https://sunyan.substack.com/p/the-economics-of-large-language-models
https://mp.weixin.qq.com/s/oM0V0MymMbanJddzABYDDQ
https://stratechery.com/2022/meta-myths/
https://aws.amazon.com/cn/free/machine-learning/
延伸阅读
Tecton:AI infra 领域的 Snowflake?
Anyscale:Databricks 创始人再下场,ML 领域最值得期待的公司?
AIGC 时代来临,探寻生产力新蓝海机遇|活动回顾
Descript:OpenAI投资,像编辑文档一样编辑音视频
Cresta:销售和客服的实时 AI 导师