AGI马拉松与大基建
今年年初,拾象科技 CEO 李广密和商业作者张小珺一起总结了 2023 年全球大模型竞赛,本篇内容是对 2024 Q1 全球大模型发展的复盘。2024 刚过去 1/3,大模型领域又快速开启了新一轮巨变:OpenAI 推出的 Sora 可以说“重新定义”了视频生成,Google 和 Elon Mush 的 xAI 加入“开源之战”,Anthropic 推出 Claude-3,就在上周,Meta 发布了 Llama-3。
对于现阶段 AI 的发展,我们选择将“AGI 大基建与马拉松”作为关键词。
“大基建”是指当下的状态:短视频的爆发建立在 4G 网络、智能手机的“基建之上”,电商的崛起离不开路网密度和物流服务提供的基础设施,同样,在进入 AGI 高速路之前,算力、新型的数据中心的投入也尤为关键。
“马拉松”则是指我们应如何看待 AGI 时间线:AGI 不是一蹴而就的,只有基建来了应用才能大爆发,AGI 目前才刚刚开始,参与 AGI 的正确姿势建立在对“渐进式的解锁模型能力”这件事的理解之上。
01.
AGI 马拉松:渐进式解锁模型能力
张小珺:从年初到现在, 先是 OpenAI 发布了 Sora, 接着 Google 和 Elon Musk 都加入了开源大战、 Anthropic 发布了 Claude 3,以及英伟达的 GTC ,这些事件都被冠以“科技界春晚”的头衔,有哪些是让你觉得很震惊的?你认为这些事件对于今年的 LLM 格局、以及更长时间维度的 AGI 演进分别有多大影响?
李广密:第一点是 GPT-4.5 和 GPT-5 比预期的来得慢,之前以为 Claude-3 发布之后 OpenAI 就会发新模型了,但现在 SOTA 模型已经易主一个月了,所以 AGI 的战线可能会被拉长。第二点是 Sora 比预期来的要早,这意味着今年大家对多模态的理解和生成的进步幅度都会很大,将会解锁很多新东西,但多模态能不能带来智能和 AGI 还是一个很强的非共识。第三点就是 Elon Musk 加入了开源,开源模型能力的水位线会被提升很多, xAI 的人才密度很强, GPU 也足,这会决定了很多后面模型公司的生死线。
当然还有一点就是英伟达的股价,去年这个时候预计会涨,但没想到能涨 3 倍这么多。大家都觉得 AGI 很大,但是还是低估了这个浪的大小。所以更加明显的一个感觉是英伟达还是这轮 AGI 最关键的一环,短期老黄可能是比 Sam 要重要的。
张小珺:Elon Musk 和 Google 都加入了开源,你怎么看 Google 的开源?
李广密:Google 现在发的还是小模型,我感觉他们不会把最强的模型发出来。开源的主力可能还是 xAI 和 LLaMa。我比较担忧的是,随着开源模型的不断发展,它们可能会削弱许多闭源模型的商业价值。但是从另一方面来说,最强的闭源模型的优化能力是很强的,我相信最强的模型不仅能力最强,而且成本最低。当然开源模型也有开源模型的好处,很多人拿它来方便自己使用,所以未来它还是会覆盖很多企业内需求场景的。
张小珺:怎么理解“开源模型会打掉闭源模型的商业价值”这句话?更早之前你说过闭源会比开源强很多,为什么会产生这样的认知变化?
李广密:如果我们把 GPT-3.5 水平的模型开源了,那大家就不一定会再去调 GPT-3.5 的 API,OpenAI 作为最强闭源模型的商业价值就会有所下降。如果没有开源模型,大家就只能去选最强模型公司的 API 了。
闭源模型还是会比最强的开源模型强很多,因为后面还涉及比较复杂的推理,如果模型多步推理的准确性很差,就无法完成有经济价值的任务。但开源模型还是可以完成很多简单任务的,所以开源的价值仍旧存在。其实大家现在都不确定 Elon Musk 的 xAI 会不会持续开源,如果它持续开源,开源模型的水位还是会比较高的。
张小珺:你怎么看“多模态能否带来更高的智能”这个问题?多模态能通向 AGI 吗?
李广密:今天多模态有几层作用:第一层是文本数据不够用了,可以补充文本数据;第二层是理解能力变强,这会对用户体验有很大的影响;第三层是生成,包括视频在内生成的效果今年也会大幅提升。但是多模态的数据对模型的推理能力有没有大幅提升,以及这是不是 AGI 的主线,我们还没有得到验证。至于 Sora 到底是不是 AGI 的主线,这一点见仁见智,很难定义清楚。
张小珺:相比去年底,今年的第一个季度有没有什么让你感觉明显不同的地方?
李广密:去年初觉得 AGI 是一个百米冲刺,大家都没做好准备,今年觉得 AGI 应该是马拉松,大家都有充足的时间做准备。去年觉得只要无限地加 GPU、加数据就能到达 AGI,但今年突然发现 GPU 的数据中心和物理硬件是一个很大的瓶颈,比如单体的数据中心现在加到 3.2 万卡,可能再往上就要突破很多。除此以外,美国的能源基建其实都是四五十年前规划的了,能源结构也很不同,突然新增了很多用电量,确实是跟不上了。今年最大的一个感受就是物理硬件成为阻碍 AGI 实现的最大因素了。
张小珺:Elon Musk 和 Google 都加入了开源,你怎么看 Google 的开源?
李广密:OpenAI、Anthropic、Google 还是明确的第一梯队。
Elon Musk 的 xAI、欧洲的 Mistral、Meta 的 LLaMa 是比较明确的第二梯队。其中 xAI 机会最大,xAI 有两个层面:第一个层面是它是全球范围内冲击新的第一梯队的唯一黑马;第二个层面是如果持续开源,那么它会对整个模型的格局、生态和商业价值有比较大的影响。但第二梯队的关键都在于他们能否在今年夏天或者今年年底前做出 GPT-4 水平的模型。
再往后看,其实 Inflection 现在已经掉队出局,今年 Character.ai 和 Cohere 的挑战也很大,可能今年年内就得找买家了。
训练一个 GPT-4 水平的模型是很难的,其实很多人还没有真正开始规划 GPT-4,没开始训练。
张小珺:怎么看 Inflection?有人说它是第一个失败的 VC 重注的大模型公司。
李广密:没想到模型收敛如此之快,计算竞争是很残酷的。我最大的感受是,其实大模型 VC 是投不动的,这还是一个巨头的游戏,而 Inflection 是没有绑定一个更深的巨头的。另外一个感受就是,我们还是要看人才密度,OpenAI、Anthropic、Google 和 xAI 的人才密度明显比其他公司要高一截。
张小珺:硅谷的 VC 现在都在投些什么?他们去年在 AI 上投入大吗?今年是更激进了还是更保守了?
李广密:硅谷 VC 投资主题好像是三大件:Coding、agent、机器人。不过我对这三大件还是有很大怀疑的。Coding 一定是在大模型公司和微软的核心射程以内的,因为核心能力都是来自模型公司,这些 coding 的创业公司不会训练自己的大模型,我不确定上面优化层的价值有多大。
另外,模型公司可能会很激进地做 agent,因为这个附加值高。模型即能力,模型即应用,模型即 agent。整个价值沉淀我倾向于短期内还是模型本身。Cognition 和 Magic 在没有收入、没有客户的情况下就有两个 billion 的估值了,说明硅谷的对 Coding 的 hype 还是比较高的。机器人现在是很多 researcher 创业的首选,因为比较容易讲故事,觉得未来会有一个 embodied OpenAI。OpenAI 最近也投了几家机器人,也许一个好的 timing 就得 bet 对一个比较强的团队,核心是未来能不能融更多的钱,以及让核心的 researcher 更收敛。我觉得投资节奏整体正常,就是有一定的 hype,估值比较贵。
张小珺:今天的融资单位已经变成了 billion 级别,中国和美国的商业历史上出现过类似的情况吗?
李广密:这也是为什么我们把 AGI 比作大基建。其实中国做过很多类似的事情,比如公路建设、电信 5G 的建设、包括城市化建设,其实有了这些也才有短视频、直播、外卖,这些建设投入是远超 billion 甚至 trillion 级别的基建投入,电商物流建设也是巨大的投入。
今天的 AI 投算力、投新型的数据中心,就是处在一个大基建的状态。这件事其实是一直在发生的,就像美国很早的时候就有曼哈顿计划造出原子弹,但更重要的是整个计算机体系是在那诞生的。再后来美国登月,美国登月最大的意义在于把电子产品微型化,才有了个人电脑。1993 年克林顿推出美国的信息高速公路建设计划,并投入了 GDP 的 5%,才有了后面的美国互联网黄金的 20 年。这些都是跟基建有关的,如果没有基建就没法谈应用大爆发了。
张小珺:更长远一点来看, AGI 对于人类社会可预见的变化在多长的时间维度中能有多大?这波浪潮中诞生的巨头会比互联网时代更庞大吗?
李广密:首先, AGI 不完全是一个商业问题,而是一个科学发现问题,它背后是永无止境的研究精神、发现精神、探索一些新的能力。抽象中总结,这就是用能源加芯片产出智能,未来就看这个智能的产出效率和能力到底有多高。那智能该如何定价?我比较相信的就是科技进步还是创造增量价值最大的一个要素,历史上好像每一波技术变革的头部公司都比上一波要加一个 0。之前人们觉得做 VC 投到一个独角兽就很牛,但今天好像融资单位就以 billion 为单位了,钱也毛了。我有一个比较切实的体会就是,2010 年时苹果也才 2000 多亿美金,那时我们不会想象到全球还会有万亿美金的公司。2016 年时,我们看英伟达从 200 亿美金涨到了千亿美金,我们更不会想象今天它还能那么大,这就回到了今天 AI 领域最大的一个非共识,也就是不知道 AGI 有多大。英伟达有很大概率在这一两年内登顶全球最大公司,而且它长期的体量也可能超出我们预先估计,GPU 太重要了。
从另一方面来说,这个比互联网时代的巨头要不要大?这一点跟 GDP 直接挂钩,未来你能渗透到全球 GDP 的占比,直接 take rate,这是比较高的。另外一个算法,如果你能造出来全球 3 亿白领,每个白领年薪 3 万多美金,这也是 10 万亿级别的收入,如果要对应到 market cap 那就还要乘 10。
02.
登顶 AGI :南坡模型,北坡产品
张小珺:对于 AGI 的定义业界现在有共识吗?
李广密:觉得对 AGI 的理解还没有共识,大家对这个概念的理解是因人而异的。可以从几个角度来定义:
第一种,也就是最激进的情况:AGI 能在 90% 的行业,超过 90% 的专家,完成 90% 有经济价值的工作,这三个 90% 还是很激进的。之前 Sam 也提过,不应该从替代人的角度去思考,而是在所有的工作任务当中,有多少需要 5 秒内就能完成的,这些肯定是模型第一波就能替代掉的。
第二个角度就是关于 AGI 什么问题最重要?其实还是智能能力本身。今天很多人讨论形态、载体,可能还不一定那么重要,但是我们肯定会从数字世界走向物理世界,那么思考物理的机器人和设备怎么把智能的能力产品化,就是创业者很大的机会。
另外一个我很强的感受是 AGI 不是一蹴而就的,我的一个关键词叫“渐进式解锁”,就是我们画一条登山的路线图,模型能力每长一些,就会解锁一些场景,诞生一些应用。那这个应用能创造出相应的经济价值。我听到最强的一个叙事是:AGI 能在未来 10-15 年让全球 GDP 翻倍,从今天的 100T 涨到 200T,但今天 100T 的 GDP 和这波 AGI 直接相关的可能还不到 0.1%,离解锁 90% 还很远。目前体现在写代码和信息检索的提高,往后 10 到 20 年可能就是个从今天只解锁 0.1% 到解锁 90% 的一个过程。
理解渐进式解锁这个关键词很重要,我们内部也一直在画一个路线图,包括未来 AGI 登顶的过程中所需要的东西。眼前我最期待的还是改变软件生产方式和信息检索这两个方向。
张小珺:可以给我们构建一下你眼中的AGI 关键路线登山图吗?
李广密:两面——南坡是模型,北坡是产品。
模型最底层的还是 scaling law,更多数据、更多 GPU、更多能源,就看产出智能的效率是不是能持续提高。模型最重要的能力还是推理能力,到未来模型必须具备复杂推理能力才能完成有经济价值的工作任务。我比较看重模型的代码能力,这可能是 AGI 最早落地的一个信号,它既是一个走向 AGI 的能力,也是一个产品改变软件生产方式。多模态能力也非常关键,它不仅能补充更多的数据、交互效率,而且有希望让多模态能力变强,对自动驾驶和机器人有提速作用。Agent 也是关键词,但今天 agent 还不太 work,最主要是模型的 reasoning 能力不够强、不够准确,现在模型很容易在多步或者几十步推理任务中失败。
另外一个观点是,模型公司就是 agent 公司,很多的 agent 大模型本身就会自己做,只是能不能做好的问题。接下来模型公司的一个大的附加值可能会体现在 agent 上,因为第一波叙事大家都讲了 scaling law,后面大家可能就会讲 agent,这是南坡模型能力相关的。
在北坡,产品上,就看接下来谁能做出来上亿活跃用户的 killer app,今天可能只有一个 ChatGPT,我是比较期待信息检索有大的变化的,因为之前的搜索结果都是链接和网页,现在搜出来是答案。未来还有多模态的搜索,甚至还有更多主动式的交互可能模型,能直接给人们推送他们潜在想要的。
从 ChatGPT 的用户增长角度来讲,ChatGPT 目前在 5000 万 DAU 横盘几个月了,如果要积极地做用户增长,它一定要做搜索才能突破到几个亿的活跃用户。这是过去 20 年里,唯一可能挑战 Google 的一个技术窗口,我今年也比较期待看 ChatGPT 能不能做好这个东西。
另外,我最好奇的一点就是,如果让模型看一万次苹果掉下来,它能不能发现万有引力定律?如果更充足的、更广的范围的数据灌进去,他们能不能发现人类没有发现的问题、没有发现的规律?这个有可能又是一个新的文艺复兴。
张小珺:模型和产品需要同一家公司来做吗?有没有可能一家公司爬南坡,一家公司爬北坡?
李广密:Sam 最新的访谈说 OpenAI 在做地球上最难的两个事,一个是做 AGI,一个是做 killer app。Anthropic 则是专注只做 AGI,它就没有在挑战另外一个。所以不一定非得在一个公司。
因为这件事其实对于组织能力、文化、人才和资源的挑战是很大的,需要极强的领导力和资源和组织能力。模型和产品的人才需求的画像非常不一样。从另外一个角度想,如果一个产品它在解决某项任务的时候能力不行,没办法向下去改模型,如果一个模型公司它发现某个任务、某一类任务解决不好,那它其实可以定向的改数据、调模型。这就是一个简单题和一个难题的问题,所以我还是相信模型公司做产品更容易,这是顺手的。相反,如果产品公司想去改模型,他们没有这方面人就改不了模型。
所以我有一个判断:模型公司有可能就是价值沉淀最后一个地方,就像移动互联网的价值沉淀到了设备厂商或者广告平台。模型的附加价值后面肯定是比较高的,一个是老黄的 GPU 收税,一个是模型收智能税。
张小珺:现在我们能看到两种做法:一种是专注于提升模型的能力,一心通往 AGI,并在这个过程中解锁应用;另一种是在做 AGI 的同时孵化应用,就像一个 APP 工厂。这两种你更看好哪一种?
李广密:我想举另外一个例子,SpaceX 的火箭发射能力是一个基础能力,但它的 killer app 是 Starlink。Starlink 现在已经部署了数百万个终端设备,每个设备带来都能为其带来可观的收入。如果没有火箭发射这个关键能力,Starlink 就无法将卫星送入太空,从而无法建立起全球网络覆盖。
另外 SpaceX 可能还能开发出另外一个 killer app,就是 Starship,想要去颠覆波音空客,就是未来上海到纽约两个小时,未来它可能还有更多的 killer app,它是一个关键能力。
但从另一个角度来说,如果大模型是电,那灯泡不一定是电厂做出来的。所以我们还在一个变化的过程当中,但我更倾向于大模型公司是一个基础发现的 research lab。有的 lab 可能有商业能力,会做出一些头部应用,但这比较考验组织能力。有可能头条这种公司或者中国的创业者比美国的 research lab 更强。
张小珺:OpenAI 开始更激进地做应用了,这意味着什么?
李广密:一边做科学发现,一边做商业化,要把这些可以发现的价值给接住,这个也很合理,也表明 OpenAI 也会和一部分创业公司去抢一些市场,毕竟还有很多垂直行业它也做不了。
假如我是 Sam,而 AGI 可能需要长达 10 年的时间,且每年都需要几个 billion 级、甚至 10 个 billion 级别美元的投入,我是需要商业化的,需要有不断的持续健康的现金流来支持 AGI 这件事。纯靠融资是很难融到那么多钱的,也不能只依赖微软。所以要健康的走向 AGI,这是一个比较关键的点。
张小珺:你觉得有什么是 OpenAI 公司做的?有什么他们一定不会做的?能不能预测一下 OpenAI 接下来都会做什么?
李广密:Sam 在自己最新的访谈中说 OpenAI 在做地球上最难的两件事:一个是做 AGI,一个是做超级应用。OpenAI 在 ToB 企业侧可能更难一些,因为企业客户还是一个讲信任的生意,现在绝大部分企业觉得把自己业务流程放到 GPT 上有点不放心,而且微软在企业的客户信任太深了,OpenAI 的 ToB 的价值有可能会被微软拿掉很大的一部分。
OpenAI 必须要做好的首先是模型最领先,二是把 ToC 这块做成一个流量入口。垂直领域它不一定会做,因为战线拉太宽了,但可能会持续加上垂直领域的数据,从而把一些 use case 给做得更好。我觉得不一定要让它去做法律、做金融、做教育,我比较关注 OpenAI 会不会做机器人。他们以前觉得做机器人太慢,但最近一年好像又投了 3 家机器人公司,现在还是一个扶持的状态。如果机会到了,它有可能会做机器人,因为机器人从数字世界走向物理世界,这对 AGI 比较关键的。
如果是我,我会先把 ChatGPT 从 5000 万的 DAU 做到 3 个亿,这有可能会对 Google 产生 fundamental 的影响,或者说这就多出来一个很大的增量价值了。因为 ChatGPT 现在还不到 1000 万的付费用户,如果做到 3000 万的付费用户,就是每年 60 亿美金的订阅收入,那就可以比较健康地支撑 AGI 每年的投入。
拿 Mega 7 来对比的话,OpenAI 很难跟微软去抢 ToB 的市场,很难跟英伟达去抢芯片的市场,更难跟 Apple 去抢终端市场。大概率 Google 是个软柿子,那就去抢信息检索的市场,这比较 make sense。以及谁的模型更领先。
张小珺:OpenAI 凭什么估值 1000 万亿美金?
李广密:可以把 OpenAI 看成微软的 AI 部门,微软因此涨了 1-1.5 万亿美元。Tesla 的 AI 业务可能都值 2-3 千亿美金。
张小珺:AGI 时代的 killer app 现在能看到一些模糊方向了吗?
李广密:Killer app不一定在以 APP 的形态出现,因为 APP 还是一个互联网的产物。也有可能就是更随时随地的一个 agent 或者 Multi model agent,更不一样的交互。比如信息检索就是一个潜在 killer app 的方向。现在我用 Claude 3 跟它灵感的激发 Brainstorm。
另外,软件的生产方式可能会发生很大变化。自然语言编程的前景确定性比较高,它可能使得每个人都能成为产品经理,只要有需求就能生成相应的软件。我比较期待 agent 今年能有 1-2 个比较好的 use case 出来。今天 agent 好像没什么 use case。
张小珺:为什么最期待改变软件生产方式和信息检索的这两个方向?它会颠覆 SaaS 行业和 Google 吗?
李广密:我们在 3 年内是有机会看到 coding 领域 AGI 的,也就是说做各种任务都不错的一个程序员,因为大部分的任务其实没有像软件开发这么明确和有逻辑,软件供给的方式会发生很大改变。
举一个最形象的例子,过去的软件其实很像自动贩卖机,只有有限的 SKU 供给,无法满足大量非标的需求。而未来的软件供给更偏向于酒吧的调酒师,可以调出人们想要任何口味,这个长尾需求是很大的。未来我们或许可以通过精准的自然语言描述、甚至简单的自然语言描述来进行软件开发。如果模型能用工具调用,就很好解决了。如果没有满足的工具,那模型 coding,甚至生成很复杂的一坨代码,自己 run code debug 会多出来很多软件程序。
这样的话,开发者或者产品经理就不是今天的几千万,而变成人人都是产品经理,这个是真的会实现的。最简单一个例子就是,现在人人都有有手机,可以用来拍短视频、拍电影,这在以前是不行的,这体现了 power 在变强。但我最担心的是,微软和 OpenAI 是很激进的,它们可能会把很多的工具型的或者 feature 型的 SaaS 都干掉,只有积累很深的 workflow 和数据的软件公司才能维持发展,比如 Salesforce 和 ServiceNow。
过去 20 年曾有无数对手挑战 Google,但它们都失败了,这很大程度上是因为没有 fundamental 的技术变革,但这一次大模型是给了大家机会的。另外一个点是,我们可以看到 Google 里面好多都是事实性的一些搜索、电商、旅游,去 YouTube 的网站,但其实有一类问题是没有回答好的,就是“问答”。问答可能是皇冠上的明珠,如果你能解决的非常好,其实用户信任和长期留存会是更好的,相对应,用户价值也会做出来。
张小珺:在这种情况下,你会给 SaaS 公司给出什么建议?它们需要做些什么?
李广密:只能积极拥抱,组织上多拥抱年轻人。以前软件开发的方式跟现在软件开发的方式有了 fundamental 的不同,因为以前是把固定的需求抽象出来、再交给开发团队去开发。今天它就是不确定的需求,你未来要用好模型的能力。
张小珺:现在问答难解决的主要是因为 hallucination 吗?
李广密:还是模型的智能水平不够。有一个例子,我经常问模型的一个问题是,“总结过去 5 年美国市场股票里涨幅最好的大体量公司的营收、利润等一些情况,再把这些信息拉一个表”,这是一个很简单的分析师的工作,但其实很少有模型能帮我弄好今天很多模型还做不到的,但未来是需要的,这就是任务,任务的价值会比搜出来网页链接的价值要大。
03.
AGI 大基建时间表
张小珺:我们现在把当下这个环境比作 AGI 的大基建时期,AGI 大基建现在的关键瓶颈在哪里?这些瓶颈是只要有时间就可以解决的吗?
李广密:目前瓶颈主要集中在算力和数据中心建设方面。即便拥有数万张 H100 高性能计算卡,也不一定能在三个月内投入实际使用。万卡集群的互联通信难度很大,对稳定性的要求极高,同时 GPU 数据中心的能耗问题和散热需求也不容忽视。
比特驱动的数字世界迭代是很快的,但原子驱动的物理世界迭代是跟不上的,这也是为什么我们提“大基建”的原因,很多年物理的机器是要很长周期的基建迭代去跟进的。因为历史上软件和硬件是交替发展的。比如硅谷的头 30 年就是计算的时代,后面的 20 年是互联网时代,今天可能又进入到了计算的时代。
但好在这些物理问题不是 research 层面的问题,是工程和基建的问题,是随着时间可以解决的。短期内,可能还是 GPU 产能,包括台积电,以及上游的 CoWos、HBM 这些。
张小珺:算力从千卡集群到万卡集群,再到现在 3 万卡集群中心,造价成本变了多少?难度有多大?
李广密:假设每张 H100 售价为 3 万美金,再考虑到必要的周边设备和网络互联等成本,整体支出可能会到 4 万多美金。如果以 8 千张计算卡来计算,总成本将超过 3 亿美金,3.2 万卡集群就意味着 12-13 亿美金。最难的还是资源越来越收敛,能够部署大规模集群的客户数量是很少的,可能最最终只会收敛到四五家大型客户:微软、 Meta、 AWS,xAI 可能也是一个。OpenAI 已经包含在微软那里了 OpenAI , Google 有自己的 TPU,它可以很大集群,就比较少了。
影响这一趋势的因素包括:首先需要找到适合建设 GPU 数据中心的合适土地,其次是稳定且成本较低的电力供应,再者是数据中心之间的互联通信、散热和运维的可靠性。
还是回到之前的问题,物理世界的基础设施改造相比数字世界的迭代更新要慢。物理世界的迭代受限于多种实际因素,如建设周期、成本投入和地理环境等,这些都使得物理基础设施的更新换代速度无法与数字技术的发展速度相匹配。
张小珺:训练出我们惯常说的 GPT-3.5 水平和 GPT-4 水平需要多大的算力和多少能源?
李广密:我们可以做个对比,三峡单日的最大发电量和上海日均用电量是差不多,都是 5 亿度,美国整个德克萨斯州的日均用电量应该是 10 亿度多一些。
如果我们假设 GPT-3.5 是 500 张 H100、训练了 15 天,大概用 25 万度电,其实就是三峡电量和上海用电量的 0.05%,也就是整个美国德州的 0.02%;
假设 GPT-4 用 8000 张 H100 训练 100 天,大概是 2600 万度电,那就需要三峡或上海一天的 5%,德州的 2%;
假设 GPT 5 用 3.2 万张 H100 训练 100 天的话,那其实就要 1.1 亿度电,大概是三峡或上海一天用电量的 20%,德州的 8%- 10%。这样算下来,每张 H100 租用成本最低约为 3-4 美金一个小时,大客户还能更便宜一些。
张小珺:Elon Mask 也提到了能源问题,10 万的 H100 意味着什么?
李广密:中美能源结构还是有很多不同的。10 万 H100 用电量一年大概是 12.4 亿度,大概是整个上海用电量的一年的 0.8%,大概对应美国整个德州的 0.3%。再拉长看一下,美国一年总用电量在过去 20 年里都是一直比较稳定的,大概都是 4 万亿度,其中数据中心可能用 2000 亿度,大概就是 5%。但媒体现在都预测,到 2028 年数据中心应用电会到 6700 亿度电,也就是说 5 年涨 3 倍,从 5% 增长到 16%。这其实对制造和基建能力明显退化的美国来讲是一个很大的挑战。
张小珺:能源转换效率是可量化的吗?
李广密:这就回到了 AGI 的本质,也就是通过电加芯片产出智能。今天我们面临的主要问题是怎么给智能定价。开车的话我们可以计算单位里程的能耗,但今天最主要的问题是没办法给智能定价,我也挺好奇未来怎么定价的。现在所有的 AI 产品都是 20 美元一个月,这种定价是 seats-based。我在想未来能不能实现 value-based 的模式,按照智能的 value 来 pricing。
张小珺:你的一个观点是“2024 年是大模型公司的收敛之年”,在这一年里,创业公司或者巨头要投入多少才能跨越生死线?
李广密:首先看未来 12 个月能不能有 10 万卡的 H100 集群,对应 30-50 亿美金的投入。计算竞争是很残酷,未来可能更残酷,每个时间段可能都会有出局的。今年必须得用上万卡集群了,但能做好万卡集群的公司还是比较少的。
技术上,今年的目标应该是超越 GPT-4 模型的水平。做到这一点需要有非常强大的团队支持,比如 Elon Musk 的 xAI 团队就很强。对于第二和第三梯队的模型公司,包括国内的模型公司,他们需要超越现有的最佳开源模型,不然商业价值也比较小。
张小珺:对于一家巨头或者一家创业公司来说,训练 GPT-4 需要多少钱?
李广密:一个 GPT-4 现在最低也要 8000 张 H100 的有效算力,接近一个万卡集群。万卡集群会是一个标配。如果是买卡的话,每张 H100 售价 3 万美金,再加上周边设备,3 亿美金是少不了的。3 亿美金是 GPT-4 的入场券。当然也可以租,如果租 H100 一年,并且折扣比较好的话,一万多美金一张卡,差不多 2 亿美金。
但今天万卡集群在中国还是比较少的,瓶颈不在钱上,如果要把每张卡都连起来,这种互联的难度其实是很难的,网络拓扑结构是很复杂的问题。
张小珺:在基建投入上,模型公司如果想跨越生死线,存在一个基本标准吗?
李广密:要看未来 12 个月能不能有 10 万张 H100 的集群,大概是 30-50 亿美金,这才是明年第一梯队模型的一个标配吧。计算就是很残酷的,未来可能更残酷,每个时间阶段都会有模型公司持续出局。
张小珺:大基建现在有哪些公司在投资?进展到什么程度了?
李广密:我们可以参考英伟达 GPU 出货量和 TPU 的出货量,或者计算台积电的产能。微软和 Meta 可能买走了 1/ 3 的 GPU 的数量,硅谷最大的几个生意第一波最受益的还是芯片,芯片里面最重要的还是英伟达和台积电。
第二波可能来自于广告平台。Meta 的广告收益转化效率正在提升,Google 的广告收益效率同样在增长。
第三波是云厂商,因为无论是芯片还是模型,都需要在云平台上运行,整个企业客户的继续上云的需求还是很强,云厂商有希望未来每年很长时间保持年化 15% 的复合增长。最后可能是两个终端,苹果和 Tesla,它们是大基建最重要的几个关键玩家。
张小珺:大模型对于英伟达和芯片的业务的影响有多大?
李广密:这个具体不知道,但我们可以看微软向 OpenAI 投资了 130 亿美金,大概可以买 30-40 万张卡,从另一个角度来看,另外一个角度我们还可以看英伟达今年的出货量,预计是 400 万片,并且假设 OpenAI 能够获得其中的 5%,那么它每年需要新增 20 万张卡。如果每张卡的成本是 3 万美金,再加上其他相关设备的费用,那么每张卡的总成本高达 5 万美金。这样算下来,OpenAI 每年在硬件上的新增投入可能要达到 100 亿美金。
这样算的话,OpenAI 手头的资金可能并不充足,他们可能还需要进行更大规模的融资活动。当然,也有可能 OpenAI 是通过租赁的方式来获取这些计算卡。如果每年租赁 H100 计算卡的费用仅为一万多美金,那么对于顶尖的 AGI 公司来说,他们每年至少需要几个 billion 的投入,并且这样的投入可能需要持续多年。
张小珺:你预期 AGI 基建的时间表是怎么样的?达到什么程度意味着基建完成了?
李广密:我最近的感受是 AGI 的时间表肯定拉长了。主要是去年太兴奋了,觉得两三年后我们就实现 AGI 了,但我现在觉得预期更长了,至少拉长到 3- 5 年,甚至 5- 10 年,当然也得动态的看,因为每个人对 AGI 定义不一样。
去年 OpenAI 连续发布了 ChatGPT、GPT-3.5 和 GPT-4 等模型,大家觉得节奏很快,但其实这些模型背后都是他们提前 train 好很久了,只是去年这个时间点才同时发出来。过去一年当中没有大幅超越 GPT-4 的模型出现,这说明训练大的模型还是很难的,它不仅是一个 AIML 数字化的问题,还是很多物理硬件问题。
H100 规模化的到货都是去年底了,而且数据中心建设都要几个月,还要把利用率提上去。人的预期可以飞得很快,但是物理世界是跟不上的。比如跑步,即使有意志力和体力跑马拉松,但是膝盖一个小环节跑不下去,人就跑不下去。膝盖的问题可能不是膝盖的问题,而是肌肉的问题,但肌肉的问题有可能是训练方式的问题。
所以我最近一个强烈感受就是, AGI 的时间表跟物理硬件机器的迭代高度相关,才能支撑数字世界持续迭代。大基建是看不到结束的那天的,过去几十年,半导体是很伟大的一个发明,而且这个趋势还会继续。
张小珺:大基建周期预计全球投入花多少钱?泡沫有多大?
李广密:预计到 2024 年,GPU 的产量将达到约 400 万片,到 2025 年可能会增长至超过 600 万片。未来每年复合增长可能都不低于 30%。再过三四年后,AI GPU 应该是一个3-4 千亿美元的产业规模,这里还不包含 Google 的 TPU 和 ASIC 芯片。
我觉得更值得提的是,美国的曼哈顿计划,现代电子技术的起点、还有太空竞赛,包括克林顿投入 5%-6% 的 GDP 去建的高速信息网络。中国过去一系列的基建,包括公路建设、5G 、城市化建设,催生了短视频、外卖、直播、电商。
基建来了应用才能大爆发,AGI 目前才刚开始,长期看不算泡沫。把钱交给最厉害的科学家,有时候一个新发现能带来很大的经济价值的突破,甚至社会价值。
张小珺:大基建其实会贯穿着整个通往 AGI 这条道路?而不是到一个某个时期就结束了?
李广密:首先计算的迭代可能停不下来。比如单颗芯片现在的摩尔定律还在提,依然没停下来,但进步速度变慢了。现在老黄又在提整个数据中心的摩尔定律,通过互联把整个数据中心变成一个大芯片,再用这种方式继续。还有另外一种是解决跨数据中心的效率提升。我觉得这个过程是停不下来的,如果非要说一个时间,可能 10-20 年就是一个大基建的周期。
张小珺:你觉得中国的 AGI 大基建和美国的 AGI 大基建两边的叙事差异是什么?
李广密:美国历史上还是有大航海发现精神,包括东岸登陆、开垦美洲大陆、曼哈顿计划等等,这是一个面对不确定性的乐观的冒险精神,最主要的原因还是资本和退出比较充足、富得早,有足够多的钱来支持 fundamental 0-1 的试错和发现。历史上很多 0- 1 的东西确实是美国搞出来,包括芯片、计算机、互联网,甚至是东岸地区的制药。他们的文化里面好像有一种重投入的传统。
但另外一个角度看,硅谷的 VC 几乎全线 miss 掉了大模型的投资,好像这些人对大型模型的理解还不够深入,全都是巨头在支持的。中国的 VC 好像更争气一些,投了国内的几家从 0-1 的大模型公司。这可能是因为硅谷的 VC 在过去对重资产项目的投资上吃过亏,比如他们也 miss 掉了 Tesla 或 SpaceX 这些公司。其实在这波 AGI 的浪潮之前,机器人在他们那边都属于一个边缘赛道,但现在是硅谷最火的赛道。
硅谷的 VC 喜欢“小钱办大事”,但我觉得这次的情况不一样,因为可能价值链是发生了一个大的变化,价值会沉淀在模型,那这里面可能大家都是要交学费的。
回头看中国,我们解决问题的能力很强,但提出新问题的很少。0-1 很少,但 1-100 很强。中国能不能做 AGI 的大基建,现在就是卡的问题,我们只能期待未来的国产芯片,期待华为的卡未来更好。
另一个不一样的点是,美国真的在做 AGI,而中国目前还在真正地追 GPT-4 以及追谁是第一名。还是辨识度的问题,差异怎么拉开。大家可能过了 3.5 的水平,但 3.5-4 之间的跨度还是不小的。
04.
Scaling law 能通往 AGI 吗?
张小珺:你今年对 scaling law 有什么新的认知吗?它是加速增长,线性增长还是它的增长放平缓了?
李广密:从细节来看, GPT-4 公开的是 1.8T 的参数 MOE 架构,大概 train 了 13 个 T 的数据,大概是 2.5 万张 A100 训练了 100 天。外界都在猜 GPT 下一代模型能 scale up 多少倍,假设下一代模型的参数和数据量都增加 3 倍,那么所需的计算力将会增加 9 倍。老黄公布的 3.2 万张 H100 GPU 的集群,再加上一些优化效率的提升是刚好 match 的。但如果参数和数据量都增加 10 倍,那就是 100 倍的 compute 的提升,很明显现在 GPU 算力集群是不够用的。
又回到大基建问题,就是物理机器的瓶颈。今天是没法 scale up,增加数据量比增加参数的 ROI 明显要高。高质量的数据好像永远不够用,之前就有很多人提出文本数据不够用了。尽管现在通过合成和改写可能扩大个小几倍,但要拿出 GPT-4 十倍的数据量,也就是 100 多 T 的高质量数据,是很难的,可能没有人能够做到。另一个难题是如何把多模态数据与文本数据一起拿来训练,这是 research 问题,很容易伤害到原来的模型。
现在对 scaling law 的一个判断是,GPT-5 的数据量可能够用,但 GPT 6 肯定需要一些突破。未来一两年 scaling law 可能不会遇到问题,但之后还是要突破的。如果非要说一个结论,那就是 scaling law 并没有减速。如果感觉变慢了,那是因为算力和数据还投入不够。从 GPT-3.5 到 GPT-4 大概多了 20-30 倍算力,但 GPT-4 走向下一代还没怼够 20-30 倍有效算力。但只要有了有效的算力和更多的数据,一定会有新东西出现的。
这会影响到整个格局和大家的关注度,围绕芯片和互联。接下来两年除了 research 问题,最头部的模型公司和大厂至少花 50% 的精力解决算力和互联的问题。所以,这不光是一场 research lab 关于 research 的竞争,更是一场巨头之间的博弈,涉及人才、用户、算力,甚至舆论和股价等方面。微软今年又投资欧洲的 Mistral,又收购了 Inflection,同时自己也在 train 大模型,它跟 OpenAI 的关系挺复杂的。微软还是站住了最稳的位置。
张小珺:Scaling law 接下来走下去会有瓶颈吗?能走多远?
李广密:我觉得就看两个关键要素:一是数据,二是 GPU。电力不是 research 问题,这个是通过投入还是能解决的。目前 scaling law 还是受限于物理计算的瓶颈,所以 Sam 提出 7 个 T 造芯片还是很有道理的。
另外,效率也很重要,一个是 compute efficiency,一个是 data efficiency。这里有趣的就是衡量大家的效率,同样训练一个 GPT-3.5 能力水平的模型,需要多少张 GPU,多少训练数据,不同团队可能差别很大。有人几千张,有人几百张就够,range 很大。其实 AGI 的本质就是“能源+芯片”产出智能的效率。那么,这种效率最终能达到多高呢?
最后从架构上,agent 是否能够完成具有经济价值的复杂任务?next token 架构是否能够解决长期规划的问题?这是接下来值得关注的。如果不能,那么 scaling 下去意义不大。
张小珺:模型会无限变大吗?Scaling law 能通往 AGI 吗?
李广密:我觉得会无限变大,参数大 10 倍甚至 100 倍,数据大 10 倍、100 倍甚至 1000 倍。训练大模型是为了探索能力边界,这本质上是一个科学发现的问题。但同时,为了满足商业用途和控制成本,大家也会训练规模更小的模型。
Google 和 OpenAI 都是这样做的。OpenAI 训练出的 GPT-3.5 模型就证实了这一点:即使使用较少的资源,例如 1%到 10%的训练资源,训练出一个规模较小的模型,它能力上仍然能够覆盖大多数 query 场景,并且与 SOTA 模型相比不会有太大的差距,但成本却能降低一个或两个数量级。如果要从头开始训练一个 GPT-3.5 模型,需要的卡是比较少的。这里有一个基本的计算公式:训练量=参数量×训练的 token 数量×6。例如,GPT-4 模型拥有 1.8 万亿个参数,使用了 13 万亿个 token,按照这个公式计算,再乘以 6,得出的结果是需要大约 25000 张 A100 GPU。A100 GPU 的计算能力大约是 19.5T Flops,如果我们将这个计算能力乘以 60 秒、60 分钟、24 小时,再乘以 100 天的训练周期,还要再乘利用率,一般 50%的利用率就算是比较好的,最高可能达到 60%到 70%。
Scaling law 是目前最大概率通向 AGI 的一条路线,我们也没找到其他路径,所以在没有证伪之前要投入更多的资源去验证这件事。
05.
Sora、多模态、机器人
张小珺:ChatGPT 和 Sora 属于 AGI 路上的什么样的路标?
李广密:ChatGPT 成功还是有很大的偶然和运气成分的,它让 AGI 这个概念进入千家万户,在科普和募集资源方面帮助更大。这确实是一个里程碑。Sora 好像和 AGI 和走向智能好像没什么直接关系,这也是一个很大的非共识。但 Sora 更多的是说明 OpenAI 能力进展会很快。OpenAI 战线铺得更广了,好像不是高度聚焦在 AGI 这个事。
张小珺:复刻 Sora 难吗?模型规模有多大?大概需要多少算力数据、训模型的数据要从哪里来?
李广密:OpenAI 没有公开 Sora 的数据情况,但通过它的技术报告,我们可以估算出来一些东西。报告中提到 Sora 的训练过程所需的计算资源是 LLM 的好几倍,我估计,可能需要 4000 到 10000 多张 H100 GPU 卡进行一个多月的高强度训练,这还不包括前期实验、探索和推理过程所消耗的大量算力。如果涉及到生成 TikTok 视频内容,每天上传的视频时长可能达到 1500 多万分钟,这部分的推理成本与训练成本差不多,两者的费用都非常高。
此外,OpenAI 肯定需要收集大量的视频数据,可能达到数千万甚至上亿小时,并对这些视频打标签。他们可能会使用 GPT-4V 这样的模型来给视频内容打标签。具体涉及哪些数据我们是不知道的,这是很核心的。可能会使用 YouTube 的数据,同时他们也可能自己录制很多游戏,因为 Sora 生成的内容在风格上与微软 Xbox 游戏非常相似,或许也会利用一些游戏数据。数据是很关键的,例如 Pika 在生成动画效果方面表现出色,比如很多皮克斯相关的。
最近,他们的 CTO Mira 在一次活动中提到,他们有机会将推理成本降低到与图片生成的推理成本相近的水平,并在那时公开 release。
张小珺:创业公司应该跟进 Sora 吗?
李广密:很凶险。如果谁有信心,并且融资能力很强,比如能融到 3-4 亿美金。其实它需要的数据难度是介于 LLM 跟机器人之间,而且获取数据的难度很大,卡和数据的成本都很高。但 Sora 最终产出的结果还是存在争议,视频等不等于智能?是不是一定要做到效果最好才有人买单?创业公司还不如想想下一步怎么定义 Sora 的产品形态和未来 AI 内容的消费形态。
张小珺:你预测 GPT-5 会什么时候到来?
李广密:今年夏天或者下半年,但这个都是猜测。GPT-4.5 肯定会更快,但我们还不确定 4.5 相比 4 能有多大的提升,可能它不会有根本上的提升。如果是 4- 5 才是代际上的提升,才能有更多值得期待的。至于 GPT-5,我更期待的是它有没有新能力,能不能解决复杂任务, agent 能不能落地。只有 agent 真正落地能做长期的复杂任务了才比较重要。
张小珺:不同模型之间的迁移成本高吗?
李广密:一方面,随着模型能力变强,Prompt 的相互理解能力也在提升,所以模型迁移成本是很低的。但随着模型周边模块附加的东西越来越多,比如整套的 RAG,以及基于模型设计的不同的任务和 agent 也越来越复杂,未来迁移也会变得越来麻烦,因为这里面细节工作也会越来越多。
另外,大家对于开源模型的忠诚度似乎并不高。以前人们认为 LLaMa 是最优秀的模型,现在又觉得 Mistral 更好。如果未来 XI 发布的更强大的 Grok 模型开源,大家可能又会觉得 Grok 更出色。成本也非常重要,像 Claude 3 的成本比 GPT-4 还是要便宜很多。
张小珺:影响不同模型最大的因素是什么?
李广密:如果只说一个,那就是数据。因为大部分的模型的架构、training 和各种 recipe 比较统一,因此对模型效果影响最大的还是数据。数据决定了这个模型作为产品的特点,换句话说,数据决定了模型的“性格”。但数据其实是一个很系统的工作。
OpenAI 同时具备数据的经验、数据的基建,也愿意为数据投入精力。对很多 researcher 来讲,数据处理是繁琐且辛苦的工作,很多人不愿意干。因此有很多公司虽然人才密度很高,但数据并没有做好,比如 Google。一方面,Google 在使用涉及版权的数据时会更加谨慎,大公司的法律风险意识更强。另一方面,每个人想做的东西都很多,加上去 legacy 就比较重,可能导致最后方向没有 align 到一起。
张小珺:不同模态模型的上限和优势是一样的吗?
李广密:上限最高是 LLM、Coding、视频,它们数据量更大,数据的丰富度也更多。上限低的是声音、图片。上限高的智能能力强的公司优势更强,上限低的就必须得做好产品,才能保证优势。
张小珺:你怎么看 Tesla?这一代大模型技术对于自动驾驶的影响是什么?
李广密:现在 Tesla 股价并不乐观,因为车的销量甚至都在负增长。它在欧美市场表现疲软,同时在中国竞争压力很大。因为造车这个基本盘业务其实是比较悲观的。它的汽车销售业务可能就 150 亿美金利润,按照 20 倍的 PE 来计算,市值大约在 3000 亿美金。
Tesla 的 AI 业务可能就值另外的两三千亿美金,但好像华尔街又今天还不是很认 FSD。主要原因在于,FSD 今天好像没有对新车销售带来 fundamental 的影响,也没有带来新的商业模式。这也是为什么 Elon Musk 最近提出了 Robotaxi 业务。我自己对 Tesla 一个感觉就是如果它股价还会继续跌,比如跌到甚至 100 出头,我还是会愿意去买一点它的股票的。毕竟 Tesla 的机器人团队还是全球最好的机器人硬件团队。我也很期待看到 FSD 对汽车销售到底有多大的拉动,以及能不能彻底解放注意力。
如果不能完全解放驾驶者的注意力,即使偶尔需要接管控制,驾驶者的注意力仍然需要集中在方向盘上。Tesla 还有一个更大的可能性,那就是对汽车行业的变革,比如实现无方向盘,或者卖车免费,把车的里程价值做得更高,真正把 Robotaxi 做好。但这也回到了那个物理挑战上,美国的制造业不如中国强大,因此这种变革可能不会那么顺利。
说到大模型对自动驾驶的帮助,比如它的多模态能力增强,能把采集到的 corner case 全都更好地筛出来,更好的解决 corner case 的问题,效率还会更高。大家如果在 San Francisco 的话都能去试一下 Waymo,其实 Waymo 在 San Francisco 跑得是非常好的。Waymo 曾经 operation cost 很高,最初每辆车都需要一个后台人员进行监控。而现在,一个人可以监控四辆车。如果多模态能力得到进一步增强,AI 是否可以帮助监控 400 辆甚至 4000 辆车?这样的话,operation cost 可以降得很低,也有利于 Waymo 的大规模普及。
张小珺:自动驾驶落地和机器人落地哪个更难?
李广密:机器人会更难,自动驾驶有可能比 AGI 来得更早。今天我们还不能说机器人到了产业到爆发的时候,因为还有很多 research 问题要解决,其中最重要的还是数据问题。很多人都想做机器人的 foundation model 这个大脑,但是没有大量的足够量的训练数据。语言模型得益于过去几十年互联网积累了很多的文本数据,而语言又是对现实世界的一个很好的抽象。目前,许多机器人公司所拥有的机器人数量不超过 100 台,像 ALOHA 那样去采数据。这样的数据量级还是太小了,不像 Tesla 拥有数百万辆汽车,能够每天从全球范围内收集数据用于训练。最核心的还是谁能解决数据问题,我最期待的还是多模态能带来 fundamental 的突破,解决机器人的数据问题。
如果未来大型模型能力很强,具备多模态理解视觉的能力,将能够直接对物理世界进行建模。到时候,语言模型和机器人模型可能会合二为一。如果 AI 的能力足够强大,它也可能减少对物理硬件的依赖。另外,关于人形机器人的讨论也很多,目前还难以判断是否应该采用人形设计。Elon Musk 正在朝这个方向努力,可能是为了更好地适配人类现有的生活环境。我认为,更好的定义应该是“通用机器人”,而不完全只限于人形。
机器人还有一个大的场景,那就是通用机器人。它不像自动驾驶或智能手机那样一开始就有刚需。一般来说,硬件升级都基于一个刚需,然后渐进式迭代。但工厂好像不需要这些通用人形机器人,家里好像也不知道让它干嘛。让机器人去开可乐瓶、拧瓶盖、开门,好像连这个泛化能力都没有。目前好像只想到在军事领域应用机器人。人的生命珍贵,未来我们可以让机器人部队代替人类上战场,在沙漠等环境中作战。
另外,中国在降低成本方面有优势,现在一台人形机器人还是很贵的,大概需要十多万美金。如果要把未来家用机器人投入使用,价格肯定要降低。能解决成本问题的或许只有 Tesla 或中国的供应链。杭州的宇树科技就是一个很好的例子,他们曾经将机器狗的成本降到极低。现在很多客户要人形机器人,那他们用相同的方法是不是也能将人形机器人的成本降到极低?
如果要投资的话,我们可以看看上游组件,例如灵巧手,一只手上可能需要数十个小型电机。未来机器人是否还需要电子皮肤、传感器等,这些都是值得考虑的问题。目前,机器人还无法像人类一样实时感知外部环境,他们是没有反馈的,各种 sensor 也比较重要。长期来说,我对通用机器人还是比较看好的,如果有机会深入下场创业,我应该会加入机器人团队。
不过我比较担心今天参与机器人会不会像 16 年去做自动驾驶?因为机器人在今天还不是商业和工业落地问题,而是 research 问题,很多 research 问题还没解决,比如训练的数据哪里来、场景是什么、cost 能否降下去。对 research 问题来说,多模态和大模型本身的突破可能对机器人提速更重要。
张小珺:你认可朱啸虎的观点吗?AGI 至少 5 到 10 年是看不见的。智力级别的提升首先需要能量级别的提升,可控核聚变实现前,他不相信地球有足够的算力能够实现真正的 AGI,帮人类降低 90% 的工作可能未来 3-5 年可以实现,但最后的 10% 可能需要天量的算力和能耗。这也是为什么 Sam 想融天量的资金。
李广密:我认可他大部分的观点。虎哥喜欢小钱办大事,这是 VC 非常经典的一个点。回头看微软第一台计算机做出来的时候,盖茨也很难相信内存能从那时候的多少 K 到现在的多少 GB。我们还是相信摩尔定律的,相信模型的计算效率、推理效率会大幅提升,同时硬件的 memory、模型本身的 context window 也能提很多。这些都提升上去后,人真的可以把自己所有的历史都当成 context 去运行了。那个时候可能还是会解锁很多的新的技能的。
虎哥提到降低 90% 的工作,如果真的做到 90% 了,3-5 年如果实现,这个观点很乐观了。剩下 10% 才是人类的价值。我同意能量级需要升级的观点,很多数据中心现在都建在核电站旁边。AWS 最近花费六七亿美金收购了一个美国最大的核电站旁边的数据中心。
其实今天 Tesla FSD 的安全性已经超过平均司机的水平了,CV 识别包括推荐的效率也已经比人高了很多。我很有信心 5- 10 年内看到 AGI。我相信科学会有突破,相信这帮科学家,这个东西和曼哈顿计划、登月计划、克林顿网络大基建很像。
张小珺:他还有一个观点是,“GPT-5 以后技术曲线就基本会放缓,现在看语言模型进步差不多见顶。突破在多模态,Sora 在发布三四个版本后也能见顶”,你怎么看他的这个观点?技术迭代曲线会不会放缓?
李广密:技术有可能遇到短暂的瓶颈,但后面还是会有跳跃。过去一年可能是第一波小升,后面还会有一波更大的主升浪。技术发展中间有卡点是正常的,因为技术发展不是线性的,很可能遇到平台期停滞两年再跳变跃升,迎来更大的主升浪,这就是科学发现的过程。
几十万张卡训练 AGI,可能比登月对人类的意义更大。未来会有更多的新发现,包括未来下一代模型的诞生。虽然体感上的刺激是会降低的,但经济价值才刚开始落地。我比较期待模型公司做好 agent,这样的话附加值也会提上来。目前,模型作为一个新的平台,确定性已经非常高了。
06.
AGI 联盟:芯片、云
张小珺:你怎么看 Sam 想要 7 万亿美金的融资?中东会在全球大模型战局中扮演什么角色?
李广密:微软跟 OpenAI 是应该做 ASIC 芯片,或者起码具备这个能力。如果 AGI 是一个 10 年的长跑,今天肯定要做准备。会不会有一个新的芯片联盟出现?主要是英伟达卖太贵了,虽然不会要 7 万亿美金这么多钱,但肯定还是需要不少钱,中东是潜在的最大的出资方。
张小珺:芯片联盟可以怎么组?
李广密:其实 Google 的 TPU 就是自成一体。如果 Sam 融到了几千亿美金,他要收购什么呢?肯定要收购一个芯片团队,拉着微软和几个大的,甚至 foundry 有可能做不了。但是做一个自己的 ASIC 芯片是 make sense 的,就像 Google 有 TPU 一样,因为 OpenAI 可以把 AIML 的问题都优化得很好,但是它改不了 GPU。
这个没办法, Google 是 full Stack,全都可以改,这是 Google 优化能力很强的一个点。Google 是一个整体,全都是自己 own 的公司,从上面到下面有自己的 TPO。但 OpenAI 跟 Google 最大的一个差异是,它没有自己的芯片。因此,OpenAI 想要改进芯片设计、降低成本、扩大芯片规模,它是没办法的。从英伟达的角度来讲,它宁愿给多家大模型公司芯片,也不能只给一家大模型公司芯片。所以,我认为还是要做自己的 ASIC 芯片。
张小珺:你提到现在大模型是集团军作战。我们之前也聊过硅谷的公司的结盟的问题,你觉得接下来会有更多的结盟吗?
李广密:Elon Musk 的 xAI 长期来看不排除会并入 Twitter 或者 Tesla。微软 OpenAI 目前还是很稳定的,AWS、 Anthropic 是互相被迫深入绑定,AWS 的销售已经开始全线卖 Claude 3 了。Google 还是自成一体,但欧洲的 Mistral 必须得抱个大腿了,他们之前效率比较高,但要拿到 2000 张 H 卡,未来一年得想办法融到 1- 3 个 billion,如果没有万卡集群,后面也可能掉队。我比较期待的是 Apple、英伟达、Meta 怎么入局。
张小珺:你有没有关注到什么 Apple 的新动作?
李广密:Apple 最近发了一些小的模型,但 Apple 短期追上 GPT-4 水平还是比较难的,但是手机还是最重要的一个入口和习惯,Apple 的位置长期是比较稳的。Apple train 很大的模型,今天看好像还是追不上 OpenAI 的。但是他们肯定是云和端结合的,可能会调用多个模型。
张小珺:你怎么看他们放弃了造车?
李广密:美国的制造业不太行,也没等到自动驾驶来,他们的设计太超前了。至于 Apple,虽然很多人都在讨论 AI、PC、 AI 手机,但其实真的把一个大的模型变成小的模型装到端上,这个是很难的。因为现在 1B 的模型做不了太多,但手机跑 1B 的模型能耗要求的是比较高的。这又回到那个物理问题,物理迭代比较慢,如果在手机上安装一个较大的模型,就需要更大的内存和电池,这会导致手机迭代比较慢。包括 Tesla 的 FSD 在端上,是因为它对 latency 的要求非常高,也不能太大。
张小珺:你怎么看最近几个月中国大模型公司和巨头之间的结盟动态?比如阿里投了所有的中国的模型公司。
李广密:国内主要是阿里,云是个比芯片和模型大个 3-5 倍的生意。未来更多企业的生产流程,各种数字化流程还是会跑在云上。云未来十年可能复合增长都在 15% 以上,但这里面价值链分配比例可能会发生变化。所以阿里必须要投入,期待阿里新的 CEO 吴妈能成为像微软的 CEO Satya 一样的人,让阿里大象起舞。
张小珺:为什么阿里同时分散投到多家,而不是重注一家模型公司?
李广密:辨识度不够高。另外投资也可以绑定算力消耗,最后钱都还是要回来的。如果投出去一块钱,训练又花一块钱,从结果上 revenue 又多了一块钱,那我的市值也可能又是 10 块钱。这个账很稳,云还是很稳的。
张小珺:现在 2024 年刚刚过完一个季度,对于 AGI 在接下来三个季度的演进,你有没有一些预测?
李广密:更多的是期待。OpenAI 的下一代模型 scale up 幅度有多大?这是观测 scaling law work 的关键指标。这个模型会涌现出哪些新的能力?OpenAI 做产品能力怎么样?做的产品好不好?如果他们做信息检索,到底会不会对 Google 产生 fundamental 的影响?
多模态也特别重要,多模态对机器人和自动驾驶的影响是最大的。机器人可能要在多模态的突破后才能有提速和爆发。另外就是收敛,我觉得年底可能就会收敛到几家了。会不会有 GPT-4 水平的开源模型出来?
我对最近很火的 11Labs 和 Suno 也比较期待,单一模态的创业公司如果只做模型会比较危险,但如果把整个产品链做得很好,好像也是有壁垒的。
张小珺:全球来看,最后能留下几家 AGI 公司?包括巨头和创业公司,也包括中国和美国。
李广密:美国可能是四家:OpenAI、Anthropic、Google、Elon Musk 的 xAI。欧洲的 Mistral 不错,但不确定欧洲是不是一个独立市场,以及他们能不能拿到更多的资源,比如万卡集群以及未来更多。看中国的话,字节这个公司是决心很大的,而且他们业务现金流很好,每年可能有几个 billion 的投入。头条是有利润支持大基建和马拉松投入的。
张小珺:为什么我们作为碳基智能一直在追求硅基智能上这么热衷?
李广密:这是一个有意思的问题。不管是 agent 还是其他形态,我们最终期待的 AGI 能够将可用的能源和 compute 资源用得最有意义,去思考一些人类没有思考过或以前无法解决的问题,这才是最有价值的。碳基肉身还是有很多局限的。比如与大模型相比,人类的处理能力有限,记忆力也相对较弱。人类无法长时间持续工作,精力也会受限,也读不了 DNA、RNA 这类数据。而且人类无法规模化复制,运算能力也不够强。碳基跟硅基是可以很好地互补。就像人无论跑得多快也比不上轮子的转动速度一样,硅基智能有可能是未来地缘博弈最大的一个关注点。未来十年主题可能就是硅基的 AGI 和地缘博弈,而且这两个还是交叉的。
张小珺:怎么看 Elon Musk 和 OpenAI 现在的官司?
李广密:xAI 短期内可能打不过 OpenAI,因为 OpenAI 变成了硅谷最靓的仔,散户的钱在从 Tesla 流出。不管流到英伟达或者哪里,Elon Musk 还是要维护它硅谷最靓的仔、硅谷的神这个形象,Tesla 才有高 PE 估值。Elon Musk 肯定也会很不爽,毕竟 OpenAI 这个 idea 是他发起的,结果今天和自己无关,没捞到什么好处。不过 OpenAI 后来变成一个商业化的组织,确实是跟之前的非盈利的初心有冲突。但从另一个层面看,纯靠一个非营利的组织走向 AGI 是很难的。Sam 跟微软合作也没什么问题,只有大的战略方才能给更多的钱和基础建设支持。
张小珺:你关于 Sam 还有没有什么新的看法?
李广密:Sam 有很多争议。在 OpenAI 成名之前,他已经坚持做这个公司做了六七年,在很多人还不相信 AGI、 AI 这些东西的情况下,Sam 是非常值得尊敬的。相比之下,Elon Musk 中途是下车了的,现在回头过来可能是觉得 AGI 很好。Sam 有很大的勇气去探索一些完全没有探索过的东西,比如更复杂的公司架构,虽然这也会带来更多风险。他也敢提出来这种典型硅谷 VC 不愿意投时间和资源的巨烧钱的项目。
他在这里面吃过很多亏,也有过很强的争议。有些人感觉他不够真实,但他好像一直在努力维持一个比较有爱的形象。另外他也提了,比如说 AGI 叫 slotic of,这个也比较有意思。一是说明 scaling law 可能不像大家想象那么急速发展,另外 OpenAI 可能也需要不断地去发新产品,去调整模型发布的节奏来掌握节奏感。
Sam 可能也是一个“节奏大师”,他战略能力也很强,对安全性问题也很重视。他播客里面我还有一点印象比较深,GPT-4 可能再过一两年就会是一个很小很笨的模型,说明他对后面模型能力进步还是比较乐观的。但我对 Sam 一直很好奇,他怎么能有那么多钱?他好像投了很多公司,但历史上好像没什么大的退出。难道是在 YC 赚的钱?还是家里本身就有钱?他投一个公司都是几千万、上亿美金地投。
张小珺:你今年也参加了英伟达 GTC ,能不能聊聊你对这次 GTC 的观察以及对于黄仁勋的演讲的感受?
李广密:硅谷最靓的仔已经从 Elon Musk 切换到老黄了,很多 Elon Musk 的粉丝变成了老黄的粉丝。投资者的股票资金也从 Tesla 转到了英伟达。老黄应该是直接驱动了这波 AGI 浪潮的,他的贡献不输 OpenAI 。
之前有一个说法是,算法等了算力 30 年,非常形象。我希望这波 AGI 不要因为算力物理的瓶颈而停下。回顾过去几十年,半导体应该就是人类最伟大的发明,计算还会驱动未来的几十年。未来的商业社会里,可能所有人都要给老黄交算力税,就像过去十年去给苹果交入口税一样。
老黄的长处之一就是销售能力超强,以前他把 GPU 卖给美国的科技公司,现在他又提出了主权 AI,把 GPU 卖给政府吃国防预算,从而进一步扩大了市场规模,这很厉害,美国军费每年 8800 亿美金,如果拿出其中的 3%、2% 买 GPU,就是很大的量,GPU 是一个极其重要的战略储备位物资。
张小珺:关于老黄硅谷有没有什么流传比较广的故事?
李广密:他有一个很好的习惯,就叫 T5T(Top 5 Things),内部每双周、每个大组内会发出来最重要的五件事,这是一个非常好的习惯。他也是不鼓励 996 的,公司只有早餐午餐,鼓励大家晚饭回家陪家人,这是蛮有趣的一点。
张小珺:Sam 和老黄在硅谷的地位谁更高?
李广密:短期还是老黄地位高。英伟达是人类基石公司,AGI 没有 Sam 可以,但没有老黄不行。但长期来讲 OpenAI 可能价值更大的。Sam 也有可能成为智能的新教主,但前提是芯片不受限于英伟达。未来的结构比较清楚,人类又多了两个收税的人类基石公司,一个是芯片算力税,一个是模型智能税。
延伸阅读
Writer:企业级全栈式文字生成平台,如何对抗ChatGPT冲击?
Suno AI:音乐生成迎来MidJourney时刻,Suno能否挑战Spotify?
Vercel:用生成式UI重塑前端开发
红杉美国:GenAI是一场10倍速的生产力革命
AI重塑法律行业:为80%的工作带来10x提升