NV大涨与RL自己的Scaling Law

Original Andy Liu 共识粉碎机

2024-11-30

关注共识粉碎机，获取历史讨论会纪要

昨天Jenson的GS小会内容引爆全场：

whatever training ways: LLM/RAG/RL/Model Self Leaning/Pura scaling, compute intensity stll goes up! whatever it is, they are more demanding!

我们也第一次看到Jenson在公开场合承认Post-train的需求Super Strong，甚至已经看到了RL或者Post-train自己的Scaling Law。

我们在过去一个多月的草莓与Post-train路演，以及9月5日《NV后面可能的路径》中，都反复提到不要相信陆家嘴小作文，Post-train需求非常强。

“post-train虽然参数没变，但是在训练算力上仍然会倍数增长，甚至最近两个月在post-train上也发现了Scaling Law；推理上也会随着模型“思考能力提高”，单次算力增长。”（9月5日原文）

我们也不断在路演中讲到，比起之前用几行公式数学推导RL，RL在最近几个月已经走上了规模化暴力求解的路径，并且看到了明确的方向，RL也有自己的Scaling Law。

9月6日的《Scaling Law Debate：讨论最近的各种小作文》讨论会上专门一条一条讨论了小作文的技术错误，也探讨了RL的Scaling Law发展。今天终于看到公开场合出现了我们提到的思路。

我们继续聊聊这个话题：

1. 以Q*、Strawberry等等为代表的新一代RL，在训练侧对于算力的需求大大提升。传统的RL，是以理论研究为基础，对算力要求不大，很多时候研究论文甚至会发现RL是跑在CPU上的。但是，随着Pre-train模型参数量不断提升，RL的算法复杂度不断提升，训练RL的算力需求出现了巨大的增长，头部公司用来做RL的集群规模都在万卡甚至更多。有没有万卡做RL已经成为了新一代模型的入场券之一。（这是不是大家一年前看到的Pre-train Scaling Law表述？）

2. RL 训练的算力需求要比推理高很多。因为一方面有多个模型博弈+搜索算法，Infra的难度提升很多；另一方面，RL需要通过大量的计算来找到最佳的recipe，然后再去scale规模，规模上去了可能又要大量计算来进一步搜索最佳的recipe。这些过程中，都是需要不断的更新模型参数的，而不像推理仅仅做一次前向计算。

3. RL可能带来计算范式的又一次飞升，需要的计算通用性相比单一的类transformer计算会复杂很多，如果XPU/ASIC没有这些算子，那在做RL的时候效率就会低很多。而另一方面，RL的计算也已经从传统的CPU转向了GPU/TPU，核心还是CPU的计算能力太弱了。如果一个算法想要scalable，那一定要从CPU转到GPU/TPU。

最后，在任何时候，如果对于未来的发展方向产生了怀疑、看不清楚，那都值得再去读一下Richard Sutton的The Bitter Lesson。Richard Sutton本身就是RL的超级大牛！当他写这篇文章的时候，GPT3还没有出来。规模和计算力量最终胜出，工业界的顶尖研究人员和工程师也都是用这个思路来指导如今的研究的。

附上我们9月5日的点评《NV后面可能的路径》

我们梳理下周末到今天见到的所有信息：

ISM PMI+降息前交易+9月是最差的Seasonality月份
台湾产业链情绪发酵：存储负面，价格环比涨不动，周期价格见顶，下游需求弱，上半年客户采购太猛现在有库存+三大厂还在提稼动率，明年还有新增产能3. 改铜缆设计引发市场对B卡二次Delay担忧：
美国司法部(DOJ）对NVDA进行反垄断调查，疑似提前泄露信息
财报的继续发酵：inline北美Consensus；miss亚洲Consensus；B卡Comment积极，不改变明年EPS，但可能被新的铜缆事件影响看法
OpenAI正在定制ASIC的新闻
陆家嘴模型小作文：

Gemini下一代模型训崩=Scaling Law放缓
MOE后post-training放缓，合成数据瓶颈
post-training不需要那么多算力
微软AI Copilot不及预期，强迫员工使用，裁员7%
OpenAI新一轮融资不顺利，只能融到小几十亿

8. 同期美国也出现了类似的小作文，A16z的AI KOL @martin_casado：

GPT3到GPT4规模100x，但下一代100x非常困难，难在数据和数据中心
合成数据在Coding和Math上有用，但其他场景不确定
cSB1047可能放缓大模型训练进度

我们先回答下上面几条，然后再一起谈谈看法：

台湾产业链和NV的关系: TW semi产业链情绪当前比较悲观, 重新交易美国经济衰退+日本加息+存储/半导体周期见顶, 从交易层面看, 外资近期大量台指净空单敞口对TSMC为首的semi板块短期股价压力较大, 从供应链数据来看, 整体ODM反映需求情况依旧良好。
改铜缆：只改NVL72的话不影响第一批Scale Up的NVL36。
OpenAI ASIC是个26-27年的事情，1.6nm现在连PDK没有，还在设计的早期阶段。
微软的Copilot进度我们每个季度都有更新，也和大家讲过2Q的指标出现了改善，微软的2Q业绩，以及今日微软的渠道商SoftwareOne发布的业绩也都讲了这点。
模型的Scale Law问题我们会在周五20点做一次讨论debate，也会邀请北美的同行们与大家一起交流，会给大家更多Detail。现在可以给一些初步信息：post-train虽然参数没变，但是在训练算力上仍然会倍数增长，甚至最近几个月再post-train上也发现了Scaling Law；推理上也会随着模型“思考能力提高”，单次算力增长。

我们也和不少投资人朋友做了交流：

美国基金圈子很平静，没有看到激烈讨论，没讨论出来在跌什么，可能是业绩的继续发酵。
亚洲基金圈子Debate很热烈，上述所有事项都在讨论为什么跌，也在讨论股价的Trading Range会因为这些下移，如果B卡仍有Delay风险，明年可能EPS看到4-4.5。

我自己的感受：

NV过去交易的Driver是：

供应链到业绩的正反馈→过去一直通路，这次业绩后可信度下降了。
推理场景爆发→对股价影响最大的一次是披露推理占比的季度，后面虽然OpenAPI增长速度很快，但基数仍然很小。
模型迭代→过去一年半一直没有Catalyst。

回顾过去2次~10%的暴跌：

419时候最大的鬼故事是SMCI+Llama400B卡少参数大，涨回去更高的原因是供应链好→业绩好。
8月初最大的鬼故事是日元+Recession+B卡Delay，涨回去但没收复的主要原因是consensus觉得B卡Delay没那么严重，以及供应链Check到大量的H200加单。
现在的情况是ab短期走不太通，模型的debate很难有答案，只能等草莓，以及后续可能有的Universal Model。

上面第一和第二条Driver短期走不通，那宽幅震荡的Range就会更宽，很像去年8-12月份的，然后等第三条的catalyst，或者等下一次年底的财报业绩跑通a，并且confirm明年的eps区间。

从更长的区间来看：

我们仍然对草莓和如果有的4.5充满信心，本质还是4太差了，可能周五和我们一起讨论后大家也会有不同的看法。这一轮模型能力的提升还没有到顶。现在聚焦的post-train难度也比pre-train更加大，还会进一步拉开头部模型公司与后面的差距，大家听到的rumour还会更多。

2但模型的研发进度没那么快，不是大家想象的1-2年一代，从开始高质量的实验到完成结果，往往需要3年。而且需要最顶尖研究员的灵光一现，最难的数学题也难以保证每年都有大突破，什么时候能到6，现在看起来仍然有非常多的技术困难，但Researcher方向、集群、数据中心，都已经在为6准备了。

我自己个人画一条路径的话：

我会感觉到草莓和4.5的确定性很高，5仍有不确定性但方向非常明确，这轮没有走完，如果B卡不会进一步Delay，草莓+4Q业绩的共振在这次洗完后会更加舒服。
再往后草莓+5能证明focus垂泪带来的应用能力提升，摘走不少现在定制化难做的Low Hanging Fruit，Coding、简单的数据分析、做题能力进化带来的在线教育、客服电销都可能率先跑起来，会陆续看到更多ROI跑通的场景。但因为场景有限，可能能跑一个小几百亿的应用TAM，但挺难到上千亿的TAM。这里可能在摘果子的时候出现进一步的认知分歧。
如果分歧时间很长，6没办法在三四年内出来，那可能就会进入一段真正的迷茫期。具体时间得等5出来才有概念，看5生成合成数据的能力。现在应用属于基数小、跑得快，虽然看不到大场景但是有希望。但如果到了基数大、跑得慢，有不错的场景，但空间有限、不易泛化，观感就会更差。

不知道这个时间段会有多长，如果能够再走到下一步，到OpenAI的L3阶段，那就是下一次互联网黄金时代了。

我们的新书正在发售，请扫码购买

我们即将发售一篇报告，其内容是：

Robotaxi与FSD的Scaling Law

尚有数篇报告正在调研中，其内容是：

AI客服的进展与影响：NICE、FIVN、NOW
AI咨询行业：PLTR、AI、ACN
ASIC调研与技术趋势
季度调研系列：META、MSFT、AMZN、AAPL、NVDA

在过去的四个月，我们已经发售了九篇报告：

算力需求场景测算
AI与GPU在META中的应用
微软Copilot进展、GenAI售卖场景以及如何影响公有云选择
北美算力租赁厂商近况及供需平衡情况
互联技术以及未来发展趋势
美国数据中心与电力情况
2Q24季度调研：META与MSFT
AI手机
草莓与前沿大模型进展

除了报告外，我们也承接定制化的投研需求。

对报告感兴趣，有定制化投研需求，或者对我们的日常调研纪要（每月超过50篇AI调研纪要）感兴趣的请联系下面的久谦销售同事，或者点击共识粉碎机底栏菜单页的投研服务：

大模型未来三年的十个假设

Data Infra：大模型决战前夜

继续滑动看下一个

共识粉碎机

向上滑动看下一个

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

清华女神，34岁的美女博士县长，辞职了

13人被撤销本届全国政协委员资格丨时政周报

豆瓣9.7！鲁迅赞叹不已、余华为它失眠，看完后劲太大···

“湿冷魔法”攻击！鸟家三合一冲锋衣、羽绒服、软壳裤帮你抵挡

NV大涨与RL自己的Scaling Law

您可能也对以下帖子感兴趣

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

清华女神，34岁的美女博士县长，辞职了

13人被撤销本届全国政协委员资格丨时政周报

豆瓣9.7！鲁迅赞叹不已、余华为它失眠，看完后劲太大···

“湿冷魔法”攻击！鸟家三合一冲锋衣、羽绒服、软壳裤帮你抵挡

生成图片，分享到微信朋友圈

NV大涨与RL自己的Scaling Law

您可能也对以下帖子感兴趣