一种观点:如何解构 NVidia 的体系?如何取代 Nvidia?
The following article is from 信息平权 Author mackler
NVidia 最近股价又创新高,作为一个骨灰级的 N 吹,今天继续拔高一个维度,来讲一讲吹的姿势。虽然我过去写了很多所谓关于 NVidia 的「破绽」,但从技术和产品包括对需求的把控角度,NVidia 其实没什么破绽,因为这种高度垄断的芯片产品品类的竞争,从来不是靠技术和产品,而是靠体系。塑造体系也同样不是说需要全栈打造,体系同样可以站在巨人的肩膀上,甚至站在竞争对手的肩膀上。
NVidia 过去打败 Intel,靠的既不是做一款技术或产品打磨得足够强的 CPU 去打败 Intel 的 CPU,也不是靠 GPU 打败了 CPU,实际上靠的是 CPU+GPU 的体系打败了纯 CPU 的体系。老黄在 09 年的一个采访中回答「NVidia 未来会不会变得和 Intel 一样强大」时曾经说过:
The competition is not about the competition of the device. What we should do is to take advantage of the CPU and build upon it. Stand on the shoulder of giants and take the industry to where it couldn't have gone without our contribution.
竞争并不是关于设备的竞争,而是关于利用 CPU 的竞争,站在巨人的肩膀上,把这个产业带到只有我们能够带到的地方。
这是芯片产品竞争最顶层的逻辑,渐进地解构原有的体系。也是 NVidia 最顶层的逻辑,只要把 Intel 从纯 CPU 的体系拖入 CPU+GPU 的体系,NVidia 就已经成功了。这种博弈包含两方面,一方面是推动需求未来的演进,即所谓「把这个产业带到只有我们能够带到的地方」,将计算机的超级应用从 word 和 excel 牵引到图形、高性能计算等领域。另一方面是推动 CPU+GPU 能比纯 CPU 更好地满足这些需求。
接下来才是下一层的竞争逻辑,在 CPU+GPU 的体系里面,谁更重要。老黄在这个采访中同样说过:
It's really the battle of which one is more important. The CPU is important. You can't do without it. But we want to take the future of computing, the GPU is going to do the job. The GPU surely can't do it along. There is a shifting of relevance.
这实际上是关于哪一个更重要的战斗,CPU 是重要的,你不能没有它。但我们想把计算机的未来带到更高的水平,GPU 将会承担一部分工作。GPU 显然不能独自完成。这是两者权重的转变。
解构原有的体系,然后再竞争权重。这是芯片产品真正有效的博弈方法论,这种方式既满足生态的惯性,又能真正以小博大,推动计算机的演化和新陈代谢。
实际上 NVidia 今天同样在遵循这样的逻辑维护和加强自己的商业利益。
表层是「把这个产业带到只有我们能够带到的地方」:推动 AGI 的实现,推动 Scaling Law 逼近 AGI;内核是推动机器往大型机、高集成度、高溢价,更加封闭体系的方向演化,来塑造 NVidia 更高的利润率和更深的护城河。
实际上前者并不意味着后者,后者是前者的一种直观的可行解,但不是唯一解,只不过从产业需求到算法需求再到计算机系统和硬件的边界整个链条过于冗长,这种局部最优的可能性自然把业界框在了这样一个体系之下,这里面有无数 NVidia 有意无意引导的点。
举个例子,NVidia 会告诉你,今天 CPU 与 GPU 之间的数据传输带宽是瓶颈。为了解决这个问题,我们打造了 grace CPU,提供了和 NVidia GPU 的高速互联。这可能确实是解决这个问题的局部最优,因为如果 CPU 还是 Intel/AMD 的,NVidia 也确实没有办法解决这个问题,唯一的解决办法就是把 CPU 换成 NVidia 的,那么 NVidia 就可以在自己体系内部打造私有互联协议解决这个问题。
但实际上 NVidia 非常乐于见到 CPU 和 GPU 之间出现数据传输瓶颈,只可惜这个瓶颈暂时还没那么严重,导致 grace-hopper 当时卖得并不好。NVidia 甚至迫不及待想找到这样的应用并让这类应用越来越重要,这样才能有机会让用户在放弃 x86 和解决这个瓶颈之间二选一,而且用户还会感激 NVidia 解决了这个瓶颈。
但在这样的例子里,NVidia 不会告诉你的是,即使需要 CPU 与 GPU 之间的数据传输带宽,本质上需要的是 CPU 内存和 GPU 之间的数据传输带宽,进一步来讲需要的是一个容量足够大的内存池和 GPU 之间的数据传输带宽。至于这个内存池是不是一定要在 CPU 侧其实不一定,也可以是 RDMA 网卡连接的其他内存池服务器,也可以是一个 GPU 可以直接访问的内存池设备。但只有把内存池放在 CPU 那一侧,NVidia 才能撬动大家把 CPU 换成 NVidia 的 CPU。
同样,NVidia 也在不断鼓吹 AI Factory 的需求和概念,这样才能更好的推动自家更贵的 Scale-Up 的网络方案成为行业标准。至于实现 AGI 是不是真的需要这样的硬件需求,在这样一个体系里面,也许确实要。但如果能解构掉这样的一个体系,也许并不需要。如果你只去研究怎么做一个 Scale-Up 的网络方案追上 NVidia 并希望取而代之,你也在助力 NVidia 变得更垄断。
包括今天 NVidia 也在推着 OpenAI 训更大的模型,鼓吹 Scaling Law,但却掩盖 Scaling Law 的经济性问题,塑造全行业的焦虑,期望倒逼全行业靠模型代差买更贵的机器。
如何解构 NVidia 的体系?
这才是真正与 NVidia 竞争的有效手段,一如当年 NVidia 与 Intel 竞争一般。同样,我之前写的所谓 NVidia 的「破绽」,也更多是关于解构的潜在契机,而非 NVidia 在今天的体系下的技术或产品的破绽。因为解构本质上讲,是重新梳理一个更加有竞争力的芯片产品分工方式。
NVidia 过去与 Intel 博弈,本质上是塑造了一种更合理的计算机的分工体系。在过去 CPU 是全能的,小到控制器,大到超算,各行各业的所有需求基本都是 CPU 干。NVidia 挑选了一个合适的维度,把计算机系统拆解成 CPU 负责控制面的事情,GPU 负责计算面的事情。解构了 CPU 在整个体系中的重要性。
这种解构其实在一个芯片越全能的时候越有机会发生,也是大家觉得越难与其竞争的时候反而越有可能性,而大模型恰好也把 GPU 负责的计算面拔高到了一个非常全能的高度,只不过挑选的解构角度很重要。例如今天很多人强调 AI 专用芯片,某种意义上也算是一种解构,即 AI 芯片负责所有 AI 应用,GPU 负责其他,但这种拆解的维度不对,是基于场景拆的,最后又回归到了和今天一样的体系,只不过想用 AI 芯片替换掉 GPU,最后还是同质化竞争,无法带来体系上的优势。而 GPU 解构 CPU 时,拆解的更多是延迟、吞吐这种硬件资源/能力侧的维度而非场景的维度。
解构的方式即创造一个替代的体系。一个更有竞争力、可以从今天的体系平滑演进过去的替代体系,通过引入一些新的芯片产品品类来解构计算机系统的分工。从而改变原有系统各个环节的边界条件,使得局部最优发生迁移。不过因为从产业需求到算法需求再到计算机系统和硬件的边界整个链条确实过于冗长,而今天的体系又是一个各个环节的巨大局部最优。
其实大模型对芯片行业的巨大冲击,正是这种需求剧变产生的解构或重新分工的可能性,我在之前「破绽」里写的正是关于这种需求剧变创造的巨大机会。不过这种解构和重塑非常难做,这里面有太多误区。一方面首先要打破全链路势垒极大的局部最优,另一方面又要避免掉入软硬件紧耦合设计的巨大误区。无论是全栈对标的替代体系还是颠覆式端到端一体的体系都是无法解构的。
这里面有个深层次的误区是 ToB 还是 ToD(Developer)的问题。今天很多人谈论替代 NVidia,包括国产替代,或者全新架构的替代,基本都还是个 ToB 的替代,软硬件端到端解决方案式的替代。但真正能解构 NVidia 体系的是 ToD 的替代,ToD 的产品其实是最难打磨的产品,ToD 的软件框架难打磨好,ToD 的芯片产品更难,ToD 的体系更需要对计算机系统分层的底层取舍具有很强的感知。
NVidia 确实是一家非常传奇的公司,在颠覆掉 Intel 的过程中,CUDA 和 GPGPU 都是一个极其优秀的 ToD 软件和 ToD 的芯片,同时还塑造了 CPU+GPU 这种 ToD 的体系来解构掉纯 CPU 的宏大体系。
这是关于应用需求和硬件边界条件的博弈艺术。NVidia 是一家非常懂软件的半导体公司,这在所有半导体公司里都是个例外。软件是在硬件边界条件下寻找应用需求的局部最优。NVidia 的策略基本都是通过塑造额外的硬件边界条件来重塑体系,并大力扶持依赖这种边界条件的应用需求,其他公司会自发在这样的边界条件和目标应用上寻找软件的最优解。除非软件行业找不好局部最优,NVidia 才会下场打样。
最后引用一段老黄的话,可以深刻反映上面的思想。
You want the company to be "lazy" about doing things that other people always/can do. If somebody else can do it, let them do it. We should go select the things that if we didn't do it, the world would fall apart. 你期望公司在面对那些其他人经常或者有能力完成的任务时,要能够“保持懒散”。如果这件事情其他人也可以做,那么就应该让他们去做。我们应该专注于那些一旦我们不去承担,整个世界可能会分崩离析的重要事项。
(完)
AGI Playground 大会售票进行中,还有精彩的 AGI Playground 大会周边活动!
Founder Park 联合飞书发起了一场 AGI 应用 hAIkathon,将与先进的模型方、技术工具代表一起,见证「生产力」创新应用涌现!