算力！AGI的九层之台，算力为基——谈谈大模型的算力问题

Original 走向未来走向未来 2023-08-31

收录于合集

‍‍今年春节刚过，二、三月份的时候，那时候国内大模型还没有像现在这么“火🔥”，当时跟做 AI 芯片的朋友聊的时候我就说，接下来几年AGI【或者大模型，但我更愿意和硅谷保持同步，使用AGI或生成式AI，大模型只是其中一部分】对算力的需求无止境。我用饕餮来形容AGI，而算力就是饕餮的食物【其实还有数据，不过跟搞芯片的朋友聊的是算力】。据传饕餮贪食无餍，会吃掉一切食物，甚至自己的身体，所以《吕氏春秋》有言“周鼎著饕餮, 有首无身, 食人未咽, 害及其身, 以言报更也。”同样的思路，年初时，我曾经提议公司尽可能多的购买A100的卡，并联合某地方政府构建算力中心。因为有了算力，才有资格进入AGI的牌桌。当然，有了算力，即使没有搞成大模型或 AGI，也能靠卖算力把公司搞的好好的！

关于这个问题，必须从 AGI 或生成式 AI 的视角才能看出来。而仅仅从大模型或者 AIGC（ Artificial Intelligence Generated content，人工智能生产的内容）的视角，也许看不到这么远！顺带一提，这里的生成式 AI（Generative AI）中的“生成Generative”和 AIGC 中的“生成Generated”，其概念的内涵和外延都差别巨大。生成式AI 中的“生成式”，是与机器学习的另一个概念“判别式”对应的【详情后面专文来说明吧，本文的内容还是算力】。再多说一句 AGI，虽然已经有超过90个机构发布了国产大模型【全部列表见：https://github.com/wgwang/LLMs-In-China】，但这里面真正在做 AGI的，甚至想到 AGI的，不能说没有，至少也是非常、非常、非常【重要的说三遍】少！

本号持续关注通用人工智能，会持续跟踪人工智能【大模型、AGI、AIGC、生成式AI、文生文、文生图、图像理解、强化学习、知识图谱、深度学习】有关的数据、算法、模型和创投，欢迎关注本公众号【走向未来】获得一手数据和知识。

回到算力上，写这篇文章的起因是前不久在集度公司的演讲《生成式AI技术的应用和机遇》。当时有个听众提了个关于大模型与自动驾驶的问题。我个人对自动驾驶关注了很长时间了，在 ChatGPT 出来之前，我一直认为自动驾驶单纯靠单机【车载设备】的智能化是无法实现的，必须要车与车之间进行互联与通信，扩大单车的感知范围。比如车与车之间直接通过通信告知，依靠车与车之间的通信还能够感知周边车的状况（比如车速、距离等），而不需要靠智能体来进行识别了。进一步的，通过车间互联通信，还能够依靠其他车来实现更长距离更大范围的感知等。

但是，当前AGI的发展，改变了我的想法，我认为技术上，自动驾驶技术已经具备了，虽然实现条件还不满足。不满足的最关键条件是单车的算力不足。也就是说，当前的 AGI（神经网络大模型+强化学习+知识图谱）在足够算力的支撑下，是完全能够实现自动驾驶的。但这个算力，估摸着还需要在现有单卡（H100）算力的基础上再提升一千到一百万（1K~1M）倍【即单车算力能够达到10000卡 H100的水平】。不知道还需要多少年能够实现！

Nvidia DGX GH200超级计算集群，提供了约2000张A100的算力

在自动驾驶之外，再回头看看“大模型”。以公开的 LLaMA-65B 的模型为例，该模型是65B 参数，在1.4T 词元的数据集，使用2048个Nvidia A100的GPU集群上训练了21天，消耗1,022,362个 A100（80G）的GPU小时，大概成本为500~1000万美元。GPT-4的训练算力成本则超过1亿美元，小道消息是使用了超过20000个Nvidia A100（80G） GPU的超级计算集群来训练的。即使更小的模型，比如MPT-7B ，使用了1T 词元的数据训练出来的，训练该模型的算力成本也要20万美元。从这些数据上，即可以看出“没有算力，是没有资格进入AGI的牌桌”的观点。当然，也可以说，Money is all you need！

最后，讲1.5个小道消息，和三个故事。从这些小道消息和故事中也同样可以看出，算力对于这一波人工智能的发展的重要性！而这也是为什么，所有 AI 公司都在为 Nvidia 打工，老黄才是这一波AI发展的大赢家！

Nvidia 股价飙升

小道消息是，光年之外没有把钱花在刀刃上，也就是没有购买足够的算力，从而把创始人搞郁闷了（有传闻是抑郁了）！要我来操刀光年之外，成立公司的同时就要买一堆A100（或 A800）的卡，然后招人来搞大模型，那可能就另外一个故事了【听起来像是百川智能^_^，算0.5个小道消息吧】。

故事1：OpenAI 算力紧缺

在一个采访中，Sam Altman明确说了 OpenAI 受到GPU的严重限制。该文已经因OpenAI 的要求被删除了，不过网络上依然记忆。该报道提到：

整个讨论中出现的一个共同主题是，目前 OpenAI 的 GPU 极其有限，这推迟了他们的许多短期计划。客户抱怨最多的是关于 API 的可靠性和速度。Sam 承认他们的担忧并解释说，大部分问题是 GPU 短缺造成的。这包括更长的 32k上下文尚无法推广给更多人，推广到100K~1M 的上下文也还需要更大的研究突破；微调API目前也遇到 GPU 可用性的瓶颈，类似适配器或LoRa等高效的微调方法有待研究；客户转悠的模型也受到 GPU 可用性的限制而无法很好地提供服务，当前需要使用这个服务，必须预先支付 10 万美元。

故事2：Sam Altman和Open AI投资了至少9个量子计算领域的项目

Sam Altman和 OpenAI 在过去几年投资了许多量子计算公司，包括Rigetti Computing、Atom Computing、Xanadu、PsiQuantum、Quantum Motion、Quantinuum、Zapata Computing、QC Ware、IonQ等等。现有的算力依赖于 Nvidia的 GPU，但现有芯片制程可以预见马上就要达到1nm 后而无法在技术上更近一步。未来的算力解决还是依赖与量子计算的成熟。而一旦量子计算突破了，算力不再是问题了，那么 AGI必然会加速到来。【这个投资的眼光是要放的很长远的了】

故事3：Inflection AI融资13亿美元并构建世界上最大的AI 超算

Inflection AI今天【2023 年6月29日】宣布该公司13亿美元，由Microsoft, Reid Hoffman, Bill Gates, Eric Schmidt和NVIDIA投资。同时，Inflection AI 也宣布与其合作伙伴 CoreWeave 和 NVIDIA 一起，构建世界上最大的人工智能集群，其中包含 22,000 个 NVIDIA H100 GPU。每个 H100的算力大约等价于10个 A100的算力（训练和推断的倍数不一样，H100对 Transformer 架构的训练和推断有专门的加速）。Inflection AI这个超算集群一旦构建完成，拥有了大约22万张 A100的算力，可以说超越了国内所有的大厂的算力！

最后，本文是《迈向 HAGI 》的一部分，其他内容参阅：

国产大模型突破80个，Google开始为Gemini造势：百模大战V6

GPT-4模型架构：它比你想象的更简单

深度全解析开放开源大模型之BLOOM

如果觉得这个文章对你有用，请随手点赞、关注、转发、在看、打赏！

也欢迎关注本号：

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

算力！AGI的九层之台，算力为基——谈谈大模型的算力问题

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

生成图片，分享到微信朋友圈

算力！AGI的九层之台，算力为基——谈谈大模型的算力问题

您可能也对以下帖子感兴趣