1次训练用电2.4亿度，AI 为什么那么耗电？

中科院物理所

2024-08-25

The following article is from 返朴 Author 猛犸

仅仅是GPT-4的GPU，一次训练就会用去2.4亿度电。AI为什么那么耗电？它们用掉的电都跑到哪里去了？有可能回收这些电转化成的能量吗？

撰文 | 猛犸
今天我们所说的人工智能（AI），主要指的是生成式人工智能。而其中一大部分，是基于大语言模型的生成式人工智能。
它们需要大规模的数据中心来训练和推理。这些数据中心由大量服务器组成，服务器消耗的电能绝大部分转化成了热能，最后通过水冷系统释放出来。所以也可以说，AI的物理硬件是个巨大的“电热水器”。
这个说法听起来好像有点奇怪。我们都知道，服务器是一种电子计算机，而计算机中处理的是信息。信息和能量又有什么关系呢？
还真有。

处理信息需要消耗能量

1961年，在IBM公司工作的物理学家拉尔夫·兰道尔（Rolf Landauer）发表了一篇论文，提出了后来被称为“兰道尔原理”（Landauer's Principle）的理论。这一理论认为，计算机中存储的信息发生不可逆的变化时，会向周围环境散发一点点热量，其散发的热量和计算机当时所处的温度有关——温度越高，散发的热量越多。
兰道尔原理连接起了信息和能量；更具体地说，连接到了热力学第二定律上。因为逻辑上不可逆的信息处理操作，也就意味着湮灭了信息，这会导致物理世界中熵的增加，从而消耗能量。
这一原理自提出以来遭受过不少质疑。但是近十几年来，兰道尔原理已被实验证明。2012年，《自然》杂志发表了一篇文章，研究团队首次测量到了一“位”（bit）数据被删除时释放的微量热量。后来的几次独立实验，也都证明了兰道尔原理。
所以，处理信息是有能量成本的。
现在的电子计算机在计算时实际消耗的能量，是这个理论值的数亿倍。科学家们一直在努力寻找更高效的计算方法，以降低成本。不过从目前的研究进展情况来看，也许只有真正的室温超导材料能广泛应用于计算设备时，这个能耗才有可能离兰道尔原理所描述的理论值近一些。
AI大模型确实需要大量计算。它的工作过程大致可以分为训练和推理两个阶段。在训练阶段，首先需要收集和预处理大量的文本数据，用作输入数据。然后在适当的模型架构中初始化模型参数，处理输入的数据，尝试生成输出；再根据输出与预想之间的差异，反复调整参数，直到模型的性能不再显著提高为止。而在推理阶段中，则会先加载已经训练好的模型参数，预处理需要推理的文本数据，再让模型根据学习到的语言规律生成输出。
无论是训练还是推理阶段，都是一连串信息重组过程，也同样遵循兰道尔原理。而我们也不难推知，模型的参数量越大，需要处理的数据越多，所需的计算量也就越大，所消耗的能量也就越大，释放的热量也就越多。
只不过，这只是AI耗电中微不足道的一小部分。更大的消耗来自另一个我们更熟悉的物理定律：焦耳定律。这就要从集成电路说起了。

更“大头”能耗来自电流

今天的电子计算机建立在集成电路的基础上。我们经常把集成电路叫做芯片。每个芯片中，都有许多晶体管。
不严格地描述，晶体管可以理解成微小的开关。这些开关串联或者并联在一起，就可以实现逻辑运算。“开”和“关”表示两种状态，也就是所谓的1和0，这就是计算的基本单位“位”。它是计算机二进制的基础。计算机通过快速改变电压，来拨动这些开关。
改变电压，需要电子流入或流出。而电子流入流出，就构成了电流。又因为在电路中总是有电阻，就产生了热能。焦耳定律告诉我们，产生的热量与电流的平方成正比，与导体电阻成正比，与通电时间成正比。
集成电路技术发展到今天，芯片中的晶体管已经变得极为微小。所以，单个晶体管所产生的热量并不会太高。但问题是，芯片上的晶体管实在是已经多到了常人无法想象的程度——比如，在IBM前几年发布的等效2纳米制程芯片中，每平方毫米面积上，平均有3.3亿个晶体管。再小的热量，乘上这个规模，结果一定相当可观。
一个可能让人大跌眼镜的有趣事实是，今天芯片单位体积的功率，比太阳核心多出好几个数量级。典型的CPU芯片功率大概是每立方厘米100瓦，即每立方米1亿瓦；而太阳核心的功率只有每立方米不到300瓦。
在OpenAI训练大语言模型GPT-4时，完成一次训练需要约三个月时间，使用大约25000块英伟达A100 GPU。每块A100 GPU都拥有540亿个晶体管，功耗400瓦，每秒钟可以进行19.5万亿次单精度浮点数的运算，每次运算又涉及到许多个晶体管的开关。
容易算出，仅仅是这些 GPU，一次训练就用了2.4亿度电。这些电能几乎全部转化成了热能，这些能量可以将大约200万立方米冰水——大概是1000个奥运会标准游泳池的水量——加热到沸腾。
为什么AI需要用这么多的强大GPU来训练？因为大语言模型的规模实在太大。GPT-3模型拥有1750亿参数，而据推测，GPT-4拥有1.8万亿参数，是GPT-3的十倍。要训练这种规模的模型，需要在大规模数据集上反复迭代，每一次迭代都需要计算和调整其中数十亿、数百亿乃至数千亿个参数的值，这些计算最终会表现为晶体管的开开关关，和集成电路中细细的电流——以及热量。
能量无法创造也无法消灭，它只能从一种形式转化成另一种形式。对于电子计算机来说，它最主要的能量转化方式，就是从电能转化成热能。
大语言模型也是如此。它对电能和冷却水的需求，正带来越来越严重的环境问题。

回收“电热水器”中的热量？

就在前几天，有微软公司的工程师说，为了训练GPT-6，微软和OpenAI建造了巨大的数据中心，将会使用10万块英伟达H100 GPU——性能比A100更强，当然功耗也更大——但是，这些GPU不能放在同一个州，否则会导致电网负荷过大而崩溃。
AI发展带来的能源短缺问题，已经开始浮现。在今年的达沃斯世界经济论坛上，OpenAI的CEO山姆·阿尔特曼（Sam Altman）认为，核聚变可能是能源的发展方向。但要开发出真正可用的核聚变技术，可能还需要一些时间。
水的问题也是一样。过去几年，那些在AI大模型领域先行一步的大企业们，都面临水消耗大幅增长的局面。2023 年6月，微软公司发布了2022年度环境可持续发展报告，其中用水一项，有超过20%的显著增长。谷歌公司也类似。
有研究者认为，AI的发展，是这些科技巨头用水量剧增的主要原因——要冷却疯狂发热的芯片，水冷系统是最常见的选择。为AI提供硬件基础的数据中心，如同一个巨大的“电热水器”。
如何让这些散失的热能不至于白白浪费？最容易想到也容易实现的，是热回收技术。比方说，将数据中心回收的热量用于提供民用热水，冬季提供民用采暖。现在有一些企业已经着手在回收废热再利用了，例如中国移动哈尔滨数据中心、阿里巴巴千岛湖数据中心等。
这大概也算是一种解法，但并不能从根本上解决问题。AI产业的发展速度之快，在人类历史上没有任何产业能与之相比。平衡AI技术的发展与环境的可持续性，可能会是我们未来几年的重要议题之一；技术进步和能源消耗之间的复杂关系，从来没有这么急迫地出现在人类面前。

来源：返朴

编辑：ArtistET

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

近期热门文章Top10

↓ 点击标题即可查看 ↓