查看原文
其他

AI算力扩展能否持续至2030年?深度剖析四大关键制约因素

常华Andy Andy730
2025-01-02

AI算力扩展的四大制约因素

一、电力供应

1. 大型数据中心园区:预计到2030年,将会出现1到5吉瓦的数据中心园区,能够支持1e28到3e29 FLOP的AI训练。   
2. 地理分布式训练:通过将训练工作负载分布到更广泛的区域,甚至跨越不同电网,可以充分利用多个地区的能源基础设施,从而进一步扩大训练规模。在美国,分布式网络预计可以容纳2到45吉瓦的电力,支持2e28到2e30 FLOP的训练。

3. 潜在瓶颈:电力供应扩展可能面临输电线路建设周期长、并网流程复杂、变压器交付周期延长等问题。此外,政治和监管限制、天然气供应及管道建设的挑战,以及美国政府的碳中和目标,都可能构成额外障碍。

二、芯片制造能力
1. GPU产能:AI芯片,尤其是GPU,是AI训练的关键硬件。目前,先进封装和高带宽内存的产能限制着GPU的生产。
2. 产能增长:台积电等芯片制造商计划扩大产能,预计到2030年将有足够的产能生产1亿个相当于H100的GPU,足以支持9e29 FLOP的训练。

3. 潜在不确定性:由于先进封装和高带宽内存产能扩展的不确定性,GPU产量预测存在较大波动,估计范围为2000万到4亿个H100等效GPU,对应的训练规模为1e29到5e30 FLOP。

三、数据稀缺性
1. 网络文本数据:目前,AI实验室主要依赖网络文本数据进行训练,但网络数据的增长速度低于AI训练所需的数据增长速度。
2. 多模态数据:包括音频、图像和视频在内的多模态数据可缓解数据稀缺性问题。预计多模态数据的有效库存将达到450万亿到23万亿个token,支持6e28到2e32 FLOP的训练。

3. 合成数据:通过利用AI模型生成合成数据,可以进一步扩大数据供应,但合成数据的质量和成本仍需解决。

四、延迟瓶颈
1. 模型处理延迟:AI模型处理单个数据点所需的最小时间会随着模型规模的增加而增长。
2. 批次大小:虽然训练数据可以分批并行处理,但批次大小受到限制,这可能导致训练时间延长。

3. 潜在解决方案:采用更复杂的网络拓扑结构,例如更大的节点或节点间更多的连接,可以有效缓解延迟瓶颈。

结论
1. 2e29 FLOP的可行性:综合考虑上述四种限制因素,预计到2030年,高达2e29 FLOP的AI训练将可能实现。这将使AI模型的规模相对于当前模型扩大约10,000倍。
2. 主要瓶颈:电力和芯片的可用性是当前主要的限制因素。
3. 数据瓶颈的不确定性:数据稀缺性是最大的未知因素,其不确定性范围跨越四个数量级。
4. 潜在的巨大影响:如果AI训练规模达到2e29 FLOP,可能会吸引数千亿美元的投资,成为人类历史上最大的科技项目。
----------

引言

近年来,AI模型的性能显著提升。我们的研究表明,计算资源的增长在AI性能改善中发挥了关键作用。规模效应带来的持续且可预测的提升促使AI实验室积极扩大训练规模,训练算力以每年约4倍的速度增长。

为了更好地理解这种4倍的年度AI训练算力增长,我们可以将其与近期一些快速技术扩展的增长速度进行对比。这一增长率超过了移动电话普及的最高增长率(1980-1987年为2倍/年)、太阳能装机容量的增长率(2001-2010年为1.5倍/年)以及人类基因组测序的增长率(2008-2015年为3.3倍/年)。

图1:主要瓶颈对AI扩展施加的规模约束估计。各项估计基于历史预测。深色区域代表四分位数范围,浅色区域表示80%置信区间。

本文探讨当前AI训练扩展的高速增长(约每年4倍)在2030年之前是否在技术上可行。我们研究了可能制约扩展的四个关键因素:电力供应、芯片制造能力、数据稀缺性以及"延迟墙"(latency wall)——这是AI训练计算中不可避免延迟所施加的基本速度限制。

我们的分析考虑了产能扩张、投资和技术进步等因素。这包括计划中的先进芯片封装设施增长、新建发电厂以及数据中心的地理分布,以利用多个电力网络。为考虑这些变化,我们引用了多种公开来源的预测,包括半导体代工厂的扩产计划、电力供应商的容量增长预测、其他相关行业数据及我们的研究成果。

我们发现,到本十年末,训练达到2e29 FLOP(每秒浮点运算次数)很可能是可行的。换言之,到2030年,训练超过GPT-4规模的模型将变得非常可能,这种规模差异类似于GPT-4与GPT-2之间的差距。如果这一目标得以实现,我们可能会在本十年末看到AI的进步,如同2019年GPT-2的基础文本生成与2023年GPT-4的复杂问题解决能力之间的巨大飞跃。

AI开发者是否会实际追求这一规模扩展,取决于他们在未来几年内是否愿意投入数千亿美元进行AI扩展。尽管我们在后文中简要讨论了AI投资的经济学,但对投资决策的全面分析超出了本报告的范畴。

对于每一个瓶颈,我们提供了相关供给的保守估计及其允许的最大训练规模。我们假设训练周期可能在两到九个月之间,这反映了向更长训练周期的趋势。同时,我们假设在进行分布式训练时,AI数据中心的电力分配将只能利用现有供应的约10%到40%。

电力限制。业界已经讨论了到2030年建设1到5 GW的数据中心园区的计划,这将支持训练运行在1e28到3e29 FLOP之间(参考,GPT-4的计算能力大约在2e25 FLOP)。地理分布式训练可以利用多个地区的能源基础设施进一步扩展。考虑到美国数据中心扩展的当前预测,美国的分布式网络可能能够容纳2到45 GW,假设数据中心间的带宽充足,将支持从2e28到2e30 FLOP的训练运行。超出这一范围,愿意承担新电站成本的参与者如果提前3到5年规划,可以获得显著更多的电力。

芯片制造能力。AI芯片为训练大型AI模型提供所需的算力。目前,扩展受到先进封装和高带宽内存(HBM,High Bandwidth Memory)生产能力的制约。然而,鉴于制造商计划的扩产和硬件效率的提升,预计将有足够的产能为100M H100等效GPU提供训练支持,以实现9e29 FLOP的训练运行,即使考虑到GPU在多个AI实验室之间分配,部分用于模型服务的情况。然而,这一预测具有显著的不确定性,我们的估计范围从2000万到4亿H100等效芯片,对应于1e29到5e30 FLOP(是GPT-4的5,000到300,000倍)。

数据稀缺性。训练大型AI模型需要相应的大规模数据集。索引的网络包含大约500万亿(T)个独特词汇,预计到2030年将增加50%。多模态学习(包括图像、视频和音频数据)可能适度贡献于扩展,合理推测数据量可能增加三倍。考虑到数据质量、可用性、多轮次训练和多模态分词器效率的不确定性,我们估计到2030年可用于训练的数据量相当于400万亿到20万亿个tokens,支持6e28到2e32 FLOP的训练运行。我们推测,AI模型生成的合成数据可能会显著增加这一数据量。

延迟墙(Latency wall)。延迟墙代表了一种"速度限制",源于前向传播和反向传播所需的最小时间。随着模型规模的扩大,训练所需的顺序操作会增多。增加并行处理的训练tokens数量(即"批量大小")可以摊销这些延迟,但这种方法是有限的。在达到"临界批量大小"之后,进一步增加批量大小的训练效率回报递减,而训练更大模型需要顺序处理更多批次。这设定了特定时间框架内训练FLOP的上限。我们估计,现代GPU设置的累计延迟将使训练运行限制在3e30到1e32 FLOP之间。超越这一规模需要替代的网络拓扑、降低通信延迟,或比目前可行的更激进的批量大小扩展。

总结。虽然关于技术上可行的训练规模存在相当大的不确定性,但我们的分析表明,约2e29 FLOP的训练运行在2030年是很可能可行的。这代表了相对于当前模型规模的显著增加,类似于GPT-2与GPT-4之间的规模差异。最初可能限制扩展的因素是电力,随后是制造足够芯片的能力。进一步的扩展将需要大幅增加能源基础设施以及建设新的发电厂,高带宽网络连接地理分布的数据中心,并显著扩大芯片生产能力。


近十年AI扩展的限制因素

电力限制

在本分析中,我们预测支持当前AI训练扩展轨迹所需的电力需求。随后,我们探讨满足这些电力需求的潜在策略,包括现场发电、本地电网供应以及地理分布式训练网络。我们主要关注美国境内进行的AI训练运行,评估每种方法的可行性和制约因素。

预计到2030年,数据中心园区的电力需求将在1到5吉瓦(GW)之间。这一范围涵盖了亚马逊在宾夕法尼亚州的960 MW核电合同,以及OpenAI/Microsoft和Sam Altman据报正在寻求的5 GW园区。这类园区将支持从1e28到3e29 FLOP的AI训练运行,考虑到机器学习(ML)GPU能源效率的预期提升。

超越单一园区的数据中心扩展将涉及地理分布式训练,这将利用多个地区的能源基础设施。根据当前预测,分布式训练网络能够满足2到45 GW的需求,支持2e28到2e30 FLOP的训练运行。此外,带宽也可能限制此类网络中可完成的最大训练运行。具体而言,现有数据中心的跨数据中心带宽为4到20 Petabits每秒(Pbps),可支持3e29到2e31 FLOP的训练运行。这一带宽水平可能足够高,以至于相较于确保电力供应,带宽不会成为主要障碍。

更大规模的训练运行是可行的:我们预计到2030年,为GPU训练运行提供所需基础设施的成本将占GPU自身成本的约40%。通过天然气或太阳能迅速扩展电力供应在做出扩展决策后的三到五年内是可以实现的,尽管这可能会受到基础设施层面瓶颈的限制。

当前AI电力需求趋势

目前,AI模型训练消耗的数据中心总电力使用量的比例虽小,但增长迅速。在此,我们调查现有的当前需求估计,推断未来趋势,并将这些预测与总体数据中心和国家电力容量进行比较。

大规模AI训练主要依赖于硬件加速器,尤其是GPU。目前的先进GPU是Nvidia的H100,其热设计功率(TDP)为700W。考虑到支持硬件(如集群互连和CPU)以及数据中心级别的开销(如冷却和电力分配),每个GPU的峰值功率需求可高达1,700W。

利用每个GPU的电力需求,我们可以估算前沿模型的安装电力需求。最近的Llama 3.1 405B模型,其4e25 FLOP的训练运行,使用了16,000个H100 GPU。这一配置要求的总安装容量为27 MW(16,000个GPU × 1,700W每个GPU)。尽管这一需求相当于23,000个美国家庭的年均消费,但与需要数百兆瓦的大型数据中心相比,仍然较小。那么到本十年末,这一需求将增加多少呢?预计到2030年,前沿训练运行将比Llama 3.1 405B大5,000倍,达到2e29 FLOP。然而,我们并不期望电力需求按如此比例增长,原因有多方面。

首先,我们预计硬件的能效会随时间推移而提高。从2010年到2024年,用于机器学习(ML)训练的GPU每瓦特的峰值FLOP/s增长了约1.28倍。如果这一趋势持续到2030年,我们将看到训练运行的能效提高至4倍。

其次,我们预计未来的AI训练将更加高效地使用硬件。虽然Llama 3.1 405B使用的是FP16格式(16位精度),但FP8训练的采用正在逐渐增多,Inflection-2就是一个例子。Anthropic的联合创始人曾表示,FP8将成为前沿实验室的标准做法。我们预计到2030年,训练运行将转向8位格式,这将使能效提高约2倍(例如,H100在8位精度下的性能约为2e15 FLOP/s,而在16位精度下为1e15 FLOP/s)。

第三,我们预计训练运行的持续时间将延长。自2010年以来,著名模型的训练时间每年增加20%,预计到2030年将达到当前的3倍。更长的训练运行时长将分散能源需求。例如,Llama 3.1 405B的训练持续了72天,而GPT-4等其他当代模型的训练时长被推测在约100天。然而,我们认为训练运行超过一年的可能性不大,因为实验室希望在这些时间尺度上采用更优的算法和训练技术,以实现显著的性能提升。

基于以上因素,我们预计到2030年的训练运行将是Llama 3.1 405B训练运行能效的24倍(硬件效率4倍 × FP8 2倍 × 延长持续时间3倍)。因此,预计2030年的2e29 FLOP训练运行将需要5,000倍(规模增加)/ 24倍 ≈ 200倍的电力需求,约为6 GW。

与美国总安装电力容量约1,200 GW或2023年美国平均生产的477 GW电力相比,这些数据仍然相对较小。然而,与目前所有美国数据中心的电力消耗(约20 GW)相比,这一需求是相当可观的,而其中大部分与AI无关。此外,耗电量在数吉瓦范围的设施在历史上是前所未有的,当前一些高能耗设施如铝冶炼厂的需求约在1吉瓦左右,但不会多于此。在接下来的部分中,我们将探讨这些高能耗设施是否可行。

地理位置集中训练的电力限制

对于地理位置集中的大规模AI训练,无论是单个数据中心还是同一园区内的多个数据中心,主要有两种电力供应方案:现场发电或通过本地电网从一个或多个电站获取电力。

目前,科技巨头正积极探索现场发电方案。Meta已获得密苏里州350兆瓦(MW)和亚利桑那州300兆瓦太阳能电厂的电力输出权。亚马逊在宾夕法尼亚州的数据中心园区与邻近的2.5吉瓦(GW)核电站签订了高达960兆瓦的供电合同。这些交易主要出于降低电网连接成本并确保稳定能源供应的考虑。未来几年,这些数据中心可能支持空前规模的训练运行——960兆瓦的电力供应量将是当前27兆瓦前沿训练运行所需电力的35倍以上。

然而,通过现场发电获取更多电力存在局限性。尽管美国至少有27座发电厂容量超过2.5吉瓦,其中最大的是华盛顿州6.8吉瓦的Grand Coulee水电站,但现有电厂的大部分电力容量可能已通过长期合同锁定。这种有限的备用容量意味着现有美国电厂可能难以满足大规模现场发电交易的需求。备用电力的稀缺性也引发争议。例如,亚马逊960兆瓦现场核电采购遭到两家公用事业公司的质疑,他们试图将亚马逊的采购量限制在目前的300兆瓦。他们认为这种安排规避了共享电网成本;类似争议可能阻碍其他现场发电交易的达成。

未来可能会建设更多大型电厂,但近期新建电厂数量有限,且最近建成的3吉瓦以上电站大约耗时5年。因此,在2030年之前,任何已规划的美国电厂都不太可能支持超过3吉瓦的现场数据中心。相反,扩大规模可能需要依赖从电网获取电力。

我们可以参考地理位置集中地区的数据中心用电趋势。以北弗吉尼亚州为例,作为美国最大的数据中心集群,该地区拥有近300个数据中心,连接了5吉瓦的峰值电力容量。北弗吉尼亚州最大的电力供应商Dominion预计,其数据中心负载将在未来15年内增长4倍,年均增长率约为10%。如果Dominion和其他区域供应商保持类似的扩展计划,预计到2030年,北弗吉尼亚州的数据中心电力容量将增至约10吉瓦。

一些公司正在探索吉瓦级数据中心的可能性,这一规模在2030年前似乎是可实现的。行业领袖的支持和最近的媒体报道都印证了这一评估。美国最大公用事业公司NextEra的首席执行官近期表示,尽管为5吉瓦AI数据中心寻找合适地点存在挑战,但国内确实有能够支持1吉瓦设施的位置。此外,据媒体报道,微软(Microsoft)和OpenAI正在规划名为Stargate的AI数据中心园区,预计将于2028年建成,届时将需要"数吉瓦的电力",并计划到2030年扩展至5吉瓦。

综上所述,当前发展趋势表明,到2030年,能够满足2至5吉瓦电力需求的AI训练设施是可行的。这一评估基于三个关键因素:
  1. 数据中心电力容量的预期增长,以北弗吉尼亚州从5吉瓦增至10吉瓦为例;
  2. 行业对吉瓦级数据中心的雄心勃勃计划,如传闻中的Stargate园区;
  3. 公用事业公司评估显示,1至5吉瓦设施在部分美国地区是可行的。

以Stargate园区为例,其5吉瓦的电力供应将使2030年的训练运行达到2e29浮点运算(FLOP),这考虑了能效的预期进展以及训练时长超过300天的情况。由共址发电厂或本地电力网络供电的训练网络不太可能超过10吉瓦,因为这接近北弗吉尼亚州所有数据中心的总预计电力需求。

地理分布式训练的电力限制

将AI训练扩展至多个数据中心,有助于突破单一地点的电力限制。分布式训练(distributed training)涉及将工作负载分散到多个数据中心,这些数据中心可能相邻或分散。此方法可能已应用于大型模型训练,如Gemini Ultra,以获取更多硬件资源。地理分布式训练(geographically distributed training)进一步拓展了这一概念,潜在地利用不同的电力网络。大型科技公司在这方面具有优势,因其数据中心已遍布多个地区。例如,谷歌(Google)在美国15个不同州运营数据中心。这种方法可通过获取更广泛的电力资源来实现更大规模的训练操作。

分布式数据中心网络能获取多少电力?与本地数据中心网络类似,我们的分析基于历史趋势、供应商预测和第三方对数据中心电力增长的预测。

美国数据中心的电力接入潜力巨大且持续增长。为准确评估这一能力,区分两个关键指标至关重要:实际能源消耗的平均水平(考虑停机时间和波动)和数据中心的总峰值容量。我们估计,目前美国数据中心的平均电力消耗超过20吉瓦(GW)。Dominion表示,他们服务的数据中心平均需求占其容量的60%,而行业专家估计数据中心的实际消耗约占额定容量的40%至50%。这表明总体容量在33至50吉瓦之间,我们取40吉瓦作为中心估算。此外,根据SemiAnalysis的数据中心行业模型,北美(主要在美国)的数据中心IT容量在2023年底约为36吉瓦,预计2024年底将达到约48吉瓦,与这一估算一致。

图2:北美数据中心总安装IT容量的现状和规划(数据来源:SemiAnalysis数据中心行业模型)。注意:计算总容量时需将这些数字乘以PUE(Power Usage Effectiveness,能源使用效率)。AI数据中心的PUE约为1.2,其他数据中心约为1.5。

数据中心电力容量快速扩展的潜力显著,多种来源和预测都证实了这一点:
  1. SemiAnalysis的历史数据显示,2019年至2023年间,跟踪的数据中心容量年增长率约为20%。2024年和2025年的扩展计划目标更为激进,如果按时完成,年增长率将达到32%。
  2. 公用事业公司对数据中心行业的增长预测:北弗吉尼亚的Dominion计划未来几年实现10%至15%的年增长率,此前2017至2023年间的年需求增长为24%。另一家弗吉尼亚公用事业公司NOVEC预计未来几年将实现17%的年增长。
  3. 独立估算也支持约15%的年增长率,如高盛(Goldman Sachs)预测数据中心电力消耗在2030年将以15%的年增长率增至400太瓦时(TWh)(平均需求约为46吉瓦),以及电力研究所(EPRI)在AI应用快速扩展情况下考虑的15%增长率。

综合考虑,10%至30%的年增长率似乎是可实现的。以15%的中心估算为例,意味着到2030年美国数据中心的容量可能从40吉瓦增长至最高90吉瓦,即增加50吉瓦。值得注意的是,我们使用了实际增长的多种预测来支持可行增长的估算,因此这一数字可以说是保守的。

考虑到所有数据中心的电力容量,有多少可用于AI?目前,美国大多数数据中心专注于非AI用途,如互联网服务和云计算。SemiAnalysis的数据显示,到2023年底,北美的AI数据中心装机容量为3吉瓦,约占总数据中心容量的8%。然而,AI数据中心的电力需求比例正在上升,预计未来几年AI的电力容量占比将显著增加。

现有对非AI数据中心年电力需求增长的预测集中在8%至11%之间。如果按8%的增长率计算,非AI应用的需求将从当前的约37吉瓦增长至2030年的约60吉瓦,从而留下约30吉瓦的容量供AI数据中心使用。这将导致AI装机容量大约增加10倍,或约47%的年增长率。此预测假设固定比例的增长分配给非AI应用。然而,如果AI应用证明更具盈利性或战略重要性,云服务提供商可能会重新分配资源,导致AI装机电力容量的更高增长,牺牲非AI扩展。

最后,我们估算单次训练运行可用的容量。考虑到新增电力容量可能在多个参与者(如微软、谷歌、亚马逊等)之间共享,我们推测最大份额的公司可能获得约33%的AI数据中心电力容量。公司可提前分配容量用于训练,在启动大型训练运行时,高达80%的容量可能用于训练。因此,33% x 80% = 26%的AI数据中心容量可能用于单次训练运行。

根据我们的估算,到2030年,美国资源最丰富的AI公司可能能够组织一个30吉瓦 x 26% ≈ 8吉瓦的分布式训练运行。考虑到相关增长率和当前容量的不确定性,我们得出一个保守估算:开发者能够调动的分布式训练最大电力供应为2至45吉瓦,这将支持训练运行在2e28到2e30浮点运算(FLOP)之间。作为参考,我们之前的分析表明,单校园设施到2030年可能达到2至5吉瓦的容量。我们的分布式训练估算上限(45吉瓦)显著超过了这一单校园预测,表明分布式训练有潜力克服电力瓶颈。

地理分布式训练的可行性

地理分布式训练(geographically distributed training)通过将工作负载分散到多个数据中心来缓解电力限制,根据我们的分析,这种规模的操作在技术上是可行的。这种方法建立在现有的AI模型训练实践基础之上,其中计算已经在多个GPU上实现了大规模并行化。AI训练的基本结构天然适合地理分布:数据集被分为多个批次(batch),模型权重更新仅在每个批次结束时进行。在分布式设置中,这些批次可以跨不同地点分配,数据中心只需在每个批次结束时同步和共享梯度更新。

现有实践为这一方法的可行性提供了证据。例如,据报道,谷歌(Google)的Gemini Ultra模型在多个数据中心进行训练,证明了地理分散训练的可行性。虽然Gemini Ultra具体使用的数据中心地理分布情况尚不清楚,但其训练过程为大规模分布式操作提供了具体实例。

在分布式训练中,广泛分散的数据中心的可行性主要受限于延迟(latency)。在一个假设的场景中,主要美国数据中心通过11,000公里的光纤环路相连(这是一个较高估计),通信延迟约为55毫秒。同步需要进行两次往返,这将耗时110毫秒。使用的传播速度为光速的三分之二,因此只要我们使用光纤通信,这一延迟就无法进一步降低。如果一个训练运行在300天内完成,最多可能涉及300天 / 110毫秒 = 240百万次梯度更新。

我们不确定批次的大小能有多大而不影响训练效果。假设最大批次为6000万tokens,推测这与GPT-4在训练期间达到的最大批次大小相匹配。这将允许在训练中处理大约1e16个tokens(240M批次 x 6000万tokens/批次),根据Chinchilla最佳扩展(Chinchilla optimal scaling),这将实现约6e31浮点运算(FLOP)的训练运行。换言之,即使在悲观假设下涉及非常远的数据中心网络,延迟也不太可能成为主要制约因素。

除了延迟外,带宽(bandwidth)也影响大规模分布式训练的可行性。当前的数据中心交换机技术,以Marvell Teralynx 10为例,提供了可实现带宽的洞见。这款数据中心交换机支持128个400 Gbps端口,总带宽为51.2 Tbps。使用标准的两级环形全规约(all-reduce)操作,将一个16T参数模型的梯度更新以8位精度传输,每次往返所需时间为2 x 16T x 8 bit / 51.2 Tbps = 4.9秒。加上之前提到的110毫秒延迟,每次全规约的总时间为5秒。考虑到Chinchilla扩展,该模型大小将最大化在300天训练时间内可以完成的训练规模,从而实现3e28 FLOP的训练运行。

然而,实际可实现的带宽可能远高于单个Teralynx 10以太网交换机所能管理的带宽:

  1. 数据中心之间的连接可以通过多个交换机和相应的光纤来管理,从而实现更大的带宽。例如,谷歌的Stargate网络中的每个节点配备了32个交换机以管理外部流量。在环形全规约配置中,一个32交换机的数据中心可以分配16个交换机来管理与每个相邻数据中心的连接。参考谷歌的B4网络,我们认为每对数据中心配置8至32个交换机是可行的。

  2. 未来可能会出现性能更优的交换机和收发器,从而提高可实现的带宽。ASIC交换机的广泛趋势表明,带宽可能以每年1.4到1.6倍的速度增长,这将导致到本世纪末,带宽达到380至850 Tbps的以太网交换机。

我们对2030年可实现的跨数据中心带宽的最终估算为4至20 Pbps,这将支持训练运行在3e29至2e31 FLOP之间。考虑到这一点,带宽不太可能成为分布式训练运行的主要制约因素,相较于首先实现所需的电力供应。

为分布式训练网络扩展带宽容量是一项相对简单的工程挑战,可以通过在数据中心之间部署额外的光纤对来实现。在AI训练运行可能耗资数千亿美元的背景下,进行这种带宽扩展所需的财务投资显得相对适中。

建模能量瓶颈

根据我们的分析,到2030年,支持本地电力供应的AI训练运行可能涉及1至5吉瓦(GW)的电力,达到1e28至3e29浮点运算(FLOP)。同时,地理分布式训练运行可能积累2至45吉瓦的电力供应,并实现数据中心之间4至20拍比特每秒(Pbps)的连接,从而支持2e28至2e30 FLOP的训练运行。总体而言,到2030年,2e28至2e30 FLOP范围内的训练运行似乎是可行的。

图3:本地和分布式数据中心网络设置的预计电力消耗,以及它们所支持的最大训练规模。该估算考虑了能源效率提升、带宽和延迟约束

电力供应扩展潜力分析

目前,我们尚不清楚如果积极推动,数据中心的电力供应能扩展到何种程度。我们的讨论基于现有的数据中心电力供应及公用事业公司的增长预测。如果在扩大电力供应方面进行前所未有的投资,这些数字可能会发生显著变化。

建设新的发电厂在经济上是可行且可扩展的,但在电网层面也存在重要限制:
  1. 天然气和太阳能发电厂能够相对迅速地建成,通常在两年内完成。
  2. 核能和水电等其他类型的电力则需要更长时间。
  3. 目前美国没有在建的全规模核电厂。

电力供应扩展成本估算

以天然气发电厂为例:
1. 过夜资本成本(overnight capital cost):
   - 包含95%碳捕集:约每千瓦2,500美元
   - 不包含碳捕集:约每千瓦900美元
2. 运营成本:
   - 基础:每千瓦时约4.5美分
   - 包含碳捕集:每千瓦时额外增加约4美分
注意:包含碳捕集的估算仍处于理论阶段,因为碳捕集天然气尚未大规模投入使用。
数据中心电价:
- 当前:约每千瓦时8.7美分
- 使用含碳捕集的天然气发电(假设100%运营成本溢价):约每千瓦时17美分
硬件成本对比:
- H100 GPU:功率需求1,700W,成本约30,000美元,即每千瓦约17,000美元
- 使用天然气为H100供电的训练运行:
  - 每个H100的资本成本:约1,500至4,000美元

  - 变动成本:约2,000美元          

如果AI开发者必须为所需发电厂的建设提供资金,这将使硬件成本增加约20%。然而,考虑到硬件效率提升趋势,到2030年,每美元购买的GPU可实现8倍的FLOP,所需电力减少4倍,电力成本将占GPU成本的40%。

尽管AI开发者可能愿意在解决电力瓶颈方面进行重大投资,但以下因素可能限制可用于AI训练的电力供应:

1. 基础设施建设时间:
   - 输电线路:通常需要约10年完成,且常面临政治挑战
   - 新发电能力接入电网(互联):最近的平均排队时间已达五年
   - 电气变压器交付:可能需要长达两年
2. 政治和监管限制:可能阻碍或延迟发电厂及其支持基础设施的建设
3. 天然气扩展面临的挑战:
   - 需增加天然气钻探和建设额外管道
   - 管道建设可能成为瓶颈
4. 环境目标与能源扩张的矛盾:
   - 美国政府计划到2035年实现100%无碳污染能源
   - 主要云计算提供商(谷歌、微软、亚马逊)承诺到2030年实现碳中和
   - 化石燃料发电厂可能需配备碳捕集设备,而该技术尚未大规模测试
5. 煤电利用的限制:
   - 煤电厂运行率已从2008年的70%下降至约50%

   - 煤炭的碳排放强度远高于天然气,与环境目标冲突

鉴于这些潜在瓶颈,目前尚不清楚到2030年美国电力供应在成本方面能否如当前边际价格那样任意扩展。因此,我们保守地假设电力供应不会超出公用事业公司和独立分析师预测的水平。这些复杂的基础设施要求和长期准备时间使电力能力的快速扩展面临重大挑战,可能会限制大规模AI训练操作的增长。

芯片制造能力

AI芯片,尤其是图形处理器(GPU),为AI模型训练提供了关键的计算能力,是AI规模扩展的核心输入。近年来,GPU集群的增长成为计算能力提升的主要驱动力,更高性能、低延迟和更高内存带宽的GPU使得大规模训练成为可能。因此,AI的扩展可能会受到芯片制造商能够生产的高端GPU数量的限制。

通过分析半导体行业数据,包括预计的封装能力增长、晶圆生产增长和制造工厂(fabs)的资本支出,我们对未来GPU的生产及其约束进行了建模。预测显示,到2030年,GPU的生产预计将以每年30%到100%的速度增长,这与晶圆级芯片尺寸封装(Chip-on-Wafer-on-Substrate, CoWoS)和高带宽内存(High Bandwidth Memory, HBM)的生产增长率相符。

在中位预测中,我们预计到2030年将有足够的制造能力生产1亿个H100等效GPU用于AI训练,足以支持一个9e29 FLOP的训练运行。这一估计考虑到GPU将在多个AI实验室之间分配,并部分用于模型服务。然而,由于高级封装和高带宽内存容量扩展的不确定性,预测范围从2000万到4亿个H100等效GPU,可能实现1e29到5e30 FLOP的训练运行(是GPT-4的5,000到250,000倍)。

当前生产与近期预测

近年来,数据中心GPU的销售呈现快速增长趋势:
1. Nvidia在AI GPU市场占主导地位,2023年出货量达376万台,较2022年的264万台显著增长。
2. 2023年底,向主要科技公司交付的Nvidia H100 GPU达65万台。

3. 2024年预计出货量可能增长三倍,达150万到200万台H100,足以支持6e27 FLOP的训练运行。

然而,如果将当前每年4倍的计算趋势外推到2030年,预期训练运行将达到约2e29 FLOP,需要近2000万H100等效GPU。假设最多只有约20%的总产量可被单个AI实验室使用,到2030年,全球制造能力需要接近1亿个H100等效GPU,这远超当前生产水平,需要大幅扩展GPU生产。

生产扩展的挑战

作为Nvidia主要芯片代工厂的台积电(TSMC)在增加生产能力方面面临几个挑战:
1. 芯片封装能力瓶颈:
   - TSMC的CoWoS工艺是Nvidia最新GPU的主要封装方法。
   - 封装难以快速扩展,需要多个供应商的复杂设备和专业人员培训。
2. 高带宽内存(HBM)芯片生产限制:
   - HBM芯片几乎在2026年前售罄。

   - 2023到2024年间预计产量将增长2至3倍,主要来自DRAM产能重新分配。

TSMC的应对措施:
1. 计划将CoWoS封装能力从2023年12月的每月14,000-15,000片晶圆提升至2024年底的33,000-35,000片。
2. 开设新的Advanced Backend Fab 6,满负荷运转时每月可处理83,000片晶圆。

3. 宣布计划到2026年将封装能力每年提升60%。

HBM生产预测:
- SK海力士预计中长期内HBM需求将以60%的年增长率增长(可能指收入)。

- 分析机构估计2023到2028年的生产量年增长率为45%。

晶圆生产分析:

目前,晶圆生产本身不太可能成为主要限制因素。2024年初,TSMC 5nm和3nm工艺节点的生产能力估计为每年220万片晶圆,预计2024年生产的200万H100 GPU仅会消耗约5%的5nm节点产能。

然而,长期来看,GPU制造可能会主导TSMC的先进节点,类似于2023年苹果吸收了TSMC约90%的3nm产量。考虑到AI芯片的高利润率,Nvidia可能会在TSMC的先进晶圆产能方面出价高于苹果和高通等竞争对手。

GPU生产预计将以30%到100%的年增长率扩展,主要受限于芯片封装和HBM生产能力。尽管面临挑战,但半导体行业正积极扩大产能以满足AI芯片需求。然而,由于高级封装和HBM产能扩展的不确定性,GPU供应预测仍存在显著变数,这可能成为未来AI训练规模扩展的潜在瓶颈。

建模GPU生产与计算可用性

台积电(TSMC)预测,未来五年AI服务器需求将以每年50%的速度增长。考虑到TSMC历史上每年运营利润率增长5个百分点,投资者预计这一趋势将持续,主要由于价格上涨,我们估计实际GPU产量的年增长率约为35%。这一估计相较于其他预测较为保守:
- AMD预计数据中心芯片到2027年的年增长率为70%,假设价格上涨相似,意味着GPU年产量增长约60%。

这些更激进的估算与前文提到的短期晶圆级芯片尺寸封装(Chip-on-Wafer-on-Substrate, CoWoS)和高带宽内存(High Bandwidth Memory, HBM)生产扩张预测高度一致,从而增强了其可信度。综合考虑,我们预测GPU芯片的生产将以每年30%到100%的速度增长。

晶圆产能分析

我们预计将有足够的晶圆产能支撑这一扩张:

1. TSMC的历史趋势(2014年至2023年):
   - 资本支出年增长15%
   - 晶圆产能年增长8%
2. 未来扩展预测:
   - 如果TSMC加快资本支出增长,以匹配AI服务器市场预计每年50%的增长
   - 历史数据表明输入和输出增长之间的关系显示,总晶圆产能年增长可达27%
3. 综合预测:

   - 领先晶圆生产年增长率在5%到20%之间

当前领先晶圆生产情况存在不确定性,假设其月产量在10万到33万片之间。按照5%到20%的年增长率,我们预测到2030年生产的领先晶圆总量将在1000万到3700万片之间。根据TSMC及其他公司的预测,预计其中约20%的晶圆将专用于生产数据中心GPU。

计算能力预测

这些预测表明,全球范围内将总计生产2e30到4e31 FLOP/年的H100等效计算能力。然而,只有一部分将用于单次训练运行,因为:
1. 个别实验室仅会收到部分出货量
2. 实验室将GPU用于推理和其他实验

3. 训练运行的持续时间通常不超过一年

根据当前硬件和算法的改进速度,以及对AI的预算增长,如果硬件或软件的进展没有减缓,训练运行的时间预计不会超过六个月。我们假设训练运行时间大约在2到9个月之间;在硬件和软件进展停滞时处于高端,而在进展相对加速时处于低端。

AI芯片分配

AI芯片很可能会在多个竞争实验室中分配,某些实验室将拥有全球计算能力的相当份额:
- 例如,Meta据报在2023年购买了主要公司四分之一的H100出货量

- 我们估计,最近,单个实验室在任何时刻拥有的数据中心GPU份额可能在10%到40%之间

在这一分配中,一部分可能会用于模型服务,因此无法用于训练。简单分析表明,AI实验室应在训练和服务两项任务上分配相似资源。如果这一假设成立,而训练计算持续以每年4倍增长,那么我们可以预期约80%的可用计算将用于训练新模型。

综合以上信息,我们得出以下结论:
1. 中位预测:理论上约1亿个H100等效GPU可以专用于训练,支持一个9e29 FLOP的训练运行。
2. 预测范围:2000万到4亿个H100等效GPU,对应于1e29到5e30 FLOP。

3. 极限情景:如果TSMC的5nm及以下的全部产能从现在起至2030年都专用于GPU生产,潜在的计算能力可能增加一个数量级,达到1e30到2e31 FLOP。

这个上限基于当前晶圆生产的预测,展示了如果现有的封装、HBM生产和晶圆分配的约束得到完全解决,AI训练能力可能达到的最大影响。

总体而言,这些预测表明,到2030年,GPU供应可能不会成为限制AI训练规模扩展的主要瓶颈,但实际情况仍取决于多个因素的发展,包括生产技术进步、市场需求变化以及资源分配策略等。

图4:不同情景下,H100等效GPU和2030年最大AI训练运行可用的FLOP(Floating Point Operations,浮点运算)分布。"预计的台积电产能"基于历史趋势和预测估算台积电的GPU生产能力,而"完整的台积电产能"假设台积电100%的先进制程晶圆产能用于GPU生产。

数据稀缺性

扩大人工智能(Artificial Intelligence, AI)训练规模需要获取日益庞大的数据集。目前,AI实验室主要依靠网络文本数据支持训练。然而,网络数据的生成速度已低于训练所需数据的增长速度,这将无法支撑无限增长。本节总结了先前关于数据稀缺性的研究成果,并通过估算多模态(multimodal)和合成数据(synthetic data)带来的潜在规模增益进行了拓展。

已知用于训练的最大数据集约为150万亿个公开可用的文本和代码数据标记(token)。我们估计,经过去重后的索引网络包含约500万亿个标记,数据量是已知最大训练数据集的30倍。如果仅考虑已编纂的语料库(如CommonCrawl),这一数字可能低至100万亿;而如果还包括私有数据,则可能高达3000万亿。

根据Chinchilla扩展法则,数据集规模和模型规模应按比例扩展。通过利用整个索引网络将训练数据扩展30倍,AI实验室将能够使用30倍的数据和30倍的参数进行模型训练,计算需求将增加至900倍。换言之,如果模型训练达到Chinchilla最优,计算能力可高达8e28 FLOP(浮点运算次数)。

假设近期计算能力以每年4倍的速度持续增长,我们预计将在约五年后遇到文本数据的"数据墙"。然而,来自其他模态的数据和合成数据生成可能有助于缓解这一约束。我们认为,多模态数据将使有效数据量达到450万亿到23千万亿标记之间,从而支持6e28到2e32 FLOP的训练运算。此外,如果AI实验室将部分计算预算用于数据生成,合成数据可能使扩展远超这一水平。

版权限制

已发布的文本数据可能受到版权限制,禁止在未经许可的情况下用于训练大型语言模型(Large Language Models, LLMs)。尽管这在理论上可能限制训练数据的供应,但实践中多个因素减轻了这一顾虑。首要考虑是关于在通用模型的训练数据中包含已发布文本是否构成"合理使用"(fair use)的持续法律争议。然而,即使这一争议有利于版权持有者,其他实际因素仍使得执行这些限制变得复杂。

许多公共网络数据的大型存储库(如Blogspot)允许个人作者保留其内容的版权。然而,这些个人在证明其内容被纳入训练数据方面可能面临重大挑战,并且可能缺乏进行复杂诉讼的能力或意愿。这一实际障碍可能使个别内容创作者难以对使用其数据的AI公司提起法律诉讼。

另一方面,像报社这样的大型出版商通常拥有进行版权侵权诉讼的资源。然而,这些实体也可以与AI公司协商数据授权协议。例如,OpenAI已成功与多家主要出版商达成协议,包括StackOverflow、The Atlantic、TIME和Vox Media。这些协议表明,AI公司通常能够通过与内容提供者的谈判与合作有效应对版权限制。

最终,版权限制在多大程度上会限制大型语言模型训练数据的供应仍不确定。尽管存在法律和实际挑战,但这些约束似乎不太可能显著减少可用数据的总体量。互联网庞大的内容量,加上执行的复杂性和许可协议的潜力,表明AI公司仍将能够获取大量数据集。然而,值得注意的是,版权限制可能会对高质量来源(如图书和知名新闻机构)产生不成比例的影响。这些来源通常包含精心策划、真实且经过专业编辑的内容,对于训练尤为珍贵。因此,尽管训练数据的数量可能不会大幅减少,但对于AI训练而言,最权威来源的质量和多样性可能会受到显著影响。

多模态性

人工智能(Artificial Intelligence, AI)实验室可以利用其他数据模态,如图像或视频。目前,多模态基础模型(multimodal foundation models)的训练数据集中约有10%到40%是图像数据,用于使模型理解和生成图像。考虑到多模态理解的实用性,我们预计未来的数据集将包含相当大比例的非文本数据。然而,为了显著扩大数据量,多模态数据所占比例必须远超文本数据。

音频、图像或视频建模本身的价值足够高,AI实验室将会扩大纯音视频训练。强大的视觉能力可使模型作为嵌入工作流程的助手,组织信息或操作网页浏览器。具备流畅、快速、多语言语音能力的模型可能会显著改善个人语音助手技术、实时翻译、客户服务等,相较于仅基于文本的交互更加流畅。尽管当前视觉模型的计算需求远低于语言模型,但在文本数据成为瓶颈而图像数据丰富的情况下,AI实验室可能会开始将更多资源投入到图像模型中。

此外,蛋白质序列或医疗数据等其他模态也具有重要价值。然而,这类数据的存量不太可能足够大,从而显著扩大可用的训练数据。

多模态数据可通过多种方式进一步帮助语言理解。文本数据可从音频、图像和视频数据中转录,从而进一步扩展与文本相关的数据存量。更具推测性的是,非文本数据可能通过迁移学习(transfer learning)或模态间的协同效应(synergy)改善语言能力。例如,研究表明,将语音和文本数据结合起来相比单一模态模型可提高性能,并且这种协同效应在规模扩大时会增强。然而,关于模态间迁移学习的研究相对稀缺,因此我们无法确定多模态数据的迁移学习是否会有用。

如果上述某种情况发生,训练时可用的视觉数据将有多少?互联网上大约有10万亿秒的视频,而图像数量也可能接近10万亿。确定这些模态与文本数据之间的等价率具有挑战性。目前的多模态模型,例如Chameleon-34B,将图像编码为1024个标记(token),但我们预计随着多模态分词器(tokenizer)和模型的效率提升,这一数字将随时间减少。有些图像的高效编码仅需32个标记,经过典型文本字典大小调整后,每幅图像可能只需22个标记。我们以每幅图像和每秒视频22个标记作为中心估计,这意味着图像和视频的多模态将使可用于训练的数据有效存量增加约400万亿标记。这表明,图像和视频内容可能与文本一样大程度地促进扩展,使训练规模是纯文本数据的十倍。

此外,互联网上可能还有约5000亿到1万亿秒的公开可用音频。神经编码器可以以低于1.5 kbps的速率存储音频,而与标准编解码器在更高比特率下竞争。这相当于每秒音频少于100个语言等效标记。因此,总存储音频可能在50万亿到100万亿标记之间,与文本和图像的估计相差不远。因此,这可能不会大幅扩展数据的存量。

在整合所有模态的估计并考虑数据总量的不确定性、数据质量、训练轮次和分词器效率后,我们得出可用于训练的有效标记数估计在400万亿到20万亿之间,这将支持到2030年训练规模达到6e28到2e32 FLOP(浮点运算次数)。

鉴于这一范围的广泛性,回顾一下高端估计为何可能成立将是有益的。请注意,这些数字仅供参考,因为我们实际的置信区间来自于基于这些参数值范围的蒙特卡罗模拟。

关于索引网络上文本数据的高端估计为2万亿个标记(Villalobos等,2024)。与此同时,互联网图像和视频的高端估计为40万亿。如果我们还使用每幅图像或视频每秒100个标记的高端估计,这将意味着4万亿个视觉标记,或6万亿个文本和视觉标记。如果我们假设到2030年这些数据的存量翻倍,其中80%因质量过滤被剔除(FineWeb丢弃了约85%的标记),并且模型在这些数据上训练10轮,这将导致有效数据集规模约为20万亿标记。

图5:各模态数据量的预测及其允许的最大有效训练规模。

合成数据

在我们的预测中,仅考虑了人类生成的数据。那么,合成数据(synthetic data)生成能否大幅扩展数据供应呢?多个重要的机器学习里程碑是在不依赖人类数据的情况下取得的。AlphaZero和AlphaProof分别通过自生成数据学习下棋和解决几何问题,达到了与人类专家相当或超越的水平。经过合成数据微调的语言模型能够提高其编程能力和推理问题的回答能力。经过精心策划的合成数据训练的小型语言模型相比于使用网页抓取文本训练的大型模型,能够在参数更少、训练数据更少的情况下实现相当或更优秀的性能。大规模前沿语言模型如Llama 3.1利用合成数据增强在收集高质量人类标注数据较为困难或成本高昂的领域的能力,例如长上下文能力、多语言性能和工具使用能力。

我们认为可以通过计算生成高质量合成数据的一个关键原因是,验证输出质量通常比生成它要容易。这一原则在我们可以创建明确的正确性或质量信号的领域中体现得尤为明显。例如,在编程任务中,我们可以检查生成的代码是否通过单元测试或对示例输入产生正确的输出。在数学中,我们可以检测逻辑或算术错误并进行修正。

这一过程使开发者能够使用计算生成大量候选解决方案。然后,他们可以系统地验证每个生成解决方案的正确性或质量,只保留高质量示例,而丢弃质量较差的。这种方法可以通过计算生成充满高质量合成示例的数据集。对于这些任务,可以投入更多的推理计算,以生成更高质量的输出。

验证比生成更容易的原则可能超越编程,适用于其他多个领域。例如,评审研究论文的质量和新颖性往往比撰写原创论文更容易。同样,评估故事的连贯性和可信性通常比从零开始创作一篇引人入胜的故事更具挑战性。在这些情况下,尽管传统符号系统可能在验证上面临困难,现代AI系统,尤其是大型语言模型,已展现出与人类验证者相当的评估能力。这表明,AI驱动的验证可能使在这些复杂领域中生成高质量合成数据成为可能。

还有其他机制可用于生成高质量合成数据。例如,模型可能无法直接生成高质量输出,但可以通过组合几个较小的步骤来实现。这是思维链提示(chain-of-thought prompting)的关键理念,可以用于通过简单示例逐步教会模型更复杂的算术。

使用合成数据面临几项障碍。首先是模型崩溃的可能性:过度依赖合成数据可能导致能力的退化或停滞。尽管我们引入的自我修正机制有一些积极迹象,但仍不确定这些机制是否足够避免这种结果。

增加数据生成的计算分配可以通过两种方法提升合成训练数据的质量:生成大量候选方案后筛选优质数据,以及采用计算密集型方法如思维链推理直接生成优质输出。然而,随着计算投入的增加,这种策略可能会面临收益递减。当验证或质量评估过程不完善时,尽管增加了计算分配,数据质量的提升可能会达到瓶颈。

合成数据在验证相对简单的领域如数学和编程中已被证明是有用的,或在一些收集高质量人类标注数据较为困难或成本高昂的领域中,如工具使用、长上下文数据或偏好数据。基于这一成功,以及我们讨论的直觉,我们认为高质量合成数据生成在广泛领域内是可能的,尽管这一点仍不确定。在这种情况下,数据的可用性可能不会对扩展构成限制,因为可以通过投入足够的计算按需生成更多数据。

我们预计合成数据可能有助于克服数据瓶颈。然而,相关研究尚处于初期,现有证据的状态不一,因此在本文中我们保守地依赖于多模态数据的估算,排除了所有类型的合成数据。

生成无尽数据

即使在技术上能够为广泛任务生成有用的合成数据,生成过程的计算开销可能会在实践中限制其使用。我们可以尝试估算相比于使用自然数据集的基准,使用合成数据来扩展模型所需的额外计算量。

假设我们有一个前沿模型用作数据生成器,想要训练一个计算量是生成器10倍的目标模型。我们希望新模型达到与使用自然数据训练相似的质量。在之前的工作中,我们量化了在推理时增加计算量对输出质量的提升程度。具体而言,思维链(chain-of-thought)被发现能带来计算等效的10倍增益,同时推理成本也增加10倍。

这意味着在推理期间将生成器的计算使用量增加10倍(通过逐步生成输出)会将输出质量提升到一个在10倍计算下训练的模型的水平。然后,我们可以在这些高质量输出上训练新模型,以达到预期的性能水平。

假设新模型以计算最优的方式训练,生成新训练数据集的计算成本将与训练新模型的成本相似。因此,使用合成数据将使训练模型的计算需求相比使用自然数据翻倍。

在训练中为合成数据生成投入如此多的计算并非前所未有:DeepMind在生成AlphaGo Zero的数据时,花费了约100倍于训练基础模型的计算用于游戏模拟。然而,这非常具有推测性;例如,我们尚未看到这种技术成功应用于前沿模型的预训练。

延迟壁垒

另一个可能限制人工智能(AI)扩展的因素是延迟。模型处理单个数据点所需的最低时间是有限的,并且这种延迟会随着模型规模的增大而增加。训练数据被分为批次(batch),在批次内数据可以并行处理,但批次的大小有一定限制。因此,训练运行的时间必须至少等于处理一个批次所需的时间乘以训练批次数(训练数据集大小除以批次大小)。考虑到训练运行持续时间有限,这一动态限制了模型的规模以及可训练数据的数量,因此限制了训练运行的总规模。

这一限制对当今的训练运行并不构成太大问题,因为典型延迟非常小。然而,随着模型规模的增大,最低延迟由于层间操作的顺序性可能变得更加重要。

训练运行可以通过增加批次大小部分缓解这一延迟问题,从而允许更多数据并行处理。特别是,增加批次大小能够改善随机梯度下降(Stochastic Gradient Descent, SGD)的收敛性,但代价是需要更多的计算资源。这使得可以在每个批次的计算需求增加的情况下加速训练,但不大幅增加总体训练所需的计算。然而,在"临界批次大小"之外,进一步增加批次的收益将急剧递减。因此,不能无限制地扩大批次,训练一个模型所需的数据集不断增大时,处理的批次数也需相应增加。

为了量化这一瓶颈的规模,我们调查了在训练大型变压器模型(transformer model)时相关的延迟来源。假设批次大小为6000万标记(推测为GPT-4的批次大小),我们估算训练运行的规模在2e30到2e32 FLOP(浮点运算次数)之间,这将导致每层至少270到400微秒(μs)的NVLINK和Infiniband通信延迟。

然而,这可能是一个低估,因为我们预计临界批次大小可能会随着模型规模而增加。在假设批次大小大致可以按模型规模的立方根进行扩展的推测下,我们估计训练运行的可行性在3e30到1e32 FLOP之间,这将在现代硬件下引发至少290到440微秒的延迟。

延迟壁垒及节点内延迟

我们首先聚焦于节点内延迟,即与承载多个图形处理器(Graphics Processing Unit, GPU)的单个节点(服务器)相关的延迟。在这种情况下,最相关的有两种延迟类型:内核延迟(kernel latency)表示单个矩阵乘法或"matmul"所需的时间,而通信延迟则衡量在GPU之间传播结果所需的时间。

我们将这两种延迟的估算基于常用的机器学习硬件。Erdil和Schneider-Joseph的实验(即将发表)表明,A100 GPU的内核延迟约为4.5微秒。同时,在一个8 GPU NVLINK集群中进行全归约(all-reduce)的通信延迟约为9.2微秒。每个matmul的总基础延迟在NVLINK集群中则约为13.7微秒。

每个变压器(transformer)层的延迟由此推导而来。具体而言,标准解码器变压器模型的每层涉及四个连续的矩阵乘法,并且我们必须对每层进行两次传递(前向和反向传递)。因此,每层和批次的最小延迟是单个矩阵乘法延迟的八倍。

为了完成对延迟壁垒允许的最大训练运行的估算,我们需要对层数和训练数据量进行一些假设。作为启发,我们假设模型的层数大致是参数数量的立方根,并且训练数据集的大小将按参数数量比例扩展,遵循Chinchilla规则。假设每层的最低延迟为120微秒,批次大小为6000万标记(token),我们发现能够在九个月内训练的最大模型为700万参数,这允许达到高达6e31 FLOP的Chinchilla最优模型。需要注意的是,如果NVIDIA集体通信库(NVIDIA Collective Communications Library, NCCL)在全归约时的延迟慢于中间大小消息报告的情况,这一估算可能过于乐观。

节点间延迟的延迟壁垒

到目前为止,我们仅考虑了节点内(intranode)延迟。在一定程度上,这是合理的;张量并行性(tensor parallelism)通常完全在8-GPU NVLINK集群内部进行,以避免每次顺序矩阵乘法时需要进行节点间通信。然而,持续扩展将需要节点间的通信,从而增加延迟。

具体而言,使用标准的InfiniBand树拓扑,节点间的延迟会随着参与通信的节点数量的增加而对数级增长。通过使用NVIDIA集体通信库(NCCL),全归约操作的最小延迟为 L = α + β log₂(N) + γ,其中N是参与的GPU数量,α是参与的集群数量(这包括通信和内核延迟)。

在使用二维张量并行性的训练运行中,集群数量对应于协调二维张量并行计算的GPU数量。特别地,执行TP维二维张量并行训练的集群需要TP个GPU的同步,平均每个8-GPU集群内部有2.75个GPU进行通信,共有⌈TP/8⌉个集群。

例如,一个使用2000维二维张量并行性的300M H100集群,每个全归约操作需要⌈2000/8⌉ = 250个集群,导致延迟为7.4微秒加上2 x (2.75 x 0.6微秒 + log₂(16) x 5微秒) = 50微秒,与之前相对应的每层和每批次的延迟为8 x 50微秒 = 400微秒。这是允许在九个月内训练最大模型的集群规模,批次大小为6000万,预计达到7e30 FLOP的硬件效率。

如何减少这些延迟?

通过改进集群拓扑,可以显著减少通信延迟。例如,网格拓扑可以绕过节点间延迟的对数增长,但代价是数据中心内的网络配置更加复杂(因为需要所有节点之间有直接连接)。

另一种解决方案可能涉及在每个集群中使用更多GPU的更大服务器,以减少节点间延迟,或采用更高效的通信协议。例如,在训练Llama 3.1时,Meta创建了一个NVIDIA集体通信库(NCCL)的分支NCCLX,专门针对高延迟设置进行优化,他们声称可以在通信中节省数十微秒的时间。

另外,我们也可以考虑增加批次大小或减少层数的方法。OpenAI的早期研究将关键批次大小(超过此后训练收益大幅递减)与训练数据的梯度分散性相关联。基于此,Erdil和Schneider-Joseph(即将发表)推测,批次大小可能与可减少模型损失的倒数成比例缩放,根据Chinchilla规则,这一比例大致与模型参数数量的立方根成正比。如果这一推测成立,将会将延迟壁垒推后一个数量级。

关于层数应如何缩放以及是否可以减少的研究相对较少。一些实验表明,可以在性能小幅下降的情况下,修剪已训练变压器的中间层多达一半。这表明在训练前移除一些层可能是可行的,但这一点尚不明确。当前,我们将这一可能性暂时搁置。

在考虑了不确定性后,我们得出结论,超过1e32 FLOP的扩展将需要改变网络拓扑,或采取替代解决方案以更快地扩展批次大小或以比理论论证所建议的更慢的速度扩展层数。

图6:基于网络延迟允许的最大训练规模,以及每层的相应延迟。

图7:在我们考虑的四个约束条件下,2030年可能实现的最大训练规模的保守估计。图中同时展示了预计到2030年的最大前沿训练规模点估计,假设自GPT-4发布以来每年增长4倍。


最具限制性的约束是什么?

我们已经单独考察了四个主要的人工智能(Artificial Intelligence, AI)扩展瓶颈。综合考虑这些因素,预计到本世纪末可实现最高2e29 FLOP(浮点运算次数)的训练运行。这相较于当前模型而言,将实现约10,000倍的扩展,意味着到2030年,扩展的历史趋势可能会持续不变。

最为紧迫的约束是电力和芯片的可用性。在这两者中,电力的灵活性可能更高,能源行业相对分散,过去有100 GW电力供应扩张的先例,供应商只需提前三到五年进行规划便可执行。而扩展芯片制造面临多重挑战:先进封装等关键工序已基本分配给数据中心的图形处理器(Graphics Processing Unit, GPU),建设新制造厂需要巨额资本投资和高度专业化的人力。

数据作为瓶颈中最不确定的因素,其不确定范围跨越四个数量级。多模态数据在提升推理能力方面的效用可能有限,而我们对这种数据的可用存量、质量及当前标记化方法的效率的估计,比起文本数据的估计不够确定。最终,合成数据可能使扩展成为无限可能,但成本极高。

最后,尽管延迟壁垒是一个较远的约束,但它依然在前方形成障碍。通过采用更复杂的网络拓扑,涉及更大的集群或更多集群间的连接,可能会将其推后。


AI实验室是否会尝试达到这些新高度?

我们认为,基于对当前关键AI瓶颈的趋势外推,预计到本世纪末将可能实现最高2e29 FLOP的训练运行。实现这一规模与趋势一致:迄今为止,最大训练运行大约为5e25 FLOP,若继续保持每年4倍的历史增长趋势,六年后将有可能训练出约2e29 FLOP的模型。这种训练运行所需集群的成本将达数千亿美元。AI行业是否真会寻求训练如此规模的模型?

到目前为止,扩大AI模型的规模始终与能力提升相关。这使得以扩展为重点的AI发展观念深入人心,导致训练开支每年增长约2.5倍。初步迹象表明,这一趋势可能会继续。值得注意的是,微软和OpenAI正在筹划一项名为"Stargate"的数据中心项目,预计投资高达1000亿美元,计划于2028年启动。这表明主要科技公司确实在准备实现我们所考虑的巨大规模。

进一步的证据可能来自于将AI系统规模扩展至GPT-6等效模型,结合显著的算法改进和训练后改进。新的模型如GPT-5在发布的第一年内产生超过200亿美元的收入,意味着AI功能的重大进步,使模型能够无缝融入现有工作流程,操控浏览器窗口或虚拟机,独立在后台运行。我们预计,这些发展将使AI实验室及其支持者意识到这些系统的巨大潜在价值。

能够自动化大量经济任务的AI的潜在回报是巨大的。经济体可能会投资数万亿美元以建立计算相关资本,包括数据中心、半导体制造厂和光刻机。为了理解这一潜在投资的规模,可以考虑全球劳动报酬约为60万亿美元每年。即使不考虑AI自动化带来的经济增长加速,如果开发能够有效替代人力的AI成为可行,投资数万亿美元以获取这60万亿美元的部分流量也是经济合理的。

标准经济模型预测,如果AI自动化达到能够取代大多数或所有人类劳动的程度,经济增长可能加速十倍以上。在短短几十年内,这种加速增长可能会将经济产出提升几个数量级。鉴于这一潜力,尽早实现完全或接近完全的自动化可能会占据全球产出的相当一部分。意识到这一巨大价值,投资者可能会将其资本的重大部分从传统行业转向AI开发及其基础设施(能源生产和分配、半导体制造厂、数据中心)。这一前所未有的经济增长潜力可能会驱动数万亿美元对AI开发的投资。

关于企业或政府是否会准备投资数十亿美元进行大规模训练运行的问题,最终超出了本文的讨论范围。但我们认为这至少是合理的,因此我们进行了这一分析。


结论

本文通过分析扩展训练运行所需的关键因素的可用性和潜在约束,估算了到2030年人工智能(Artificial Intelligence, AI)训练运行的最大可行规模。我们考察了四类瓶颈(电力约束、芯片制造能力、数据稀缺性和延迟壁垒),以确定它们在何时可能导致更大规模的训练运行变得不可行。我们的主要结论是:根据当前趋势,预计到本世纪末可实现最高2e29 FLOP(浮点运算次数)的训练运行。换言之,到本世纪末,AI实验室有可能训练出超越GPT-4规模的模型,这一规模与GPT-4相较于GPT-2的训练计算量相当。

导致超出这些规模的训练运行可能不可行的一个主要原因是电网供电能力的限制。到2030年,显著扩大数据中心的电力供应可能面临电网层面的限制、碳排放承诺和政治因素的挑战。

第二个关键约束是每年制造数千万个H100等效芯片的能力。如果资本支出在下一个十年内没有显著加速,即使相关的制造能力大部分专用于生产图形处理器(Graphics Processing Unit, GPU)或其他AI加速器,能力也可能会受到限制。

总体而言,这些约束仍然允许AI实验室在本十年内实现每年4倍的扩展,但这将面临重大挑战,需要解决以持续推动进展。

如果达到这样的训练运行规模,将具有巨大的重要性。AI可能吸引数千亿美元的投资,成为人类历史上最大的科技项目。巨大的规模转化为更强的性能和通用性,意味着到本世纪末我们可能会看到与本世纪初以来的重大进展同样的AI突破。

最后,通过我们的研究,我们面对着预测AI技术发展轨迹的不确定性。尽管这些约束至关重要,电力限制和芯片制造仍然是主要的不确定因素。我们将在未来的工作中更深入地探讨这些问题。

----------

参考资料:Sevilla, J., Besiroglu, T., Cottier, B., You, J., Roldán, E., Villalobos, P., & Erdil, E. (2024). Can AI Scaling Continue Through 2030? Epoch AI. Published August 20, 2024. Retrieved from https://epochai.org/blog/can-ai-scaling-continue-through-2030



---【本文完】---

近期受欢迎的文章:

  1. 微软CEO和CTO访谈:AI平台转型
  2. 构建AI时代可持续的半导体产业
  3. 智能代理崛起:重塑企业应用架构的未来
  4. Google Fellow解读:分布式计算的第五个时代
  5. 2024年存储战略路线图



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存