其他
从AI到量子,应对21世纪的计算挑战
光子盒研究院
到本世纪末,要解决行星级天气建模、实时大脑建模和人类进化模拟等重大计算问题,就必须大幅提高计算能效——最高可达十个数量级。
过去十年间,深度学习的进步带来了一系列令人震惊的成果,从可以打败围棋世界冠军的程序到可以确定蛋白质三维形状的程序。这些发展的背后有两个关键因素:财政预算的增加和半并行硬件的改进,例如用于运行人工智能(AI)训练算法的图形处理器(GPU)和张量处理单元(TPU)。
直到 2019 年,训练最大人工智能模型所需的计算能力大约每 3.4 个月翻一番——即使考虑到硬件的持续改进,这一增长率也意味着到 2030 年,训练一个领先的人工智能模型所需的能源将超过全球每年的能源支出;这些大型模型的碳足迹也引起了严重的环境问题。
训练最大的语言模型之一、2020 年的 GPT-3(ChatGPT 的基础)的成本约为 1200 万美元;其中,约 90% 的训练成本用于租赁数据中心基础设施(基本上是耗电量达兆瓦的 GPU 仓库),约 10% 用于支付运行的电费。由于成本高昂,模型的增长在过去三年中起伏不定,并有可能趋于平稳。将大型模型压缩到较小尺寸,以及通过低成本基础设施和培训改善模型的使用,也越来越受到关注。
基础设施成本在未来只会增加,首先是先进技术节点的制造成本。因此,我们极有可能开始一个经济受限的计算时代。关键计算问题的进展将受到当今计算系统经济性的限制;而且,随着人工智能模型规模快速增长的时代即将结束,要解决 21 世纪的关键问题,必须大幅提高计算能效。
因此,我们迫切需要在计算方法、能源生产和商业计算预算方面制定新的战略。
目前有三个关键计算问题,它们体现了不同层次的用例复杂性:行星尺度天气建模、实时大脑尺度建模和人类进化模拟。
行星尺度天气建模对于模拟生态维持方案、预测自然灾害、了解人为气候变化以及模拟行星尺度自我维持生态系统(实现星际殖民的关键一步)至关重要。为了分析这一主题,科学家使用了有关支持增强型天气模式所需计算预算的公开数据,这些模式考虑了各种附加特征,包括空间分辨率的提高、平流层气候的纳入以及生物地球化学的纳入。
类脑计算有可能成为人工智能发展的下一步,并能对预后神经科学模型进行快速评估。人们已经创建了简单形式的大脑规模模型,其中考虑了神经元数量及其连接。不过,这些模型显然不足以实现类脑智能。为了分析这一课题,研究人员将重点放在大脑下一个复杂程度的建模工作上:捕捉神经递质和代谢物的细节(即神经元和蛋白质之间的物理化学相互作用),但不包括细胞结构或量子动力学等细节。相关分析基于已公布的此类模型的每秒计算预算估计值。
人类进化模拟捕捉了人类群体之间的关键互动和生物过程,对于模拟我们的进化未来非常重要。例如,这种模拟的结果可以为多代载人太空任务的准备工作提供信息;在这些任务中,关键是要了解截然不同的环境和限制如何导致新的进化特征(包括生理和文化特征)、如何减轻危险(例如辐射和低压)的多代影响,以及如何为这些任务选择和准备健康而多样化的人群。
在研究这三个计算问题时,科学家假定,解决每个问题所需的能力将有助于解决与这些问题复杂程度相当的各种其他用例(或这些问题的不同实例)。
例如,人类进化模拟将有助于多代载人太空任务和预测持续接触特定药物后的基因进化。为了比较估算支持每个问题所需的能源预算,团队计算了相关能力运行一年的能源成本(一年的时间范围也便于与全球能源预算进行比较)。就这三个问题而言,这一估算相当于在一年内实时模拟单个人脑、在一年内连续预测两周行星天气、以及在一年内完成一个人类进化模拟实例(50,000 个个体,历时 50 年)。
能耗估算如上图所示。这些估算基于每个问题所需的运算次数和当今最佳的 GPU 计算效率(单位能耗的运算次数)。(所依据的 GPU 是使用率为 33% 的 Nvidia A100;33% 的使用率反映了分布式计算系统中由于数据移动和调度开销(即等待另一个节点的输出)而导致的较低计算效率)。
接下来,我们假设计算效率每 1.2 年翻一番(乐观)到 3 年翻一番(悲观),从而预测这些能源预算在未来可能发生的变化。预测的悲观边界是根据过去十年硬件能效的提升趋势确定的,并假设算法或架构没有进步。硬件能效的这一趋势被称为库梅定律(Koomey's Law),在过去十年中,该定律在 1.6 年和 3 年左右的能效翻番时间之间波动。
对于预测的乐观界限,团队采用了“黄氏定律”——效率翻番时间为 1.3 年,该定律描述了由于架构、内存、晶体管扩展和算法的综合作用而带来的计算效率的提高。
这些进步不仅提高了硬件的能效,而且减少了解决问题和处理复杂数据的操作次数。算法和架构方面的巨大进步很难详细预测,往往是一次性的转变,这使得黄氏定律成为一个综合的长期趋势。(过去几十年中,AMD 和 Nvidia 的计算效率提高幅度超过了硬件(晶体管密度)的提高幅度,这可以归功于硬件与软件的协同设计。这种协同设计包括算法改进,特别是在张量运算(通用矩阵乘法)和将其编译到硬件的图形算法领域。
如果假定未来模型的预算与今天的模型类似(按今天的价值计算约为 300 万美元),那么人类可能会在 2060 年左右解决行星尺度的天气建模问题,在 2080 年左右实现相当详细的大脑尺度模型,并在本世纪末解决最小尺度的人类进化模拟问题。
但是,在本世纪余下的时间里,主流数字处理器的进步将无法满足我们的计算需求。基于 GPU 的数字计算有其局限性。对比特的操作会导致信息丢失而导致熵增加,从而对计算效率造成基本的热力学限制,通常用兰道尔原则 (Landauer's Principle,2.8 ×10-21J/比特操作)来表示。当元件尺寸达到 1 纳米左右(可能到 2030 年)时,我们也会遇到类似的限制。
举例来说,在数字极限下利用太阳能进行小规模人类进化模拟,需要我们用太阳能电池板覆盖欧洲大部分地区。这两个较小的问题似乎在全球能源预算范围内,但在数字极限下运行,能源成本仍将超出大多数机构和政府的承受能力。
上述分析表明,对何时能够解决关键问题的预测对计算技术进步的预测极为敏感;这种敏感程度应该用来校准针对重大社会影响的长期政策决定。但是,分析也强调,即使是最好的数字计算机也无法在本世纪内有效解决我们的重大问题。
因此,如果我们要应对这些挑战,就必须采取紧急行动。
第一个选择是投资新型计算方法。在短期内,硬件-算法协同设计将是最容易实现的目标。例如,我们现在能够利用量化为整数和新浮点表示法等算法技巧,在一个 GPU 上运行和部分训练(微调)越来越大的语言模型。然而,对于使用纯数字系统的人工智能应用而言,相关的收益充其量也是微不足道的。基于忆阻器(双端存储器)的非数字(模拟)内存计算通过在矩阵乘法中提供大规模并行性(这在大多数人工智能模型中占主导地位),有可能提供比 GPU 高 100 到 100,000 倍的计算效率。由于每次计算都不需要数字浮点位表示,模拟计算可以规避数字限制。
基于忆阻器的计算很可能在五年内开始商业化,并能支撑人工智能市场几十年,届时所有形式的经典计算都将达到其热力学极限。在这种极限之后,我们将需要目前还不存在的非经典系统。
例如,将难以解决的问题编程到理论复杂系统的混沌动力学中,可能会带来指数级的速度提升,但这样的物理系统尚未发现。量子计算机将难题编码到量子电路上,量子电路由量子比特(量子比特)和门(作用于这些量子比特的一组量子力学算子)组成。设计巧妙的量子电路可以利用不同量子叠加的概率振幅之间的相互作用,从超大维度的状态空间中提取出难题的解决方案,从而有望超越经典系统。
但是,制造大规模量子计算机的基本障碍仍有待解决,其中包括扩大量子比特的数量、同时通过纠错使噪声保持在可控范围内等等。这些挑战凸显了投资后数字计算方法的迫切性。
在算法方面,我们需要改进通用算法(如图算法)和人工智能算法(尤其是传统的反向传播算法之外的算法)。例如,数字人工智能硬件的内存和计算瓶颈可以通过使用本地信息的训练算法来缓解,这也是生物可推导算法研究的一个重点。对于后数字硬件,我们需要能够利用非理想模拟和量子硬件能效的训练算法。此外,预测算法进步对问题可操作性(或复杂度等级)的影响,以及新算法的出现,尤其是与后数字硬件和目标问题的搭配,是一件困难但重要的事情。算法的进步尽管具有很强的探索性,但却是硬件改进的必要补充,这一点应在投资中得到体现。
第二种选择是通过利用绿色或高效能源(如核聚变)来提高全球能源生产,从而降低能源和基础设施成本。当然,这将具有明显的社会价值,并对计算产生影响。成本的降低也会促使人们探索训练更大的模型。
第三种方案是通过大型企业和政府间联合体增加商业计算预算。这些增加的预算将在短期内延长目前的计算周期,使公司能够解决以前过于昂贵的计算问题。由于销售额的增加,硬件供应商也将有动力在更节能的计算基元上进行创新,其中一些可能是后数字计算基元。
显然,维持现状和依赖现有数字技术的预期改进,将使我们无法应对 21 世纪的关键计算问题。在短期内,我们迫切需要推进算法与硬件的协同设计,降低能源成本,增加计算预算;从长远来看,我们需要持续投资于新的计算方法,即利用新的物理方法进行计算并依赖于新的算法。
——在此之前,科学家们设定的目标是在本世纪末,将计算能效提高十个数量级。
参考链接:[1]https://www.nature.com/articles/s41928-023-00985-1[2]https://venturebeat.com/ai/ai-machine-learning-openai-gpt-3-size-isnt-everything/[3]https://time.com/6249784/quantum-computing-revolution/