人类试图教AI如何造小太阳，结果是——

Original 蕉蕉的奇妙冒险中科院物理所 2022-04-06

最近，在核科学领域有一个大新闻。就连取得这项成就的科学家自己，都觉得不可思议——amazing呀！

“这个时刻我等了好久啦——第一次在核聚变研究上演示深度强化学习！”来自DeepMind的科学家David Pfau激动的分享了自己的论文。
来源：机器之心

不知道多少朋友看过复仇者联盟——里面的钢铁侠，他之所以这么牛，主要还是他铠甲正中央有一个“小太阳”，在给他源源不断的提供大量能量。这个小太阳不是别的，正是今天要谈的主人公——之一——可控核聚变。虽然不知道漫威宇宙里钢铁侠这个可控核聚变是怎么实现的，但是目前为止，在人类世界，它还依旧只是一个梦想。

《钢铁侠3》海报来源：www.sfs-cn.com

什么是可控核聚变？

正如分子间进行放热的化学反应可以产生能量，原子核（或中子）之间进行的放热核反应也可以产生能量，而且这个能量要远远大于化学反应产生的能量。在目前的可控核聚变的方案中，人们采用的是氘氚反应：

核聚变反应原理图（Deuterium氘与Tritium氚反应，产生Neutron中子与Helium氦，并释放能量）
来源：文献[2]

在氘核和氚核的聚变反应中，会释放大量的能量，但是想让氘核和氚核碰撞在一起却并不是一件容易的事。

第一个问题是，氘核和氚核都带正电，在自然界中会捕获电子，形成原子。想要让氘核和氚核反应，就需要剥离这些电子。

不止如此，原子核非常的小，如果把一个原子看成一个足球场，那么原子核相当于足球场中的一个乒乓球，想让在这么大的空间中的两个乒乓球相撞当然是难如登天。

科学家们采用了一个大力出奇迹的办法，一次性解决了两个问题——那就是加温加压。加温首先能让原子中的电子和原子核分离，形成等离子体，这一方面解决了第一个问题，同时也提升了原子核的动能，也就是乒乓球的速度；而加压就是减小原子核之间的间距，也就是缩小了“足球场”的大小。这样就能大大提升原子核相撞的概率。那么要加热到什么程度呢，我们以太阳为参考，太阳的中心温度是1500万摄氏度，压强达到3000亿倍大气压，这样的压强我们是很难实现了，于是我们只能用更高的温度，我国的EAST（全超导托卡马克核聚变实验装置）的运行温度就高达一亿度。

但这样，新的问题也诞生了：怎样才能装下这样的一个小太阳呢。针对这个问题，人们提出了各种可控核聚变方案，其中一种比较主流的方案就是利用洛伦兹力，进行磁约束。托卡马克装置就是一种磁约束装置。

托卡马克装置示意图（Coils：线圈，Plasma：等离子体）来源：文献[2]

它的主体结构是一个内部抽真空的圆环。在圆环周围环绕着多个线圈，这样的线圈能提供沿圆环切线方向的磁场；圆环中心也有多个线圈，这些线圈提供垂直于圆环所在平面的磁场，以及沿圆环切线方向的感应电场。在这样的电磁场下，等离子体就可以被束缚在圆环中，并能为其进行欧姆加热（有电阻的物质在通过电流时会产生热量）。

实现可控核聚变的好处多多，一方面原材料丰富：每一公升海水中提取出来的氘参与聚变反应所释放的能量与300公升汽油释放的能量相当；氚则可以通过锂原子裂变产生，而锂在地壳和海水中都大量存在。可以说，一旦实现了可控核聚变，人类就很大程度上实现了“能源自由“。另一方面产物污染小，目前可控核聚变的首选方案是氘氚反应，它的产物只有中子和氦-4的原子核以及大量能量，不会产生有害气体，也几乎没有放射性污染。

而且，最重要的是，同样是核能，核聚变比核裂变更安全可靠。想要维持核聚变，等离子体必须达到上亿度的高温并保持一定的密度，而维持这样的温度和密度需要极为苛刻的条件，任何一点细微条件缺失，核聚变反应很快就会停止；此外，参与核聚变的等离子体处于真空中，其密度非常低，相对于空气的密度小了若干数量级，因此不必担心这些等离子体泄露后与空气反应爆炸的问题。

然而，想要上手这种取之不尽又清洁环保的能源，并非易事。温度和压强足够高是可控核聚变的必要条件，根据之前的分析，温度和压强的提高可以增加原子核相互碰撞的概率；可光有概率不够，我们还必须让这样的温度和压强持续足够长的时间，这样就能增加一次实验中聚变反应发生的数目，从而提高产生的总能量。这个时间我们称为能量约束时间，它与压强、温度一起，共同构成了评估一次可控核聚变的三要素。

可控核聚变看重的竟然是...

和人们认为“相由心生”“颜值即正义”一样，可控核聚变也很看重等离子体的“外观”——我们称之为“构型”（configuration）。

这是因为，等离子体的横截面积形状能够影响核聚变的各种参数。科学家们发现，有三个重要参数：离子平均密度，能量约束时间，离子温度。对一次可控核聚变实验而言，这三个数的乘积越大越好，优化等离子体的横截面形状能够提升这三个数中的能量约束时间。二十五年以来，科学家致力于提升这个乘积，现在已经提高了4个数量级。

在托卡马克装置中的等离子体（左），其截面构型示意图（右）来源：文献[1]

虽然说，聪明的人类已经掌握了其中的一些规律，可以根据想要的等离子体构型去反推电流电压等参数，就是……累了点。简单来说，可以根据这些掌握的规律，先粗略创建一个控制系统——比如要读取哪些传感器的输入数据啦，以及如何响应它们的变化啦；但是，在一个真实的核聚变过程中，等离子体的能量构型等总有一些奇奇怪怪的波动，所以还会有一个测量和建模相互迭代的过程，对原初系统进行实时调整，然后才产生了最终的控制系统。这样产生的控制器不仅来之不易，还只能用于同一种等离子体构型。但凡想在托卡马克中用一种截然不同的等离子体结构进行试验，就很可能要对系统进行大修特修。

在托卡马克中用一种截然不同的等离子体结构进行实验，犹如甲方爸爸提出了一些小改动↑

要对系统进行大修特修的科学家，则戴上了痛苦面具↑

其实人类也并不想这么辛苦，说到底，比起实现某种构型的具体方法，更有趣的难道不是构型本身吗？所以，构型参数怎么取，这么枯燥烧脑的事情，就让人工智能（AI）学去吧！

AI：是时候改变世界了——

于是，DeepMind，一个挑战了从蛋白质折叠到星际争霸问题的明星企业，携手瑞士洛桑联邦理工学院等离子体中心，一起开启了托卡马克的驯服之旅。

强化学习：这题我会

第一步

制定目标

学习什么的，当然是目标最重要啦。目标可以包含各种各样期望的特征，包括但不限于等离子体位置、电流的基本稳定、具有指定延伸率和X点位置等的精确形状轮廓等等（如下表所示）。这些目标将组合成一个“奖励函数”（Reward Function）,专门惩罚那些达不到目标的控制策略（就像学校的校规校纪）。尽管罗列了十多项特征，但奖励函数的设计确实已经是最小限度了，这样可以保证强化学习的算法具有最大的灵活性。（DeepMind：这都是为师的良苦用心啊！

奖励函数的组成成分。每个成分都会有一个目标值和实际值，并且许多都可以随时间变化。
来源：文献[1]

第二步

确定策略

用模拟器产生等离子体状态演化的相关数据，让强化学习算法收集这些数据，不断地学习和积攒经验，然后在奖励函数的引导下寻找到“最优控制策略”。（其实这里还有一个精心设计的“批评家”算法，专门用于训练，详细请见文献[1]。）

第三步

实战演练

如图所示，托卡马克的“实时控制系统”（Real-time control system）包含了两部分——一个是传统的控制器，另一个就是深度学习训练得到的控制系统。每次实验时，待产生一个标准等离子体后，首先出场的是传统控制器，它的作用是保持等离子体的位置与总电流；当等离子体稳定后，就轮到深度学习的控制系统出场——它将通过每秒一万次、每次92种测量数据来精确跟踪等离子体，并根据之前学习的策略相应地调整反应堆的19个控制线圈，最终得到我们需要的等离子体形状和电流。

控制系统包含两部分：e为深度学习控制系统，f为传统控制器。先由后者将等离子体稳定，再由前者调整线圈，得到目标等离子体构型等。
来源：文献[1]

其实这三步里面，前面两步都像是在学校里上课和练习模式，只有最后一步才是真正的考试。在第三步之前，用于训练深度学习算法的，都是“练习题”和“往届试题”。所以最后训练得到的这个算法，在真正的考试中实际的物理环境中运行时，可以针对不同条件的实验条件，保持等离子体的稳定，并且改变等离子体的几何结构，甚至……可以在同一托卡马克中同时产生两个独立的“水滴状”等离子体结构！（下图左一）

在科学家眼里，每种构型都意味着完全不同的参数设置。
来源：文献[1]

这在传统控制器时代是无法想象的。如果说“等离子体构型控制”是一门课程，那么人工智能显然是这门课程中的天才学生！因为最复杂的系统之一——托卡马克磁控问题，等离子体控制器的设计一直都是一道难题。不得不说，人工智能的这次了不起的尝试为等离子体控制器设计带来了新的希望和方向。这毫无疑问将加速托卡马克磁控以及核聚变科学的发展。

这也是继下棋（Alpha go）、游戏（星际争霸）以来，人工智能第一次在如此重要的领域大显身手。我们在成长的同时，人工智能也在成长，下一次，它又会在何处带给我们惊喜呢？让我们拭目以待！

参考文献