查看原文
其他

史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步


过去三年,DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目:用强化学习控制核聚变反应堆内过热的等离子体,如今它已宣告成功。


DeepMind研究科学家David Pfau在论文发表后感叹道:「为了分享这个时刻我已经等了很久,这是第一次在核聚变研究设备上进行深度强化学习的演示!」

可控核聚变、强人工智能、脑机接口是人类科技发展的几个重要方向,有关它们何时可以实现,科学家们的说法永远是「还需几十年」——面临的挑战太多,手头的方法却很有限。

那么用人工智能去控制核聚变,是不是一个有前途的方向?这个问题可能需要由提出 AlphaGo 的 DeepMind 来回答了。

最近,EPFL 和 DeepMind 使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志。


论文地址:https://www.nature.com/articles/s41586-021-04301-9

首先,我们来思考一个问题:为什么要用人工智能控制核聚变?

托卡马克是一种用于容纳核聚变反应的环形容器,其内部呈现出一种特殊的混乱状态。氢原子在极高的温度下被挤压在一起,产生比太阳表面还热的、旋转的、翻滚的等离子体。找到控制和限制等离子体的方法将是释放核聚变潜力的关键,而后者被认为是未来几十年清洁能源的源泉。

在这一点上,科学原理似乎是说得通的,剩下的就是工程挑战。参与该研究的瑞士等离子体中心(SPC)主任 Ambrogio Fasoli 表示:「我们需要能够加热这个装置,并保持足够长的时间,以便我们从中吸取能量。」


在同样由聚变驱动的恒星中,仅依靠引力质量就足以将氢原子拉到一起并克服它们的相反电荷。在地球上,科学家们改为使用强大的磁线圈来限制核聚变反应,将其推到所需的位置。这些线圈必须仔细控制,以防止等离子体接触容器本身:这会损坏容器壁并减慢聚变反应。 

但每次研究人员想要改变等离子体的配置并尝试不同的形状,以产生更多的能量或更纯净的等离子体时,都需要大量的工程和设计工作。传统的系统是由计算机控制的,基于模型和模拟,但 Fasoli 表示传统方法「复杂且不一定能起到优化的作用」。

DeepMind 控制团队负责人 Martin Riedmiller 表示:「人工智能,特别是强化学习,特别适合解决托卡马克中控制等离子体的复杂问题。」DeepMind 在论文中详细介绍了所提的可以自主控制等离子体的 AI。


技术概览

DeepMind 提出的模型架构如下图所示,该方法具有三个阶段:

  • 第一阶段:设计者为实验指定目标,可能伴随着随时间变化的控制目标;

  • 第二阶段:深度 RL 算法与托卡马克模拟器交互,以找到接近最优的控制策略来满足指定目标;

  • 第三阶段:以神经网络表示的控制策略直接在托卡马克硬件上实时运行(零样本)。


图 1:控制器设计架构(controller design architecture)的各组件示意图。

在第一阶段,实验目标由一组目标指定,这些目标包含不同的期望特性。特性范围包括位置和等离子体电流的基本稳定,以及多个时变目标的复杂组合。然后,这些目标被组合成一个奖励函数,在每个时间步骤中为状态分配一个标量质量度量。该奖励函数还惩罚控制策略,让其不会达到终端状态。至关重要的是,精心设计的奖励函数将被最低限度地指定,从而为学习算法提供最大的灵活性以达到预期的结果。

在第二阶段,高性能 RL 算法通过与环境交互来收集数据并找到控制策略,如图 1a、b 所示。该研究使用的模拟器具有足够的物理保真度来描述等离子体形状和电流的演变,同时保持足够低的计算成本来学习。具体来说,该研究基于自由边界等离子体演化(free-boundary plasma-evolution )模型,对等离子体状态在极向场线圈电压的影响下的演化进行建模。

RL 算法使用收集到的模拟器数据来找到关于指定奖励函数的最优策略。由于演化等离子体状态的计算要求,模拟器的数据速率明显低于典型 RL 环境的数据速率。该研究通过最大后验策略优化 (MPO) 来克服数据不足问题。MPO 支持跨分布式并行流的数据收集,并以高效的方式进行学习。

在第三阶段,控制策略与相关的实验控制目标绑定到一个可执行文件中,使用量身定制的编译器(10 kHz 实时控制),最大限度地减少依赖性并消除不必要的计算。这个可执行文件是由托卡马克配置变量(TCV)控制框架加载的(图 1d)。每个实验都从标准的等离子体形成程序(plasma-formation procedures)开始,其中传统控制器维持等离子体的位置和总电流。在预定时间里,称为「handover」,控制切换到控制策略,然后启动 19 个 TCV 控制线圈,将等离子体形状和电流转换为所需的目标。训练完成后将不会进一步调整网络权值,换句话说,从模拟到硬件实现了零样本迁移。

基本功能演示

该研究在 TCV 实验中展示了所提架构在控制目标上的能力。首先他们展示了对等离子体平衡基本质量的精确控制。控制策略性能如图 2 所示。所有任务都成功执行,跟踪精度低于期望的阈值。结果表明 RL 体系架构能够在放电实验的所有相关阶段进行精确的等离子体控制。

图 2:等离子体电流、垂直稳定性、位置与形状控制的演示。

控制演示

接下来,该研究展示了所提架构为科学研究生成复杂配置的能力。结果如图 3 所示:

图 3 控制演示。

全新多域等离子体演示

最后展示了架构在探索全新等离子配置方面的强大功能。DeepMind 测试了「液滴」(droplets)的控制,这是一种在容器内部同时存在两个独立等离子体的配置。通过提出的方法,DeepMind 简单地调整了模拟切换状态,以考虑来自单轴等离子体的不同切换条件,并定义一个奖励函数以保持每个液滴组件的位置稳定,同时增加域等离子体电流。

图 4:整个 200 毫米控制窗口内对 TCV 上两个独立液滴的持续控制演示。

未来展望

总而言之,随着聚变反应堆变得越来越大,与 DeepMind 展开合作或许是最关键的。尽管物理学家已经很好地掌握了如何通过传统方法控制小型托卡马克中的等离子体,但随着科学家们尝试令核电站规模的版本可行,挑战只会更多。该领域正取得缓慢但稳定的进展。 

上周,位于英国牛津郡的欧洲联合环状反应堆(JET)项目取得了突破,创造了从聚变实验中提取能量的新纪录,在 5 秒时间内产生了 59 兆焦耳的能量。与此同时,位于法国的国际热核聚变实验反应堆(ITER)国际合作项目正在建设当中,预计将于 2025 年启动并成为世界上最大的实验性聚变反应堆。

圣地亚哥能源研究中心的副研究科学家 Dmitri Orlov 表示,「托卡马克装置越复杂,性能越高,就越需要通过越来越高的可靠性和准确性来控制更多数量。」AI 控制的托卡马克装置可以通过优化,以控制热量从反应中转移到容器壁上,并防止破坏性的「等离子体不稳定性」。反应堆本身可以重新设计,以利用强化学习所提供的更严格控制。

最终,Ambrogio Fasoli 认为,与 DeepMind 的合作可以让研究人员突破界限,加速通往聚变能量的漫长旅程。人工智能将赋能我们探索人类无法探索的东西,因为我们可以使用自己不敢冒险的控制系统来达到目标。「如果我们确定自己有一个控制系统,让我们接近极限但不会超出极限,则实际上可以用来探索那些不存在的可能性。」

参考链接:
https://www.wired.com/story/deepmind-ai-nuclear-fusion/




追AI的人 往期推荐点击标题查看文章

36万人关注的AI治理交互栏目—《追AI的人》年终总结~我们一起向阳成长!



硬核前沿!万字厘清因果推理融入机器学习:浙大况琨《追AI的人》第8期直播回放



2021年最热方向之因果推论能改变下一代AI研发吗?《追AI的人》第8期来咯!



内容风险知识图谱是怎样炼成的:如何应对强对抗下的内容安全挑战?—《追AI的人》第7期直播回放



揭秘阿里安全最神秘的风险知识图谱—《追AI的人》第7期来咯!



缸中之脑详谈:科幻作家和虚拟主播讨论科幻世界中的人工智能伦理—《追AI的人》第6期直播回放



科幻作家眼中的人工智能是什么样的?双翅目带你从科幻视角探究人工智能和伦理道德的关系!《追AI的人》第6期来咯!



全网17万直播观看的PPT公开:准备好进入虚拟世界和数字人共存了吗?—《追AI的人》第5期直播回放



数字人,我的新同事:《追AI的人》直播第5期来咯!



PPT公开:人工智能触犯刑法该如何处罚?责任谁承担?刑法介入人工智能风险规制的慎思!—《追AI的人》第4期直播回放



刑法介入人工智能风险规制的慎思:《追AI的人》直播第4期来咯!



AI好科技(3)AI一眼识别"你算什么鸟"?—《追AI的人》第3期直播回放



低碳AI好科技(2):如何降低超30%的算法调用成本?畅聊多专家结构—《追AI的人》第3期直播回放



低碳AI好科技(1)顶会冠军Writeup:目标检测比赛的常用方法有哪些?—《追AI的人》第3期直播回放



三个学霸的顶会Paper中奖座谈会:《追AI的人》直播第3期来咯!



(下)算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则—《追AI的人》第2期直播回放



算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则(上)—《追AI的人》第2期直播回放



打通外卖骑手算法的任督二脉:《追AI的人》直播第2期来咯!



50页!《AI与安全治理的恩怨情仇》PPT快来下载~真香!—《追AI的人》第1期直播回放



正在直播!AI讲师的PPT里竟然还有软色情...



AI与安全治理的恩怨情仇?《追AI的人》第1期直播来咯!


这个AI不太冷 往期推荐点击标题查看文章

“算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!



你会和虚拟人谈恋爱吗?「这个AI不太冷」第2期带你了解现实、应用中的虚拟人!



"人工智障",是算法翻车还是人翻车?跨界科普栏目「这个AI不太冷」第1季上线咯!


产业实践 往期推荐点击标题查看文章

阿里巴巴发布《虎年春节消费趋势报告》



AAIG受邀参加护脸计划评审会议,共建人脸识别合规应用的健康生态



AAIG应邀参加CNCC 2021“数字服务的监管与治理”技术论坛



博士毕业后,他在淘宝“扫垃圾”?



阿里AI黑科技成团出道,可防火防伪防疫还能反诈鉴黄与打假……



阿里“塔玑”太逼真:外籍模特不再吃香?



万能的淘宝上买不到什么?



阿里建全球最大奢侈品商标数据库:无偿提供给全球科研团队使用识别假货



AAIG参与发布《人工智能产业担当宣言》



一场猎杀AI的残酷游戏:把枪口对准人工智能,是为了吓退黑暗丛林中的对手



阿里实人认证安全性通过FIDO全球权威认证



多举措提升直播品质 阿里协助警方侦破直播售假案



为AI攻防测能力,清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark



阿里巴巴成立人工智能治理与可持续发展实验室(AAIG)



巡检「局部抄袭」,阿里服饰版权算法入选AAAI 2020



阿里新一代安全架构核心AI技术夺冠,机器阅读理解准确率战胜人工



复工潮的疫情防控多了一双“火眼金睛”——AI防疫师



阿里研发AI技术可识别拦截数十国多语种脏话图



为了对付羊毛党和黑灰产,电商平台的AI大招是这样放的



阿里自研芯片亮相的同时,张勇对外公布了这一计划



治理重构,塑造平台经济的健康生态——《中国平台经济健康指数》报告发布



在阿里巴巴园区过双十一,是怎样的体验?


技术干货 往期推荐点击标题查看文章

元宇宙是新技术还是新泡沫?



AI在茫茫人海中,看到只有你被Deepfake了



给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021



给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021



你算个什么鸟?AI十级“找茬”选手诞生



「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生



4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录



用“算法”模拟光束可攻击自动驾驶车辆,专家呼吁重视AI安全



张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议



准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸



只要AI跑得快,色情黑话就追不上我



让 AI 训练 AI:揭秘阿里、浙大的 AI 训练师助手



阿里AI技术获国际视觉大赛双冠军 “低碳AI”降低30%算力成本


爱心公益 往期推荐点击标题查看文章

“长辈模式”、数字化“养老助餐”、在线医保购药——“饿了么”适老化改造让数字化生活服务更普惠




为数十万盲人修建网络盲道:阿里的追光者每天为数亿张图片把脉,帮助盲人“听图”




半夜,他偷偷在互联网上呼救



被隔离的阿里安全工程师们:11 天造出疫情 AI 防控系统


AAIG CUP 往期推荐点击标题查看文章

抱大腿攻击是什么?AAIG CUP暨第三届 Apache Flink 极客挑战赛启动!


更多人工智能治理和可持续发展

技术干货+产业实践分享

点击下方名片关注和星标

【阿里巴巴人工智能治理与可持续发展实验室】


 关注公众号发现更多干货


👇AAIG课代表,获取最新动态就找他


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存