10w字《2022 AI4S全球发展观察与展望》重磅发布,进入公众号下载PDF
关注深势科技公众号,回复“AI4S报告”获取完整版
核心观点
AI4S 在工业产业实践中的应用潜力已经被头部厂商充分认可和重视。生命科学、能源科学、半导体与信息科学、材料科学等领域的行业先锋已经开始系统性投入 AI4S 的研究和具体行业解决方案的大规模应用。AI4S 在工业仿真、现代农业、环境科学、机器人、天体物理、地质学、图形学等领域也有巨大的想象空间有待开发。
AI4S 发展的当前瓶颈:软硬件结合的工业级基础设施、稀缺的高素质复合学科人才、以及相对应的新“科学主导”型组织的管理协作机制。
各国政府已开始关注AI4S 的巨大潜力,并制定相关政策进行支持。AI4S 可能成为大国角力的新搏击场并且有着绝佳的“源自中国、面向未来、引领世界”的机会。中国发展AI4S有着得天独厚的条件:优秀的理工科人才培养体系、完整的工业产业链、有作为的政策制定者。我们预计AI4S会在未来30年为中国经济发展提供持续而巨大的助力。
AI4S的发展和现状
1.1 科学头顶的乌云 —— 维度灾难
(Figure credit: AISI & DP Technology)
量子力学的奠基人之一 ——1933年与薛定谔一起获得诺贝尔物理学奖的 Paul Dirac 曾这样表述科学研究的困境:“The underlying physical laws necessary for the mathematical theory of a large part of physics and the whole of chemistry are thus completely known, and the difficulty is only that the exact application of these laws leads to equations much too complicated to be soluble.”
不严谨的比喻一下,就是 “我们有了打开科学大门的钥匙,却没有力气去把门推开。”而“推不动”的原因,就是“维度灾难”。
“维度灾难”是指在某些问题的求解中,随着维数的增加,计算代价会呈指数增长。例如使用密度泛函理论求解势函数的计算代价会随着体系规模的增加而指数增长。因此密度泛函理论的方法虽然准确,但难以应用到大规模体系的求解中。
“维度灾难”问题严重制约了人类科学的进步与发展具体表现在两个方面:
1.处理海量数据所面对的维度灾难
2.复杂场景中求解物理模型所面对的维度灾难
人工智能和科学原理的深度耦合(AI4S)是目前学界业界一致认可有望解决“维度灾难”的方法。AI已经在图像识别,自然语言处理等领域取得显著突破。其成功告诉我们,高维问题中深度神经网络的表现明显优于经典算法。这一能力正是应对当下科学挑战的关键。
1.2 AI4S的模型驱动、数据驱动以及融合范式
(Figure credit: AISI & DP Technology)
科学智能(AI4S)就是用人工智能先解决科学问题(学习科学原理),再解决产业问题。目前绝大多数研发密集型产业(如新能源、生物制药、原研材料、集成电路等)经过几十年的发展,已经进入研发深水区。产业继续升级的主要瓶颈越来越汇聚到基础科学问题的局限。相关基础科学问题随着场景复杂度和微观建模复杂度的复合提高,难以依靠过去的“实验+传统计算软件”取得突破。
1.AI for Science第一条实现途径是“数据驱动范式”:即采用深度学习等AI方法来处理数据。其中目前最成功的例子当属AlphaFold2 。蛋白质结构预测问题是一个典型的高维问题,AlphaFold2彻底改变了蛋白质结构解析的技术路线,正在加速这个问题的最终解决。
2.AI for Science的第二条实现途径是“模型驱动范式”:其中最成功的例子是深度学习分子动力学的相关工作。传统分子动力学在计算势函数的时候依赖经验力场,导致结果不准确;第一性原理的方法通过量子力学模型计算原子间相互作用,虽然可靠但是效率低,难以大规模使用。而基于机器学习的深度势能方法,依靠量子力学模型提供训练数据,用深度神经网络对高维势函数进行拟合,可以同时保证算法的准确性和高效性。这种将物理模型、机器学习和高性能计算深度结合的方法,为科学研究打开了巨大的空间。
3.AI for Science的第三条实现途径是“将模型驱动和数据驱动的方法深度融合”:这个领域的主要挑战很多,比如“数据同化”、“观测和模型的同步学习”、“强化学习”、“相关实验的设计”等等。这里的挑战更像是一个系统化的工程。每一个场景可能都需要一个庞大的团队来完成,当然这也意味着巨大的空间和机会。
1.3 AI4S 的5个核心驱动要素
(Figure credit: AISI & DP Technology)
量子力学的广泛应用,让科学家们有机会将科学问题转换为算法问题。这种转换的有效性取决于算法本身的发展。AI4S 归根结底就是算法的创新,其发展离不开 “数据 – 模型 - 算法 - 算力 - 人才协作”的共同进步:
1.AI4S的数据来自各个学科的数据积累;
2.AI4S的模型来自各领域科学家发现的科学原理和规律;
3.AI4S的算法源自机器学习算法和数值方法等方面的创新;
4.AI4S的算力来自高性能计算/云计算/异构计算等的发展;
5.AI4S需要拥有复合背景的稀缺人才以及开源的高效协作模式
1.4 Why now?
(Figure credit: AISI & DP Technology)
1.5 AI4S的标志性应用案例
产业问题:微观粒子间相互作用的模拟仿真是理解物理世界运行原理的基础,也是各种材料设计的基础 科学问题:用计算预测微观尺度“大规模原子体系”的物理规律 过去困难:实验手段极其昂贵;传统计算方法只能在时间尺度演化,因此计算效率极低;而高效的经验算法精度无法提升 AI4S:深度势能团队在前世界第一超算Summit上,保持第一性原理计算精度的前提下,成功对数亿原子的物理体系进行了分子动力学模拟,将超大系统的分子动力学模拟带入了全新时代。本研究不仅将模拟尺度的记录提高了几个数量级,其速度也比AIMD提高了万倍。本工作获得了2020年计算界“诺贝尔奖” 戈登贝尔奖。 |
1.6 AI4S的发展路径
我们相信任何一个领域的发展历程都是张连续谱,尤其是身处行业内的人士,可以灵敏地感知到行业任何一丝细微的突破。但当我们把时间周期拉得更长,或者以一个更宏观的视角总结和预测AI4S行业的发展。
按照行业总体上需要解决的问题,可以把AI4S前后十年的发展大致分为三个阶段:以科学家为主导的导入期,以科学家和工程师深度融合为标志的基础设施建设期,和以工程师为主导的应用期。
AI4S的产研实践
2.1 材料科学
(source: ACS Materials官网 & Casari C S, Milani A. Mrs Communications, 2018, 8(2): 207-219.)
材料是承载人类生产生活的物质基础,材料研发的本质是精准建模和分析“组分-结构-工艺-性质”之间的关系。新材料研发在过去几十年陷入“高投入低回报”困局,实验室创新昂贵缓慢,且大量成果难以商业化落地(如碳纳米管,石墨烯)。除了需求端的原因,在研发供给端也存在传统“实验试错”的范式很难应对复杂的研发需求的瓶颈。
AI4S推动的“AI+物理模型+高性能计算”范式有机会成为解决材料研发瓶颈的路径。AI4S 通过对材料基因库(数据驱动)和第一性原理计算(物理驱动)的强耦合,在高精度的前提下进行高通量筛选,实现过去“实验主导”的研发模式所无法企及的规模和效率。
在此基础上,AI4S跨尺度建模技术的发展,使得人们在薛定谔方程的有效求解、电子输运性质的计算、密度泛函模型的修正与优化、介观尺度建模等方面有了新的工具,多尺度模型能够更有效地联动在一起,并已经在合金、催化、半导体、能源、生命为代表的主要材料领域中取得突破性成果。
AI4S在材料科学中的实践(节选):❖ 西工大项目组成功复现镓的完整相图,让AI4S算法达到了实验级精度,成果发表于《Nature Communications》
❖ 合肥科大和北大项目组利用AI4S对Al-Mg合金体系的2000万种潜在构型进行高通量筛选,并第一次发现6种亚稳定构型,其中一种学术界及工业界均未曾发现,成果发表于《Frontier Chemistry》
❖ 中科院和中国计量大学团队利用AI4S开发Co-Fe-B催化剂体系的动态过程(传统手段无法观测),与实验数据、谱学数据高度一致,成果发表于《ACS Nano》
❖ 航天科技集团研究组使用AI4S对高熵陶瓷材料进行优化,极大拓展航材研发的效率和边界,为航天事业添砖加瓦,成果发表于《Journal of Materials Science and Technology》
❖ 复旦大学团队用AI4S对石墨烯、碳纳米管等众多材料体系实现了实验精度的建模,为相关纳米材料的开发增加了理论储备,成果发表于《Carbon》
❖ Monash大学研究员使用AI4S研究复合材料原位析出机理,在缺乏明确科学原理的情况下,为复合材料的理性设计展示了有效范式,相关成果发表于《Nature Communications》
2.2 生物制药
人类生命长度和质量的提升离不开新药的研发,但新药研发的投入产出比近年来呈现出越来越低的趋势。自1950年以来,每10亿美元研发投入所产出的获批新药数量几乎每9年减少一半。对新药的研发而言,投入越来越高,回报率越来越低,整个行业似乎陷入了奇怪的漩涡。如何打破创新药研发的“反摩尔定律”成为当下行业关注的核心问题之一。
目前药物研发的主流范式,是基于靶标与疾病的关系,开发能够干预靶标生物功能的药物分子。
药物研发的成功率低,主要的困境在于“对新靶点的发现”以及“对新药物的发现和设计”。
药物研发的主要环节和关键问题可以归纳为靶标,药物分子侧,以及二者间相互作用力三个方面的问题(下图)。靶标方面的问题:包括了药物靶标从哪来,长什么样,他的微观性质如何,药物的作用位点在哪;药物方面的问题:包括了药物从哪来,如何合成,药物的理化生性质是怎样的,药物的保存和递送应该如何设置;这两个方面之间最主要的问题是要评估药物靶点和药物之间的相互作用力,也就是亲和力的计算。
(Figure credit: AISI & DP Technology)
药物研发是个多环节、漫长且昂贵的流程,每一环境的效率提高都有巨大的商业价值。
简化来看,整个流程如下:
早期生物学研究的阶段:主要目标是通过对疾病信号转导通路的研究,建立疾病与靶标的相关性,明确可供开发的蛋白质靶标、相关的评估模型和生物标志物,作为后续药学验证的基础;
❖ AI4S基于组学数据,在生物信息学和AI技术的辅助下寻找规律,收敛到有限范围的潜在可选靶标和生物标志物;
蛋白质结构解析和微观机理研究环节,主要目标是获得可靠的蛋白质三维结构,并更进一步地,通过对序列-结构-动力学的进一步分析,探究蛋白质的微观性质,以及微观性质跟序列-结构-动力学三者的相关关系,为后续的药物开发提供基础;
❖ AI4S赋能的蛋白质折叠、电镜图分类、基于电镜密度图的分辨率优化;
药物作用位点探索,主要目标是找到能影响靶蛋白在与疾病相关的信号转导通路中发挥功能的、且适合药物分子结合的关键位点,基于此,我们才能根据位点的微观环境以及靶标蛋白的整体性质进行药物设计;
❖ AI4S运用AI学习已知蛋白结合位点特征,对新的靶蛋白的潜在位点进行预测;或通过AI助力分子动力学采样效率,基于模拟的方式,寻找蛋白质结合位点,以缩小实验验证范围并降低盲目性;
苗头化合物发现的阶段,核心目标是在前期建立的药效学评价中,找到能靶标蛋白生物活性的化合物,在此基础上通过系列的评估与优化,确定进一步推进的先导化合物;
❖ AI4S 将主动学习、底层程序高性能优化与传统对接软件结合,加快计算筛选药物的速度;基于AI预训练模型提高对分子的表示能力,改进搜索效果,最终富集阳性分子供实验验证;
先导化合物优化阶段,核心目标是对化合物从药效学、理化性质与药代动力学性质、毒理学性质等角度进行多参数优化,并基于此进行取舍和平衡,从而确定值得继续推进的PCC;
❖ AI4S 利用自由能微扰等自由能计算方法,结合AI优化其力场或电荷表示方式以优化精度、或结合AI主动学习策略提升计算通量,来实现大规模、高精度、堪比实验结果的亲和力预测;
❖ 同时, 利用AI预训练模型提高对分子的表示能力和基于小样本的学习能力,实现更好的预测效果;并结合自由能微扰(FEP)技术,找到亲和力没有显著变化的情况下成药性得到优化的分子;
临床前验证阶段,核心目标是获得符合监管和临床注册需求的评价数据,使得药物可以被顺利推进上临床,因此,在PCC确定前后,会考虑药物制备工艺的优化与杂质含量的控制、晶型和剂型的确证及针对不同动物种属的药效学、药代动力学和毒理性评价等
❖ 利用AI做合成路线的设计和优化;
❖ 借助第一性原理进行晶型预测;
❖ 借助AI或分子动力学模拟预测稳定剂型;
❖ 借助AI预测药物在人体可能的药效学、药代动力学和毒理学等,乃至预测临床实验的首次给药剂量,最大化发挥多种属验证评价获得的宝贵实验数据的价值。
AI4S的多学科交叉,不仅解决了从大量数据中寻找规则的问题,还可引入微观层面的物理模型。通过解决物理模型的求解速度问题,人们能基于物理模拟获得更真实的计算结果。AI4S的加入,使制药行业能够通过对生物信息的挖掘、蛋白质结构的预测(Folding)、赋能表征工具(基于AI+物理模型提升冷冻电镜的建模精度与效率)、蛋白质动力学预测(通过AI+物理模型模拟蛋白质动态构象),来解决靶点发现的难题,且可能促进了人们对生物机制和靶点的进一步探索;
而结合更精准的蛋白结构,以及在物理模型助力下设计出的药物(如自由能计算等),又可能解决计算的精准度的问题,最终达到新药的理性化设计;
此外,对遗传物质折叠状态的预测,则有望解决对遗传物质的解读以及生物大分子药物设计的难题,可更大程度探索生物大分子药物的空间,也有望进一步促进合成生物学理性化设计的发展。
2.3 能源科学
(BP:Statistical Review of World Energy 2022)
能源是人类社会发展的物质基础,是现代社会的血液。当今世界,化石能源大量使用,带来环境、生态和全球气候变化等领域一系列挑战。加快能源转型,以及推进化石能源的清洁利用,成为能源行业可持续发展的重要方向。
当前阶段人类社会的生存与发展仍然高度依赖化石能源。AI4S能帮助提高燃烧效率,降低燃烧污染,并针对污染物的治理提供思路。其中部分成果摘录如下:
❖ 国际燃烧协会主席 Thierry Poinsot团队2019年开创性使用CNN建立湍流燃烧模型
❖ 华东师范大学团队使用 AI4S 对航空发动机内燃烧反应过程进行复现,研究发表于《Nature Communications》
❖ 华东师范大学和上海纽约大学组使用AI4S对煤燃烧中多环芳烃(PAHs)污染物的形成进行复现,解释了污染物形成和增长的关键步骤,为未来煤炭清洁使用增加理论储备,研究发表于《Theoretical and Computational Chemistry》
❖ 《Science》正刊收录 UC Berkeley 课题组成果:研究人员使用AI4S对大气污染物N2O5形成酸雨的反应过程进行了复现,为相关环境挑战的解决指出了理论方向
(图. AI4S复现 ICM102高能材料分解过程)
(source: hu Q, Luo K H, Chen D. The Journal of Physical Chemistry Letters, 2022, 13: 4052-4057.)
化石能源外,AI4S也切实的助力了光伏、核能等清洁一次能源的开发。相关研究成果包括:
❖ DeepMind使用AI4S对托克马克进行数字孪生,智能调控等离子体形态
❖ 华北电力大学使用AI4S对CsPbI3新型光伏材料进行50000个原子级别的大尺度建模,进一步分析了表面和体内离子缺陷对该材料的影响,为研究光伏行业的核心挑战 —— 材料寿命问题,提供了理论支持。相关成果发表于《Chem.Phys.Chem》
❖ 武汉大学团队使用AI4S对B12P2高温热电材料进行研究,揭示其热性能背后的机理,为热电技术的最终产品化增加理论储备,相关成果发表于《Energy & AI》
(图. DeepMind预测的核反应中等离子体形态)
(source: DeepMind & SPC/EPFL, https://www.deepmind.com/blog/accelerating-fusion-science-through-learned-plasma-control)
无论化石能源还是清洁能源,常常需要转换为电能,才能更方便的进入人类丰富多样的生产生活的方式。得益于此,电池和储能基础设施领域有望出现十万亿级别的巨大机会。然而,由于电池体系的多物理尺度特性,若无法高效的研究清楚其原子-颗粒物尺度的电化学过程,并将其带入至更宏观尺度的设计流程中,则难以提升相关产品的研发进度及成功率。
通过构建跨物理尺度的桥梁,AI4S对于电池体系的研究可以发挥独特优势。学界及产业界已经开始尝试在不同体系中进行实践:
❖ 宁德时代联合多高校课题组,通过使用AI4S方法,对锂金属负极微观机理进行研究,推动电池材料向更高能量密度、更高稳定性发展,成果发表于《Advanced Science》;
❖ 《Energy & Envorinment Science》收录杜克大学团队使用AI4S对钠电池固态电解质中Na离子输运问题的研究,为相关产业解决钠电池的核心挑战——电导率低,提供了理论指引。
Source: Niu H, Wang L, Guan P, et al. Journal of energy storage, 2021, 40: 102659. https://doi.org/10.1016/j.est.2021.102659.
2.4 电子工程与信息科学
电子工程与信息科学是信息时代的基础。摩尔定律在几十年的辉煌成就之后已经接近强弩之末,业界出现了 “More Moore” 和 "More than Moore" 两条发展思路。
❖ 在“More Moore”路线上:目前台积电、三星等头部芯片企业在发展3nm以下先进制程时已经遇到微观尺度的建模瓶颈,目前靠传统DFT软件+大规模集群计算在效率和精度上无法做到双双顾全。如何理性设计新的器件(如GAA)?如何对先进制程中的工艺进行定向优化(如doping, atomic-layer-deposition等)?在面对这些挑战时,AI4S给出了令人兴奋的初步成果:
其中,湖南大学利用AI4S对硅的N型和P型掺杂进行数字孪生,达到了DFT精度,成果发表于《Material Science in Semiconductor Processing》;
而三星赞助韩国庆北大学使用AI4S范式对ALD的复杂化学反应过程进行了复现,并展示了反应结果在不同工艺参数下的区别,为最终的工艺优化提供了理论参考,成果发表于《ACS Applied Materials and Interfaces》;
❖ 在“More than Moore”路线上:科学家致力开发硅以外的新半导体材料体系,尤其是以氮化镓、碳化硅为代表的材料。在研究这些新材料体系时,常常需要进行微观缺陷、电子移动等建模分析。传统算法在体系规模较大的情况下非常耗时,而AI4S可以在理论上实现精度和计算效率的兼顾。在实践中,中科院课题组对8000个原子体系的3C-碳化硅进行建模,达到DFT精度,成果发表于《Journal of Applied Physics》。
此外,AI4S的发展也与芯片设计的发展相辅相成,形成了正向反馈循环:
❖ 一方面,Google, Synopsys等先行者已经验证了AI辅助电路设计的可行性,并已实现初步产品化;
❖ 另一方面,针对不同场景定制AI-SoC芯片,以期最大化算法效率的模式也已经在自动驾驶等领域得到了认可。近期,湖南大学研究组利用FPGA对DeePMD(AI4S典型算法)进行加速,解决AI训练中常见的 memory wall 和 power wall 问题,成果发表于Nature子刊《npj Computational Materials》
除了芯片,AI4S的多尺度建模还有机会助力显示材料、存储材料和传输材料的发展。
(图. 信息科学中的 AI4S)
(Figure credit: AISI & DP Technology)
北京科学智能研究院(AI for Science Institute,Beijing,以下简称AISI)成立于2021年9月,由鄂维南院士领衔,致力于将人工智能技术与科学研究相结合,加速不同科学领域的发展和突破,推动科学研究范式的革新,建设引领世界的「AI for Science」基础设施体系。
AISI的研究人员来自国内外顶尖高校、科研机构和科技企业,共同聚焦物理建模、数值算法、人工智能、高性能计算等交叉领域的核心问题。
AISI致力于创造思想碰撞的学术环境,鼓励自由探索和跨界合作,共同探索人工智能与科学研究结合的新可能。
深势科技成立于2018年,致力于以“多尺度建模+机器学习+高性能计算”分子模拟新范式解决微观尺度工业设计难题。以打造切实服务于创新药企、材料商和科研机构的分子模拟研发平台为主要业务方向,以解放研发工作者的生产力为主要业务目标。
深势科技的核心团队由中国科学院院士领衔,研发队伍由物理建模、数值算法、机器学习、高性能计算及药物和材料计算等多个领域的数十名优秀青年科学家和工程师构成。
深势科技具有强大的科研能力。融合跨尺度建模、高效采样、高性能计算等尖端算法科技,深势科技形成领跑行业的“AI+分子模拟”技术,并取得世界级成绩。自研的新一代分子模拟算法在保持量子力学精度的基础上,将分子动力学的计算速度提升了至少五个数量级,且对算力的需求与体系的原子数量呈线性依赖;结合高性能计算,能够对数十亿原子规模的体系进行量子力学精度的计算模拟。相关工作当选2020年中国十大科技进展,团队核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,推动团队成就迈上新台阶。