查看原文
其他

如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT?

吴泰霖 集智俱乐部 2023-04-28


导语


从微观到宏观,跨越广阔的空间和时间尺度,AI + Science 在发现基本粒子、量子计算、蛋白质模拟、材料设计、可控核聚变、气象预测、碳捕捉等政策设计、探索浩瀚宇宙等各个方面,都发挥着重要作用。一方面,各个科学领域中的重大问题为 AI 研究带来全新的挑战和机会;另一方面,最新的 AI 技术为解决科学领域的问题提供了强大的工具。


在集智俱乐部 AI + Science 读书会第一期,斯坦福大学计算机科学系博士后研究员吴泰霖从 AI for Science 和 Science for AI 两个方向,探讨为何要将 AI 与 Science 结合,以及 AI + Science 下一步关注的重要问题和未来面对的挑战。今天的文章整理自此次分享。


关键词:AI for Science,Science for AI,科学仿真,科学设计,科学发现

吴泰霖 | 讲者

陶如意 | 整理

梁金 | 编辑



本文由第一期 AI + Science 读书会第一期总结而成。在此次分享中,讲者吴泰霖主要就以下几个方面展开论述:

  • 我们为什么要讨论 AI + Science?

  • AI for Science 关注的核心问题,以及前沿进展有哪些;

  • Science for AI 领域的核心问题,以及前沿进展有哪些;

  • AI + Science 下一步关注什么问题?




1. 我们为什么要讨论 AI + Science ?




AI + Science 这一领域可以分为 AI for Science 和 Science for AI 两个部分。前者指利用AI技术为科学发现赋能,后者指利用科学知识设计出更强大的AI技术。

在 AI for Science 部分,许多前沿的AI技术可以帮助科学发现,主要包括:
1)在数值模拟方面提升速度和准确性。如 DeepMind 提出的 GraphCast[1] 能通过输入60秒的历史天气,预报未来10天的天气,不仅在准确度上极大优于传统预测手段,在运算效率上也有极大的提升。AlphaFold [2] 的提出将人类蛋白质结构预测的准确度提升到了前所未有的水平。
2)帮助科学家探索科学框架的设计。我们可以让AI去更大的设计空间搜索设计策略和控制优化策略。比如近期发表在Nature 上的工作,使用深度强化学习控制核聚变反应中的等离子体,第一次发现了全新的等离子体结构[3]。
3)揭示未发现的科学定律和知识。比如近年的工作 AI Feynman2.0[4],让AI重新发现了《费曼物理学讲义》中的100个物理方程,甚至还发现了新的方程。这类工作可能在很大程度上可以做到帮助人类加快科学发现。
更进一步来说,科学技术的进步对于人类而言,是解放生产力以及获得可持续增长的重要方式之一。

[1]Lam, Remi, et al. "GraphCast: Learning skillful medium-range global weather forecasting." arXiv preprint arXiv:2212.12794 (2022).[2]Lumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." Nature 596.7873 (2021): 583-589[3]Degrave, Jonas, et al. "Magnetic control of tokamak plasmas through deep reinforcement learning." Nature 602.7897 (2022): 414-419[4]AI Feynman 2.0 [1]: rediscover top-100 physics equations in Feynman lectures

在 Science for AI 方面,当前的科学也可以为促进AI的发展提供非常有效的帮助,为AI技术带来了新的挑战。如许多物理、化学等科学问题面临超大的状态空间搜索,当前的AI技术无法很好地解决。如何解决这些科学问题,对AI的发展提出了更大挑战。

其次,基于一些科学先验知识,我们也可以设计出更强大的AI模型,在这方面已经有了很多工作。比如等变图网络[5]的提出,就是启发于物理中的对称性,使得模型可以在药物分子建模等方面满足需求。同样在模型中引入对称性的工作还有[6],在不同的系统中都极大提高了分子动力学模拟器的性能。另外还有扩散模型[7]、能量模型[8]等,都对神经网络的建模提供了启发。

[5] Victor Garcia Satorras, Emiel Hoogeboom, Max Welling,E(n) Equivariant Graph Neural Networks [2022]  [6] Zhang L, Han J, Wang H, et al. Deep potential molecular dynamics: a scalable model with the accuracy of quantum mechanics. Physical review letters, 2018, 120(14): 143001.[7] Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics.[8] Greydanus, Samuel, Misko Dzamba, and Jason Yosinski. "Hamiltonian neural networks." Advances in neural information processing systems 32 (2019)

AI 和 Science 的结合是一种双向的赋能,我们当前还有许多事情可以做。下面本文将对上述提到的内容进一步详细展开论述。




2. AI for Science




一方面是AI对科学的赋能。首先我们可以对科学做一个分解,这个过程首先是发现科学定律,并据此建立模型,这个过程在传统范式中往往非常依赖科学家个人的洞察力,如开普勒定律和牛顿定律等;然后我们会根据这一模型去模拟真实世界,解释更大范围的事物;最后,我们会尝试设计出新的系统,比如修改模型的参数,或者对系统进行实验和干预等,对系统进行控制,对系统产生进一步的了解,从而为进一步的科学发现创造条件。

而在机器学习中同样也存在这样类似的步骤:通过数据驱动的方式发现一个模型;使用模型对系统进行模拟;最后可以通过控制等方式设计出新的系统。所以这二者的相似性就可以引出AI如何赋能科学的三个方面:科学仿真(Simulation)、科学设计(design)、科学发现(discovery)

图1. 科学仿真、科学设计与科学发现三阶段与机器学习的对应

2.1 AI 之于科学仿真

科学仿真是指用数值模拟的形式,在给定系统初始状态,边界条件以及参数的时候,模拟系统的动力学或者稳态。而通过引入机器学习的方法,模拟的速度和精度都会得到极大的提高。

图2. 动力系统仿真示意图。μt是系统的初始状态,可以是一个连续函数,或者一个图;f*是演化动力学,可以是偏微分方程的演化,或者是真实世界的演化;a 是系统不随时间变化的静态参数;∂X是系统的边界条件。


在科学仿真过程中,我们首先关心的问题是希望做到精确模拟。我们可以用传统的方式,基于第一性原理建立偏微分方程,然后求解。这样做的好处是解释性高,并且求解精度有理论保证。但缺陷是运算慢,而且对于很多复杂的系统,可能难以求解,甚至难以写出偏微分方程。

我们也可以考虑用纯数据驱动的方式,将图1中的f*动力学参数化,用神经网络强大的拟合能力学习出一个f(θ),使其尽可能接近真实的动力学。

不过,一个更好的方式是,我们可以取两者的长处,即保留神经网络的运算能力,同时也加入一些物理先验信息对神经网络结构进行约束,或者使用更符合物理直觉的训练方式,使得模型的表现更好。

比如图神经网络通过引入图结构的先验信息,即事先给定微观粒子之间的相互作用关系,从而提升神经网络的预测能力。这里就我们以一系列基于GNN的工作为例,展开论述GNN在科学仿真领域的进展。

首先是 DeepMind 提出了一种图网络模拟器(Graph Network Simulator,GNS)[8],模拟粒子物理系统,可以应用于流体力学或者计算图形学等领域的模拟。具体架构如下图所示。首先根据先验信息建立一个图,然后基于消息传递(Message Passing)机制更新节点的特征,这里的“消息”可以代表粒子之间的相互作用关系,通过神经网络的映射,实现粒子状态的更新,最终实现模拟粒子通过相互作用发生运动的动力学过程。

图3. 使用图神经网络模拟复杂系统。| 图片来源: Sanchez-Gonzalez et al. Learning to Simulate Complex Physics with Graph Network. ICML 2020. http://proceedings.mlr.press/v119/sanchez-gonzalez20a/sanchez-gonzalez20a.pdf


随后提出的 HGNS (Hybrid Graph Network Simulator)方法 [9] 则通过引入多步预测,和 sector-based 训练技巧,使得神经网络可以在更加复杂的系统上进行模拟。前文提到的天气预报模型 GraphCast[1],则进一步引入多尺度信息,从而实现大规模和大尺度的预测效果。

另外一个基于网格的仿真(mesh-based simulation)也使用了图网络建模[10],它们除了引入网格网络之外,还基于位置信息引入了不同网格之间的相互作用。这种建模方式也被证明在网格数据中有非常好的预测效果。这篇工作发表在了2021年的 ICLR 上。而后续也有对其进行的改进工作,比如通过引入一个调控参数,用来平衡预测准确度与预测精度[11]。


当然该领域还有一系列其他优秀的工作,比如基于对称性提出的等变图网络(equivariant graph)[5],引入动量守恒的约束从而提高准确度[6, 12]。而除了图神经网络之外,还有可以引入无限维函数(infinite dimensional function)建模状态空间,引入傅里叶神经算子[13]等等,无法在此穷举展示。

[8]Sanchez-Gonzalez et al. Learning to Simulate Complex Physics with Graph Network. ICML 2020.[9] Wu, Tailin, et al. "Learning large-scale subsurface simulations with a hybrid graph network simulator." SIGKDD 2022[10]Lam C Y, Lu J R, Udalski A, et al. An Isolated Mass-gap Black Hole or Neutron Star Detected with Astrometric Microlensing[J]. The Astrophysical Journal Letters, 2022, 933(1): L23.11]Pfaff, Tobias, et al. "Learning mesh-based simulation with graph networks." ICLR 2021[11]Wu T, Wang Q, Zhang Y, et al. Learning large-scale subsurface simulations with a hybrid graph network simulator. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 4184-4194.[12]Prantl L, Ummenhofer B, Koltun V, et al. Guaranteed Conservation of Momentum for Learning Particle-based Fluid Dynamics. NeurIPS 2022[13]Li, Zongyi, et al. "Fourier neural operator for parametric partial differential equations." ICLR2021

在仿真领域,我们关心的另一个问题是,求解出系统的稳定状态。这在材料、凝聚态物理等领域是非常重要的问题。对于这类问题,模型的输入就是一个边界条件,输出就是系统的稳态。比如像蛋白质折叠问题,我们关心的是最终结构,而不关心折叠的过程。一个好的方法就是使用神经算子(neural operators)进行求解[14-16]。

图4. 根据系统边界条件和参数,求解系统稳定状态图示

[14]Li, Zongyi, et al. "Fourier neural operator for parametric partial differential equations." ICLR2021[15] Li, Zongyi, et al. "Neural operator: Graph kernel network for partial differential equations." arXivpreprint arXiv:2003.03485 (2020).[16]Raissi et al., Journal of Computational physics 378 (2019): 686-707

关于科学仿真这个大领域,除对于科学问题来说有重要意义之外,其实背后还有更大的图景。比如数字孪生,我们可以设想在制造业中造一个数字孪生体,完全模拟生产过程的发动机结构、系统状态、系统演化等等整个流程,从而实现对系统进行实时监测和调控。

图5. 数字孪生和元宇宙

2.2 AI 之于科学设计

对于科学设计,在此处可以定义为,我们设置一个目标,希望可以通过某些方式,让神经网络自动找到可以实现这一目标的初始条件,如蛋白质结构设计;或者找到边界条件,如设计飞机的形状;亦或者外部控制条件,如调控全球变暖。

图6. 科学设计的框架图

具体实现方式包括如下几种:

a) 可以用学习好的模拟器作为一个内部优化循环,实现边界条件的确定。比如前文提到的,基于图网络的模拟器GNS就属于这类方法 [8]。

图7. GNS实现粒子运动路径的优化

b) 可以通过迭代的形式实现收敛,如 diffusion model,从一个随机分布开始,最终收敛到我们想要的分布。工作[17]是使用几何图网络(Geomeric Graph Neural Network),结合扩散模型实现等变图的生成任务。对药物生成有很强的现实意义。

图8. 基于扩散模型的等变图生成

c) 可直接映射,比如使用 transformer 直接学习边界条件或者系统参数到目标的映射 [18]。

图9. 直接映射

d) 通过强化学习直接设计系统本身 [19,20],比如在分子设计这一任务上,可以通过强化学习的方式逐一加入原子。还有前面提到的系统控制等任务,也是强化学习的强项。

图10. 基于强化学习的系统设计

而实际使用也并不局限于以上提到的方法和模型。并且同样,AI对于科学设计的增强也使得我们解决数字孪生这样的大问题有了进一步潜力。

[17]Xu, Minkai, et al. "Geodiff: A geometric diffusion model for molecular conformation[18]Guo, Ruchi, Shuhao Cao, and Long Chen. "Transformer meets boundary value inverse problems." NeurIPS 2022[19]You, Jiaxuan, et al. "Graph convolutional policy network for goal-directed molecular graph generation." Advances in neural information processing systems 31 (2018).[20]Degrave, Jonas, et al. "Magnetic control of tokamak plasmas through deep reinforcement learning." Nature 602.7897

2.3 AI 之于科学发现

科学家是如何实现科学发现的呢。伽利略发现单摆周期规律的过程,首先是通过观察教堂的台灯摆动为灵感,发现台灯的摆动周期是固定的,并且和摆动的幅度没有关系。然后他将这一过程抽象为了一个单摆运动,在这一系统上总结出了一些定量的规律。最后,再将这一过程向所有类似的系统中进行泛化。

所以,根据这一例子我们可以总结来看,科学发现的步骤可以大致分为:概念的发现,规律的总结,以及概念的泛化这几个步骤(如图11所示)

图11. 科学发现的环节及其之间的关系

首先第一个步骤,发现概念、表示或者性质。比如我们需要对细胞的分类进行辨识、分类、表示,或发现系统的因果结构,或者发现系统的对称性等性质等等。而AI在表征学习、分类学习、因果发现等领域都能够帮助我们在这一个步骤的能力得到增强。近期刘子鸣等人的工作使用机器学习算法发现了守恒律 [21]。

其次是发现概念之间的关系,即物理定律发现的过程。我们也可以使用数据驱动的方式发现公式。这里涉及到符号回归相关的技术,也有了相当一部分的工作,比如前文提到的AI费曼2.0等 [22-24]。

最后是概念的泛化。这可以对应的例子是,将能量模型(Energy-based model)累加后得到更复杂的模型[25,26],从而获得更好的效果。以及 few-shot 学习[27],大模型中上下文学习的使用等 [28],都可以做到将模型泛化到更复杂的概念和使用场景中。

图12. 使用符号回归发现物理定律。| 来源:Udrescu, Silviu-Marian, et al. "AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity." NeurIPS 2020 https://arxiv.org/abs/2006.10782


[21]Liu, Ziming, and Max Tegmark. "Machine learning conservation laws from trajectories." Physical Review Letters 126.18 (2021): 180604.[22]Udrescu, Silviu-Marian, et al. "AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity." NeurIPS 2020[23] Wu, Tailin, and Max Tegmark. "Toward an artificial intelligence physicist for unsupervised learning." Physical Review E 100.3 (2019): 033311.[24] Mundhenk, Terrell, et al. "Symbolic regression via deep reinforcement learning enhanced genetic programming seeding." NeurIPS 2021[25] Du, Yilun, Shuang Li, and Igor Mordatch. "Compositional visual generation with energy based models." NeurIPS 2020[26] Wu, Tailin, et al. "Zeroc: A neuro-symbolic model for zero-shot concept recognition and acquisition at inference time." NeurIPS 2022[27] Cao, Kaidi, Maria Brbic, and Jure Leskovec. "Concept learners for few-shot learning." ICLR 2021[28] Brown, Tom, et al. "Language models are few-shot learners." NeurIPS 2020




3. Science for AI




对于科学增强AI这一部分内容,核心观点在于,我们可以将科学中的很多概念或定律作为先验知识或约束引入AI模型,使得模型表现出更强大的效果,图5展示了部分科学概念引入AI模型,并为AI模型取得重大突破的例子。

在读书会后续的分享中,会展开介绍其中一些重要的分支。比如物理启发的生成模型,包括能量模型、扩散模型、量子生成模型等[29],以及一些物理启发的学习理论,如相变、场论等理论启发的学习模型[30]。

图13. 科学概念对于AI模型的增强

[29] Xu, Yilun, et al. "Poisson flow generative models." NeurIPS 2022[30] Liu, Ziming, et al. "Towards understanding grokking: An effective theory of representation learning." Advances in Neural Information Processing Systems 35 (2022): 34651-34663.




4. AI + Science 下一步关注什么问题?




AI+Science是一个逐渐兴起的研究方向。在这个领域我们接下来应该关注的是什么问题呢?讲者认为,一个足够重要且有潜力的问题应该满足以下几个条件:

1)普适且影响深远。也就是说这个问题的解决方案可以被用于解决其他很多问题。

2)这个问题本身可能目前看起来是模糊的,但在2-3年内是有希望解决的;

3)有充足的数据;

4)有明确的评价目标;

可以看到,像 ChatGPT 和 AlphaFold 其实都满足这样的条件,现如今它们也确实成为了AI技术的现象级产品。或许沿着这一思路,下一个 ChatGPT 和 AlphaFold 也将很快出现。吴泰霖老师也在分享时提出了自己的想法:我们是否能够创建一个集成平台,我们只需要给出一些文本命令或者函数形式,这个平台就能够自动设计出符合我们要求的系统,比如发动机的形状,或者给出系统最优的参数等。

AI + Science 正方兴未艾,AI和科学的结合仅被挖掘出了冰山一角,而AI的迅速发展又能给二者结合的效能提供强有力的潜力。对于AI + Science,这是一个最好的时代。


讲者简介

吴泰霖是斯坦福大学计算机科学系的博士后研究员,由Jure Leskovec教授指导。他从麻省理工物理学博士毕业,其毕业论文主题为AI for Physics and Physics for AI,本科毕业于北京大学。他的研究兴趣为AI+Science,包括开发机器学习方法用于大规模科学和工程模拟,开发神经符号方法用于科学发现,以及由科学问题启发的表示学习(运用图神经网络、信息理论和物理等方法)。他的工作发表在NeurIPS、ICLR、UAI等顶级机器学习会议以及物理学顶级期刊上,并被MIT Technology Review报道。他是美国国家科学院院刊(PNAS)、Nature Communications、Nature Machine Intelligence、Science Advances等综合期刊的审稿人。

个人主页:https://tailin.org/



AI+Science 读书会启动


AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。


详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动


“后ChatGPT”读书会启动


2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢?

集智俱乐部特别组织“后 ChatGPT”读书会,由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。本系列读书会线上进行,2023年3月3日开始,每周五晚,欢迎报名交流。


详情请见:
“后 ChatGPT”读书会启动:从通用人工智能到意识机器

报名链接:
https://pattern.swarma.org/study_group/23?from=wechat


推荐阅读

1. Wolfram:AI 会抢走所有工作并终结人类历史吗?
2. AI何以涌现:复杂适应系统视角的ChatGPT和大语言模型
3. 一作解读:深度学习中的Neural Scaling Law (神经标度律)和对AI+Science的启发
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!



点击“阅读原文”,报名AI+Science读书会

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存