AI for Science:追求人类智能最光辉的一面
最近10年里,AI 飞速发展,在很多任务上已经和人类媲美。而且近年来,以 GPT-3、DALL·E 2 为代表的大模型让人惊艳。
比如大家现在非常关注的 ChatGPT,让我们觉得通用人工智能离日常生活越来越近。但这些成果主要集中在感知和认知层面,并没有反映出人类智能里最光辉的一面,即认识世界和改造世界。
如果戴上科学的显微镜,就会发现我们之所以成为人类、成为生物,是亿万个细胞、甚至是更多微观粒子相互作用的结果;而如果戴上科学的望远镜,就会发现我们人类不过是地球上百万物种之一、而地球在苍茫宇宙里也同样是不值一提的沧海一粟。
所以,无论是从微观还是宏观角度看,我们人类自身都是非常渺小的。我们不应该让 AI 一味地模拟语音、视觉、语言等人类自身的基本技能,而是要让 AI 拥有和人类一样认识世界和改造世界的勇气和能力。而认识世界和改造世界正是千百年来,自然科学研究的终极目标。
我在微软的前同事 Jim Gray 曾经写过一本书,对科学发现四个基本范式做了深刻的总结。
第一个范式叫做经验范式,基于经验的观察,是天才科学家对万物万象的总结。比如著名的天文学家开普勒,他通过观察总结出天体运行的规律:“所有的行星围绕太阳运行的轨道都是椭圆的,太阳处在所有椭圆的公共焦点上”。
第二个范式是理论范式,指数学家对经验进行数学抽象和推演,比如用于描述经典力学的牛顿运动方程,用来描述电场磁场关系的麦克斯韦尔方程等。
第三个范式是计算范式,随着计算机的发明,人们开始有能力求解复杂的物理方程。比如,通过有限元或者有限差分方式求解流体方程,从而有助于人类对于天气预报进行精准预测。
第四个范式是数据驱动的范式,这个过程中 ML(机器学习)扮演着非常重要的角色,人们使用ML方法来分析数据,寻找规律,并进行预测。
最近这几年,大家开始关注的一种新的范式,叫做 AI for Science,它是前四种范式的有机结合,发挥了经验和理论各自的特长,又把 AI 和计算科学融合在一起。AI for Science 是对科学发现更全面的认知,因此我们称之为科学发现的第五范式。
为了更好地理解 AI for Science,我们可以从如图的公式讲起。
第一、对于物理世界(绿色的 X),我们可以利用理论科学对它进行大体的描述,并且可以用 AI 的手段来加速这些理论方程的求解和推演。这对应了黄色的 X(θ)表示的部分,可以看成 AI 版本的第三范式。
第二、我们需要承认,我们在科学方面的知识仍然非常有限,已有的理论还不能完美解释所有的科学现象。换句话说,我们承认物理方程的解 X(θ)和实际物理世界X之间存在残差 ε,这个残差表达的是现有物理方程的边界,可以用实验手段观察,也可以为 AI 所利用,这就对应了第四范式。当然,这几年 AI 领域的新发展,比如 RL(强化学习)、DL(深度学习)、大模型等等,会为第四范式提供新的加持。
第三、通过 AI 手段从数据出发,目的不仅仅是为了发掘一些特定的结果,也可以进一步帮助我们修正对已有物理方程的理解,丰富我们的科学知识,让我们有机会发现新的科学规律,这样就最终能够实现科学研究的闭环,这对应了 AI 版本的第一范式和第二范式。
接下来,我们就针对这三个方面进行更加深入的讨论,并介绍我们团队最新的研究成果。
第一,如何用 AI 求解物理方程?
传统数值解法求解物理方程的效率是一个瓶颈。近年来,人们开始利用 AI 模型来对物理方程进行更加高效的求解。AI 模型的训练数据可以来源于传统的数值解法,而一旦训练成功,在求解新的方程的时候就可以节省大量的时间。
此外,近年来还出现了一种 physics informed training,甚至不需要提前生成训练数据,只需要在训练的过程中,动态验证 AI 模型的输出是否满足物理方程,定义损失函数即可,而验证方程比求解方程简单得多。
在这个方向上,我们团队有一些最新研究成果,如发表在 NeurIPS 2021 上的 Graphormer 模型,和发表在国际期刊《流体物理》上的 Deep Vortex Net,分别在分子建模和气象模拟领域取得了国际领先的结果。
第二,如何用 AI 从科学数据中发掘有效信息?
各种实验设备每年都产生海量数据,但显然不能靠人工有效处理;还有每年都有近150万篇论文发表,但任何科学家都没有精力读完。
我和团队提出利用 AI 方法来自动分析高能粒子对撞的射流数据,在国际期刊《High-energy Physics》上提出了 LorentzNet 模型,将洛伦兹等变性构建在模型之中,在新粒子发现领域取得了比前人显著提高的精度。
我们还利用科学文献训练了 SPT 模型,对科学文献信息的科学知识进行抽取、总结、和预测。该模型近期在 PubMed 问答任务上首次达到了人类专家的水准。
第三,如何从实验数据出发,用 AI 发现新的物理方程,形成科学发现的闭环。
比如物理的守恒定律,一旦实验数据不满足守恒性,往往暗示着一些新物理规律的存在。我们团队设计了一个双通道的 AI 模型,包含一个基于拉格朗日神经网络的守恒通路和一个基于标准神经网络的非守恒通路,可精准地从实验数据中自发地学到很多已有规律。该工作发表在 Physical Review 上,受到了广泛关注。
我们相信 AI for Science 将会对自然科学产生巨大影响,尤其在解释生命奥秘以及保障环境可持续发展方面,都有很大的潜力。
沿着这两个方面,我们进行了很多探索,发表了一系列非常有意思的论文,如果大家感兴趣可以参考一下。
为了更好地推动 AI for Science 这个领域高速发展,今年7月,微软研究院在全球成立了一个新的研究机构,我们称之为 Microsoft Research AI4Science 或者是微软研究院科学智能中心。这个研究中心设立的目的就是利用 AI 对分子动力学模拟、流体力学模拟等重要的科学计算工具来进行颠覆式创新,从而推动人类关心的重大问题的求解。
非常荣幸,我作为这个中心的创始成员之一,带着团队一起推动 AI for Science 的研究。我们也真诚地希望怀揣着科学梦想的同事们能够加入我们,一起探索科学的新边界!
你也许还想看: