鄂维南院士——AI for Science:一场正在发生的科技革命
The following article is from 未来科学论坛 Author 科学改变未来
点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达
本文转自未来科学论坛
《理解未来》科学讲座AI for Science系列03期,我们特别邀请到中国科学院院士、北京大学教授、北京大数据研究院院长、北京科学智能研究院(AI for Science Institute, Beijing)院长鄂维南做专题分享,鄂教授以《AI for Science:一场正在发生的科技革命》为题阐述AI for Science带来的科研范式的变革和新的产业业态。AI for Science旨在通过深度学习解决数据驱动方法中数据缺乏和数据分析工具不足的问题。随着AI for Science的发展,科研模式也从作坊式改变到了安卓式,其将依赖于四大基础设施:基于基本原理的模型和算法,高效率高精度的实验表征方法,数据库和知识库,高效便捷的算力资源。同时鄂教授表示在AI for Science的大背景下,传统科学未来将会成为人工智能的主战场之一,在未来会改变生物制药、芯片、材料、工业制造等领域的产业模式。
鄂维南:谢谢谢晓亮教授的邀请和介绍,很高兴参加未来论坛AI for Science这样一个讲座系列,我知道今天的主题是Life Science,我并不是做这方面,所以很难说在这方面有什么真知灼见,但是我算是国际上最早推动AI for Science这个研究范式的人之一,所以我还是从比较泛的角度介绍一下AI for Science,我们认为它是一场正在发生的科技革命。
还是从科学研究长期面临的困境讲起,我们做科学研究有两种主要的方法,一个是基本原理驱动,所谓的基本原理就是比方说像量子力学、欧拉方程等,这一类我们把它叫做基本原理,这一类基本原理一方面代表了科学研究最重要的成果,从理论的角度来说这是几百年科学研究最重要的成果。另一方面,我们用这些基本原理去解决实际问题的时候就会发现,它们在实际问题中发挥的作用到目前为止是非常有限的。
另外一个方法就是数据驱动的方法。数据驱动的方法,我们也受到了两方面的限制,一方面是缺乏数据,一方面是缺乏数据分析的工具。
这些是我们几十年来,甚至上百年来科学研究长期面临的困难。
这个困难究竟在哪里?这里面核心的困难之一就是自由度太多了,比方说刚才提到的量子力学,量子力学的基本方程就是薛定谔方程,薛定谔方程里面我们要求解的是波函数ψ,这个波函数有多少个自由度呢?它的自由度的个数是3×粒子的个数,也就是说一个100个电子的系统,它的自由度的个数是300,100个电子的系统是非常小非常简单的体系,但是300个自由度的波函数却是非常复杂的数学问题。
自由度太多带来的直接困难就是所谓的维数灾难。维数就是自由度的个数,什么叫维数灾难?就是说随着维数增加,计算量成指数增加的。形成维数灾难的核心原因,从数学上来讲,就是在高维的时候,多个自由度的时候,多项式或者分片多项式不是有效工具了。大家学微积分,一个最基本的结果就是泰勒展开,泰勒展开说的是什么事情呢?泰勒展开说的就是一般的函数可以用多项式来逼近,这样的工具在低维的情况,也就是说自由度比较少,一个自由度、两个自由度、三个自由度的时候,是个非常有效的工具。但是到了高维的时候就不是有效工具,体现在哪里?我们来数一数高维情形下能组成的单项式个数,比方说10个变量能组成的的10阶单项式,10个变量不算太多的变量,但它能组成的10阶单项式就超过了100万个,单项式太多了。而多项式是单项式的线性组合,所以多项式就不是一个有效的工具,这个工具就不是特别有效。
如果用分片多项式,就得打网格。我们会发现在高维的时候不管怎么打,这个网格都太粗了。这里也给了一个例子,就是1000维空间里的单位立方体里面放100亿个点的话,这个网格的大小是0.977。如果一个点都不放,这个网格的大小是1,即使放了很多点,这个网格的尺寸也只降了非常少。
因为维数灾难的困难,我们只能用非常粗糙的办法解决实际问题,比如量子力学里面有一个非常著名的Hatree近似,它指的是用单变量函数的乘积来替代多变量的函数,这样的逼近方法显然是非常粗糙的,尽管如此粗糙,Hatree近似仍然是迄今为止量子力学、量子化学里面最基本的工具之一。
深度学习恰恰是我们需要的工具,解决前面说的问题的工具。为什么这么讲?我们列举了三个典型的深度学习非常有用的场景,第一个是图像识别,第二个是人脸图片的生成,第三个就是大家非常熟悉的AlphaGO,这三个是深度学习非常成功的典型案例。
我们回到第一个问题,图像识别从数学的角度来讲实际上是在逼近一个高维的函数,这个维数有多少?大家可以去数一数,维数是3072(对于一张32x32x3的图片),也就是说每个图片有3072个自由度。如此高维的函数,用多项式拟合是根本不可想象的,但是深度学习提供了非常好的解决方案。这里面给我们一个启示,就是说深度学习方法能够有效处理高维问题。
为什么深度学习方法可以处理高维问题?它用了一个基本的工具,就是神经网络,神经网络就是一类特殊的函数,这个函数的形式是这么一个表达式,这个细节不重要,重要的是神经网络就是一类特殊的函数,这类特殊函数跟多项式不一样的地方就在于,神经网络对于高维函数提供了有效的逼近方法。
那么为什么神经网络能对高维函数提供有效逼近,对哪些高维函数能够提供有效逼近,这是一个非常深刻的数学问题,现在还在进一步探讨,虽然有了一定的结果,但是现在还是一个正在研究的热点问题。
但是从深度学习的成功我们可以看到它背后的数学原理——深度神经网络对高维函数提供了有效逼近。也就是说,在高维情形,深度神经网络是多项式的有效替代品,函数是非常基础的数学工具,在最底层的数据工具上,也就是在函数这个层面,我们有了一个非常有效的新工具,它带来的影响是巨大的,这也是AI for Science的数学基础。
下面我举几个例子,人工智能(深度学习)方法对科学研究带来的突破:
第一个是大家非常熟悉的AlphaFold,这是一个非常典型的数据驱动的方法。前面提到数据驱动面临一个很大的瓶颈就是我们缺乏有效的数据分析方法,深度学习或者说人工智能方法提供了新的突破,大家都已经很熟悉了,这就产生了AlphaFold2。可以说AlphaFold2一举解决了生物科学里面一个多年没有被解决的基础问题,而且AlphaFold2不仅仅是解决了这样的问题,是用非常elegant的办法解决了这个问题,这个我觉得也是值得称赞的。
除了数据驱动的方法以外,模型驱动的方法也得到了新的突破,我们举的例子就是现在已经被广泛使用的DeePMD,这是分子动力学的工具,分子动力学是计算材料、计算化学、计算生命科学很基础的应用工具,一直以来我们都面临的困境就是说很难发展既精确又高效的分子动力学方法,深度学习方法给我们提供了有效的解决方案,这里面最好的例子之一就是DeePMD,它可以说实现了在分子层面大规模、高效的模拟,同时保证了微观科学领域里面计算的尺度和精度。
这里举的例子就是水的相图,水是自然界最常见的物质之一,但是水的相图却是非常复杂的,这里面的灰线是实验得到的水的相图,以前从理论的角度来讲我们难以恢复水的相图。现在大家看这个红线,它是DeePMD 的结果。它至少从定性的角度模拟出了水的相图,这也是比较重要的一个成果。
这样的想法不仅仅是可以用到分子动力学层面,在整个物理模型的生态链上,从最底层的薛定谔方程,这个是凝聚态物理里面常用的工具;密度泛函,这是计算化学、计算材料科学,甚至于计算生物学常用的工具;分子动力学, 这也是计算化学、计算材料科学、计算生物学常用的工具;粗粒化的分子动力学,如果大家做化工的话,就不是用分子动力学,而是用粗粒化的分子动力学;再到玻尔兹曼方程,到连续介质力学再到大气科学、海洋科学里面的湍流模型。应该说这张图上概括了自然科学和工程科学里面常用的所有基础的物理模型,在每一个层面,我们都可以用人工智能或者机器学习的方法来设计新的模型和新的算法,所以说基于机器学习的新算法,开启了科学计算的新时代。
这里带来的一个可能的转变,我认为是我们的科研范式从作坊模式到安卓模式的改变。
为什么说是作坊模式?我们现在做科研、带学生、培养研究生很大程度上是师傅带徒弟的办法,这是作坊模式的体现,我们的科研团队也是作坊模式,如果做计算材料的某种研究,从基础的量子力学计算到分子动力学势函数,到分子动力学的计算,再到实际的数据分析,整个都是一个团队自己做起来,这就是典型的作坊模式,它带来的困难之一就是效率比较低下。
未来这样的作坊模式会转变到安卓模式。所谓的安卓模式就是建立一些大平台,这个大平台是大家共同建设的,在这个平台的基础上,我们可以开发各自感兴趣的应用。要实现这样一个转变,我们必须把这些平台建起来,平台式的科研,我觉得这里面有四大基础设施:
第一个是基本原理层面也就是前面提到的各个尺度的物理模型。基于这些基本原理的模型和算法,我们要使它变得真正有用,不但有用,而且可靠,精度和效率能够同时得到保证,刚才已经举了分子动力学的例子,人工智能的方法就可以有效帮助我们解决这样的困难,这是以前难以想象的。
除了这个以外,科学研究还有一个最重要的工具就是实验。过去实验的效率是相对来说比较低下的,我们应该发展高效率、高精度的实验表征方法,包括像光谱、质谱以及各种各样的图像、影像的方法,STM、SEM等等,这也会是一个基础设施。
第三是数据库和知识库。为什么可以做AlphaFold,就是以前积累好了像蛋白序列和结构这样的数据库。除此之外,还有所谓的知识库,比方说化学、材料学,都有很多实验结果。它们实际上是为我们积累某种知识。以前这些知识都是以文献的形式展现出来,以后我们必须建立起来相应的知识库,这样可以更有效地让我们把这些知识运用起来,比如说在这些知识库的基础上开发新的人工智能模型。
这里面还有一个重要的基础设施就是高效、便捷的算力资源。这个我不多讲了。它也是重要的发展方向,包括像异构的算力资源、云资源等等。
从2018年开始,我们一直在这些基础设施方面做努力,其中一个重要的成果就是开发了DeepModeling这样的开源社区。DeepModeling是很多年轻人做的社区,社区集成了机器学习和物理模型相结合的科学计算方法、模型和基础设施。它是全球化的,在普林斯顿大学也做了这样开源社区的大会,国内外有很多人都积极的参与其中。
在这些基础设施的基础上,我们需要做的就是针对具体应用场景来组织垂直整合的团队,这也是我们科学智能研究院做的一件事情。北京科学智能研究院(AISI)应该是国际上第一个以AI for Science作为主要方向的研究机构。我们做两件主要的事情,一个就是基础设施建设,第二个就是针对具体的应用场景来组织垂直整合的团队,包括比方说药物、电池、发光材料、燃烧发动机等等。
我介绍几个具体的例子:一个例子就是分子动力学势函数的预训练模型,分子动力学是一个很基本的工具。对于不同的体系,比如各种不同的大分子、合金、半导体等等,都可以发展相应的分子动力学势函数。这几年由于人工智能的推动,这些方面得到了很大的进展,比方说前面提到的DeePMD,我们构建了这样的软件工具,现在在全球范围内得到了广泛的应用。我们也做了所谓的DPGEN,DPGEN能够自动化生成精确的分子动力学势函数。在这个基础上我们积累了一堆的数据和模型,我们叫做DP-library。
有了这些基础积累以后,我们就可以做像AI里面的预训练模型、大模型。待会儿可能唐教授也会提到ChatGPT这样的大模型,它们现在是AI发展的主要方向。我们有这些基础以后,就可以把类似的想法用到分子动力学势函数,针对不同的材料、不同的分子的势函数。去年我们发展的第一个预训练模型叫DPA,这个覆盖了所有的元素周期表,它有强大的迁移能力。有了这样的预训练模型以后,如果碰到一个新的分子体系,就不需要太多的数据,只需要很少量的数据,就可以在预训练模型的基础上训练出来非常精确的针对新体系的分子动力学势函数。
第二个例子,前面已经提过,深度势能分子动力学,它把量子力学精度的分子动力学模拟,从只能做上千个原子,现在已经可以做上百亿个原子这样的水平。两年前我们做到1亿个原子,到去年我们已经把它能够做到上百亿个原子,这是第二个例子。
第三个例子,燃烧反应,或者是燃烧发动机,它有两个重要的组成部分,一个是燃烧反应动力学,第二个是空气动力学。燃烧反应动力学的基础是化学反应动力学模型,这涉及到量子力学或者分子动力学这样的层面。在这个基础上,我们求解出化学反应动力学模型,再对这样的化学反应动力学机理模型做简化和加速,再跟空气动力学以及湍流模型结合在一起。所以这是涉及到从最小的尺度,从纳米的空间尺度,到米、分米这样的空间尺度。这是多个尺度的问题,是很典型的问题。我们针对这个问题发展了一系列的相关模型,从化学反应动力学到化学反应机理,再到整个结合空气动力学的燃烧模型。通过这些模型,就可以把燃烧的模拟精度真正提高上来。而这里面重要的就是可以实现跨尺度的计算。
这个例子是计算工作流。刚才提到安卓模式,我们要发展安卓模式,必须有效率。由于它涉及到各种不同科学计算的场景,我们必须对这个计算工作流程做标准化和系统化。这里我们发展了所谓的Dflow这样一个典型的计算工作流。
最后我想举一个例子,可能跟今天的主题真正有一点联系,就是药物设计。药物设计的过程非常复杂:靶点的发现、先导化合物的发现、先导化合物的优化、临床前研究等等,这是一个非常复杂的过程。整个过程从目前来说仍然基本上靠经验和试错,基本原理还没有发挥太大作用。要把这个事情做好,刚才已经提到了它有两方面,一个是靶标,以蛋白为主,第二个是药物,指的是化合物,这两个都是非常复杂的问题,比方说靶标,生物通路的发现,结构解析,结构动力学的分析,等等。从化合物的角度,选什么化合物,怎么合成,它各种各样的性质怎么样,然后这个药怎么送进去,这些都是很重要也很困难的东西。然后还要考虑把它们结合在一起,靶标和药物的相互作用、亲和力的评估等等,这的确是很复杂的事情。
现在很多团队都在做的事情就是通过数据驱动的方法和模型驱动的方法有机结合来构建更加系统、高效、自动化的药物研发过程。
深势科技应该说是比较早的推动AI for Science的企业,它推出了一个Uni-系列,Uni-系列有一系列的工具,包括Uni-Fold,实际上是AlphaFold的重现;Uni-FEP,这个是计算结合自由能的;Uni-Mol,这是预测各种各样的性质实现药物分子的定向生成。他们开发了一系列的工具,主要的目的就是要把数据驱动方法和基本原理驱动方法结合在一起,更高效、更精准的去设计药物。
我只举个例子,就是怎么样把数据驱动方法和模型驱动方法结合在一起。大家都知道蛋白结构,我们可以用AlphaFold来预测,这里面是Uni-Fold做的结果,对这样的一个蛋白,通过Uni-Fold得到的结果跟实验的误差,大概是2Å。在这个基础上,我们可以用RiD,这个RiD是Reinforced Dynamics的简写,翻译成中文就是强化动力学。它把强化学习的一些想法放到动力学模型里头,得到这样一个高效的结构优化的工具。通过强化动力学可以把误差降低到0.5Å,第一步是数据驱动,第二步是模型驱动,这是一个例子。
第二个例子,刚才提到靶标,对靶标来说很重要的是口袋,我们经常说正构的口袋。我们也可以通过强化动力学来发现别构的口袋,这样就给药物设计提供了新的想法。
结束语:AI for Science给人工智能提供了新的主战场,也就是说传统的科学领域成为人工智能的主战场。两三年之前我在喊这句口号的时候,当时基本上没有其他的人在响应这件事情,现在应该说已经得到了广泛的认可。传统的科学领域像化学、材料、生物、工程,这些应该是人工智能的主战场。为什么这么讲?很简单,因为我们现在的实体经济,工业制造,它就是基于这些传统的科学领域开发出来的,所以说人工智能在这些传统科学领域的应用肯定是非常重要的主战场。同时也催生新一代的产业模式,比如像生物制药、芯片、材料、工业制造等等,人工智能的参与会改变这些产业的模式。
另一方面,科学研究从“小农作坊”模式转变到“安卓”模式,标志着平台科研的兴起。我们前几年讲平台经济,以后“平台科研”会成为主要的科研范式,“社区建设”会成为重要趋势。所以我本人也希望我们有效地利用这样一个千载难逢的机会,把这些安卓模式,把工业制造,传统科学领域里面的人工智能发展,尤其是我前面提到的基础设施建设做起来。我们能够率先把这个模式打造出来。我觉得这里面的机会实在难得,也希望能够跟各位一起充分利用这样一个空间,能够使中国在这个领域里面走在前沿。
谢谢大家。
版权声明
chatGPT文章精选: