5月10-11日,首届中国生物计算大会于苏州召开。活动特邀中国科学院院士、普林斯顿大学数学系和应用数学研究所教授、北京大数据研究院院长鄂维南院士作题为机器学习与科学计算的主题报告。
鄂维南院士就《机器学习与科学计算》分享了科学计算的两大主题——处理物理模型和处理数据,指出机器学习、数据驱动在处理生物实验数据、设计新型实验以及创建更高效的生物计算模型方面的广阔前景。随着AI的发展,AI 在生物、化学、材料、工程等传统科学领域将会有非常广阔的前景。将科学模型、机器学习与高性能计算相结合,进一步开发出更加高效和准确的研究方法,促进科学研究从「小农作坊」模式到「安卓」模式的转变。
鄂维南说:「我是最早用深度学习来做生物计算的,2015年我开始用生物学习分析生物学数据,当时做了一个软件——『DeFine』,那时就已经看到,深度学习从数据分析和科学模型的角度,给我们带来的新机会。」
科学计算第一大主题——处理物理模型
科学计算有两大主题,第一大主题是处理物理模型。科学的主要模型都是来自于物理学,比如牛顿方程、空气动力学,弹性力学、电磁场理论、量子力学等等。
薛定谔方程是量子力学的基本方程,科学计算的第一任务就是要解这类的方程。「一张图」基本囊括了整个科学领域最基本的量子模型。甚至于工程领域基本的物理模型都在这张图中。
图示:在不同尺度上对应不同物理问题所用的不同理论。(ScienceAI现场拍摄)
有效数学方法出现之前,为了解决实际问题,科学家唯一能够做的事情就是简化模型。虽然有物理学家们找到了基本原理,但没办法使用,实际用时却是另外一套,到现在这种事情仍在发生。直到50年代开始,有了电子计算机才发生了根本的变化,做计算方法的人发展了一系列的方法,比如说差分方法、有限元方法、谱方法,有了这些方法以后,人类历史上第一次实现了直接用基本原理解决实际问题。目前还没有达到从基本原理到药物设计,但是基本原理来做桥梁设计、大楼的设计、飞机的设计这些已经做到了。从数学的角度来说,微积分里面所有的函数都可以多项式逼近。但是仍然有很多问题没有解决,包括药物设计,并没有从基本原理的角度来适应,眼下生物设计是非常经验化的学科,造成的结果就是做理论的人、做实验的人和做实际应用(企业、公司)的人这三个场景相差距离非常远。造成以上问题的一个共同根源就是「维数灾难」,内在变量太多,维数增加,计算量呈指数增长。比如薛定谔方程是一个基本方程,这个波函数的自由度的维数个数是电子个数的3倍。科学技术的第二大主题是处理数据。数据种类很多,例如把图像看成数据,有三个主要任务,第一是imaging,通过实验仪器的数据反演出内在结构。第二是image processing,包括图像去噪、分割和修补等等。第三是image recognition,也就是图像识别。做数学的也在处理图像,处理的是前两个任务,很少做到第三个任务。做计算机的人不同于做数学的,他们一直在努力,找到了深度学习这样一个工具,深度学习工具使图像识别得到有效的解决,带来高维图像识别的解决方法。从解决高维数学问题来说,图像识别是解决高维函数逼近,图像生成是高维概率密度,AlphaGo是解高维(超大空间的)Bellman方程。其本质原因是深度学习对高维函数提供了有效的逼近方法,函数是非常基本的数学工具(之一)。从科学计算的角度,最大的影响就是把处理数学计算的方法和物理数据的方法结合起来,这就是「AI for science」。以前要么是模型,要么是数据;现在有一个新的套路,从模型出发,从模型得到数据,从数据得到更有效的模型。1985年,通过量子力学计算原子之间的相互作用力,使得分子动力学成为可靠的工具,但只能处理几百个原子的简单体系。因为这个方法不够有效,解决实际问题时,人们用的方法就是猜,用猜的方法去设计药物显然不可行。按照机器学习的「套路」,从量子力学模型提供数据,在这个基础上通过机器学习提供新的更有效又可靠的模型,这样新的套路得到了很好的实现。通过这样的方法,深度势能(DP)团队第一次把机器学习和科学计算、高性能计算结合在一起,获2020年戈登贝尔奖(Gordon Bell Prize)。「除了分子动力学以外,我们也发展了一系列方法,这对做药物是有用的,比如密度泛函,我们发展了所谓的『DEEP』,这些工具不能说已经百分之百成熟了,但至少提供了新的可能性。」鄂维南说,「自由能计算是药物设计最重要的工具之一。在这个方面我们发展了『Rid』方法——界定强化学习,来做粗略化的分子动力学。这个方法是开源社区的概念,即把深度学习和物理模型相结合,这是新的机会,但是这个事情某种程度来说还是非常难的,需要大家一起努力,我们前几天发布了『DeepModeling』开源社区,希望大家把力量整合在一起,一起推动这个事情。我们希望通过这样的社区推动大家来做这样的事情。」最后,鄂维南院士再次强调「AI for science」。比如自动驾驶有很好的前景,但是传统制造领域,像生物、化学、材料、工程等会成为人工智能的主战场,而且是更大的主战场,这对应的具体应用是生物制药、能源材料和先进制造。具体落地的是新一代科学软件。大家最近这些年谈科学软件,工业软件「卡脖子」,这个新模式将推动新一代的科学软件,这些科学软件的建设是一个非常好的机会。推进科学研究从「小农作坊」模式到「安卓」模式的转变。科学家在自己实验室里面干,是自给自足的「小农作坊」,以后就是大平台,在这个大平台基础上大家开发自己感兴趣的应用就是平台科研。社区建设会成为一个重要的趋势,希望我们一起努力,把社区建设好。----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。