码荟创业者 | 鄂维南院士提出应用数学“新的曙光” : AI for Science 将人工智能与基础科学深度融合
The following article is from DeepTech深科技 Author 熊岳城、多加
#码荟创业者 坚韧敢为,探索不息
AI4S,AI for Science是近年来由人工智能和科学研究相结合引发的科研范式的转变,数学、物理学、化学、材料学、生物学等各个传统科学领域正因此发生快速而深刻的改变。
6月下旬到7月上旬,首届科学智能峰会「AI for Science:共创新未来」将在北京市科委的指导下重磅亮相,本次峰会由北京科学智能研究院(AI for Science Institute, Beijing)主办,码荟成员深势科技承办,源码资本亦重点参与产业化落地的机遇与挑战论坛,期待和大家一起全面、深刻地讨论「AI for Science」发展趋势,敬请期待!
*参见文末邀请函。
2016 年,AI 与基础科学前沿逐渐开始融合,开启 AI for Science 的新局面。
中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心教授鄂维南与其学生韩劼群、张林峰等人,在机器学习与科学计算结合的多个问题上率先看到系统性的机会,为一系列基础科学问题提供了基于 AI 的颠覆性解决方案。
鄂维南是应用数学、计算科学领域的集大成者。他研究领域甚广,从电子结构、分子动力学、化学反应,到流体力学、固体力学等;其在 2011 年的著作《多尺度建模原理》(Principles of Multi-scale Modeling)是多尺度方法领域的权威著作。
图 | 鄂维南,来源:个人主页
鄂维南本科毕业于中国科学技术大学数学系,于 1989 年在加州大学洛杉矶分校获得博士学位,从 1999 年开始担任普林斯顿大学数学系教授。同时,鄂维南也于 2015 年开始担任北京大学大数据研究院院长。
目前,鄂维南的主要研究方向为机器学习的数学理论和在科学计算、物理建模等方面的应用。
鄂维南在对自己研究的总结中写到:“我的工作从不同的科学分支中汲取灵感,并对流体力学、化学、材料科学和软凝聚态物理学的相关研究产生影响。”他试图通过数学使科学问题清晰化,并对一些长期存在的科学问题做出了贡献,如湍流问题;另外,他还致力于建立分析多尺度问题的数学框架,同时开发和分析通用算法。例如,他与合作者开发的 PEXSI 算法,大大加速了密度泛函理论(DFT, density function theory)的计算求解。
2021 年 4 月,美国数学会会刊 Notices of the American Mathematical Society 发表了鄂维南的观点性文章,题为《应用数学新时代的曙光》(The Dawning of a New Era in Applied Mathematics),获得领域内广泛关注。他在文中指出,我们正处在继牛顿和冯·诺依曼之后,应用数学发展的第三个高潮的前夕,机器学习将为高维问题的研究带来全新的机会。而应用数学将成为交叉科学的基础,并站到技术创新的最前沿。
深度势能团队获得戈登贝尔奖,
开源项目 DeePMD-kit
携手 AlphaFold2,
成为 AI for Science 新起点
“我真正感兴趣的是算法,希望通过计算的方法解决一些科学和工程中的实际问题,例如物理、力学、化学、材料等领域的问题。”鄂维南说,老一辈的学者发展了一系列的算法,解决了很多土木工程和机械工程等领域的问题,现在需要去解决更困难的问题。
鄂维南在 20世纪 90 年代末就开始推动利用多尺度模型来解决化学、材料、湍流、复杂流体、以及化学工程等领域的困难问题。后来,他发现缺少一个从低层到高层的数据分析工具,而机器学习正好提供了这样的工具。他说,机器学习的确是一个解决高维问题的有效工具。
鄂维南举了几个例子来解释“维数灾难”这一问题,而解决这一问题非机器学习不可。计算化学的困难在于所谓的高维度,例如,计算化学中最基本的一个物理模型,薛定谔方程,是典型的高维微分方程。它的维数,即自由度的数量基本是电子个数的三倍。一个包含 100 个电子的物理体系,应该说是非常非常小的一个物理体系,但是它对应的是三百维空间的微分方程。因此,即便是很简单的物理体系,背后都是非常高维的薛定谔方程。由此而来的就是“维数灾难” 的困难,即计算量随着维数的增加呈指数增长,经典的计算方法已经无法适应这样的问题。
图 | 相关工作,来源:NeurIPS-2018
但是,机器学习可以处理计算机视觉问题,例如图像识别。图像空间的维数是非常大的,每一个像素都是一个自由度,比方说 32×32 像素的图像,其自由度已经达到了惊人的 1024,而彩色图像的自由度还需要扩大 3 倍。所以图像识别处理的是非常高维的函数。以前经典的方法无法处理这种函数,但是机器学习可以得到很好的结果。
“所以,从数学的意义上来说,深度学习提供了一个逼近高维函数的工具。由此产生的影响是巨大的,因为我们在很多场景下都会遇到高维函数。”鄂维南总结道。
鄂维南在基于机器学习的分子动力学研究中做了大量工作。他提到,分子动力学在很长一段时间内都只是一个数学工具或“玩具”,最初真正感兴趣的是统计物理学家。直到量子力学被引入到分子动力学,才能保证计算精度并且得到化学和材料科学家的重视。基于机器学习的分子动力学也是遵循同样的原理。
区别在于,对于经典的第一性原理分子动力学,每一步都需要调用第一性原理的模型进行计算,这是非常昂贵的。然而,基于机器学习的分子动力学模型并不需要这样,通过产生一个类似经典力场的模型,以后只需调用机器学习的模型就可以直接进行计算。鄂维南说,由此产生的影响是两方面的,一方面我们现在可以计算更大的体系,同时计算量也大大地减少;另一方面,对于经典第一性原理精度的分子动力学方法难以处理的场景,现在可以比较方便地处理。例如,对于热传导的研究,现在我们可以更加严格地处理温度。
2020 年,包括鄂维南在内的“深度势能”团队获得了国际高性能计算领域最高奖,即戈登贝尔奖(ACM Gordon Bell Prize),他们利用机器学习方法将第一性原理精度的分子动力学的极限推到 1 亿个原子。
鄂维南提到,目前,在 AI for Science 领域,有两项比较醒目的成果。AlphaFold2 解决了蛋白质折叠和三维结构的预测问题,而“深度势能分子动力学”开源项目 DeePMD-kit,让我们可以处理非常大规模的第一性原理精度的分子动力学问题。DeePMD-kit 把 AI运用到科学的基本原理上,给我们带来了全新的工具。这就像一套全新的“电子显微镜”,有了这种工具,我们可以做很多事情。
鄂维南说:“AlphaFold2 最大的亮点在于让我们认识到这件事情居然是可以成功的。如果我们大家都相信这件事情可以干成,那么我相信很多团队都可以做到。”在这之前,没有人意识到机器学习可以帮助几乎彻底解决蛋白质折叠问题。但是,AlphaFold2 是一个纯数据驱动的成果,并不涉及物理模型,而 DeePMD-kit 将 AI 与基本原理和物理模型结合在一起,这是更有广泛应用价值的工具。
企业-研究院-高校合力
构建类似“安卓”的平台化模式,
人工智能将在传统科学领域大展身手
很多人认为,AI 的落地到目前为止并没有像我们想象的那么成功。主要有两个原因:一是 AI 用起来不容易,门槛太高;二是 AI 还没有深入到实体经济里,目前 AI 对于制造业只是锦上添花,并非雪中送炭。“传统科学领域是 AI 更大的发展空间所在。我坚定地认为这一点是对的。”鄂维南说,“AI for Science不光有助于大量科学问题的解决,也是推动制造业转型和实体经济发展的重要一环。”
AI for Science 既需要科学计算理论的突破,也需要AI的充分融合。很多人觉得,在 AI for Science 领域,从 AI 的角度来看突破不是太多,但鄂维南不认可这种看法。相对于传统 AI,例如计算机视觉或者自然语言处理,当把 AI 用到科学领域的时候,我们碰到的挑战往往是截然不同的。AI 与物理模型的有机结合是非常关键的。
鄂维南指出,理论研究、实验研究和产业之间的沟通比较欠缺,是目前 AI for Science 发展的一大困难所在。例如,在计算化学领域,从事理论化学、实验化学和药物等产品开发的不同工作者之间的沟通相对来说是比较少的,主要原因是彼此工作的交叉度并不高。
鄂维南谈到,过去,由于工具的局限性,团队基本各自为战,采取类似“小作坊”的模式,一个理论材料研究团队会囊括从第一性原理计算到力场模型、到分子动力学计算、到数据分析的所有环节,这种模式的问题在于效率低下。由于基础的物理模型较少,主要包括量子力学、密度泛函理论、分子动力学等,通过合作发展一套普适的、高精度的、且高效的模型,从而打造平台化的模式是非常重要的,也是可行的。这样,不同的研究者都可以用这一模型做不同的应用。就像“安卓”一样。而这样的平台构建并不容易,涉及算法、模型改进、软件实施等多方面的问题,这就是需要大家一起合作的原因。
鄂维南进一步解释道,未来的科学发展要走平台化的科研模式,基础设施的建设是必须的,就像工业化没有公路和铁路是不行的。他带领的北京科学智能研究院就是以打造平台化的工具为主要目标。此外,企业可以提供实际的场景,明确痛点和需要解决的关键问题。同时,高校的科研机构是解决这些问题的智力来源。企业-研究院-高校的三方合作是非常重要的。科学智能研究院在某种程度上是一个桥梁。
基于这样的理念,鄂维南等人在北京大学又成立了国际机器学习研究中心,旨在解决最基础的机器学习问题,并期望把它办成国际上最有影响力的机器学习研究中心之一。该中心和科学智能研究院的联系也很密切。
AI for Science 领域的发展
需要想做大事的年轻人,
更需要理性的声音
谈到 AI for Science 相关的人才培养,鄂维南也颇有心得。首先,正如“巧妇难为无米之炊”,他认为最重要的是我们得有想做大事的年轻人,他们有强烈的愿望为社会做贡献。鄂维南说:“我比较擅长的就是把这样的年轻人带到一个前沿领域,并帮助他们找到平台和发展空间。”
“我现在有一点担忧,近一段时间,我和本科生有很多的接触,发现内卷的和躺平的现象还是挺严重的。学生也普遍不愿意主动交流。” 鄂维南说。
对于有雄心壮志的学生,需要培养他们开放的心态,也需要引导他们对自己有比较高的标准,因为一个人的成长空间不可能超过自己制定的标准,所以不要把自己的天花板放得太低。另外,扎实的学风也是必不可少的。
谈到自己对于学生的指导,鄂维南说:“我的学生往往是自己挑选大的研究领域,数学、力学、材料、物理、化学或经济都可以,我一般帮他们确定具体的方向和切入点。我对学生的限制较少,不划定领域,只要是社会发展和科学研究真正需要的,干什么都行。很多时候我学习的方法是让学生教我。相对来说,我是一个‘笨’学生。我的优势在于见得比较多和广,能在某个关键时间点发挥作用。”
另外,鄂维南谈到,“在国内,我希望看到更多扎实的工作而不是各种画大饼式的宣传。我担心各种力量,包括资本的力量和宣传的力量会很快地把AI for Science领域空心化(trivialized)。”
大环境中有很多泡沫化的东西,这是一个很危险的事情。泡沫化的声音占据主导之后,资源难以分配到真正做事情的人手中。“我希望那些认真做事的团队的声音能够被听到,从而获得更多的资源分配。我也希望用我很微弱的力量来把真正做事情的年轻人推到第一线”,鄂维南说。“总体来说,我们需要更加理性地看待和支持 AI for Science 领域的发展。”
从科研的“象牙塔”到创业最前线,
加速基础科学创新的产业化落地
鄂维南分享道,“在2014 年以前,我是一个标准的生活在象牙塔里的科研工作者,我的学生也基本如此。开始研究大数据后,就发现大数据必须落地,而落地的一个最重要的手段就是创业。从那时开始我对学生创业的态度开始转变。”
他以学生张林峰创立深势科技(DP Technology)举例说道,作为一个科研人员,张林峰毕业时就已经非常成熟。他也收到了很多国内外高校抛来的橄榄枝。如果走一般学术教职的发展道路,要写很多项目申请书来建团队,团队可能要三五年才能建立起来。但是如果选择创业,这条路将会快很多。一方面他可以很快建立起一个强大的科研团队;同时,他既可以做前沿的科研,也可以做落地的事情。不创业的话很难做到这一点。此外,鄂维南的另一个学生邰骋和同学汤林鹏一起创立了墨奇科技,已经成为领先的 AI 基础技术和平台公司。用创业的办法来做最前沿的科研,是墨奇科技和深势科技走出的新道路。
近期,由北京科学智能研究院主办,深势科技承办的首届科学智能峰会将在北京举行,主题为 AI for Science:共创新未来。
鄂维南说,这次峰会的主要目的是明确 AI for Science 这样一个重要的发展方向。更为重要的是,通过一些理性的探讨来研究未来我们应该如何做才能实现我们的目标,从而推动 AI for Science 在中国以及国际上能够比较理性地发展,同时吸引一批年轻人参与进来。
采访中,鄂维南提到,现在他的另一个重点研究方向就是发展下一代人工智能算法。他说,目前深度学习还是有一定的局限性,如何开发更有效且更好用的人工智能方法是应该关注的重点。另一方面,鄂维南还比较关注与工业场景相关的控制论研究,并推动 AI 参与其中发挥作用。
鄂维南将在首届科学智能峰会的主论坛上发表演讲。我们有望听到鄂维南关于最新研究工作的分享,以及他对于未来 AI for Science 领域独特而深刻的思考。
码荟创业者 | 从0到1到23.4读书周之「读书日快乐」
码荟创业者 | 从0到1到23.4读书周之「读书之美」
码荟创业者 | 从0到1到23.4读书周之「通识与大格局」
码荟创业者 | 从0到1到23.4读书周之「组织与人才」
码荟创业者 | 从0到1到23.4读书周之「战略与运营」
码荟创业者 | 从0到1到23.4读书周之「创业思维」
码荟创业者 | 好好睡觉,再去探索更清醒的创业人生
码荟创业者 | 当创业成为她们的生活方式