AI能为科学研究做什么
The following article is from 经济观察报 Author 陈永伟
图片来源:图虫创意
从蛋白质的结构说起
在生命过程中,蛋白质扮演着十分重要的角色。一方面,它是生物体的构造师,小到一个细胞,大到各种器官,都需要由蛋白质来构造。另一方面,它还是很多生命活动的重要参与者,无论是在生物体内进行物质传输、对各种生化过程进行催化,还是对来自体外的侵袭进行抵抗,都离不开蛋白质的参与。
目前,人类已知的蛋白质达到了两亿多种,每一种蛋白质的三维结构都不相同,而它们的功能差异就是由这些不同的结构决定的。例如,人们出于滋润补水、护肤嫩肤的需要,经常会设法补充胶原蛋白,其奥秘就在于这类蛋白的结构类似于一股拧起来的绳子,因而具有很强的韧性,从而可以在软骨、韧带、骨骼和皮肤之间传递张力。又如,我们免疫系统中的抗体蛋白大致上呈现了一种Y型的结构,并能够形成独特的钩状,这就使得它们可以附着在病毒和细菌上,对致病微生物进行检测、标记及消灭。正是因为蛋白质的结构和功能之间存在着以上这样的关系,因此从上世纪中期开始,对蛋白质结构的探索就成为了生物学家研究的一个重点。
1961年,美国国立卫生学院的研究员安芬森(Christian Anfinsen)发表了一篇论文,对其进行的一项实验进行了介绍:在实验中,他将牛胰核糖核酸酶蛋白分子用变性试剂打开,将二硫键还原成巯基,由此,蛋白质原有的折叠结构就被破坏了,酶的活性也随之消失。然后,他将装有实验样品的烧杯暴露在空气中过夜。令他惊奇的是,在经过一夜的放置之后,酶的大部分活性恢复了,被破坏了结构的蛋白质又折叠成了原来的样子。这有多奇怪呢?大致上就相当于我们将一朵由铁丝编织成的花用老虎钳拉直,但在经过一段时间之后,却发现那段已经被拉直的铁丝竟又自己变成了一朵花!
为什么会出现这样的情况呢?安芬森给出的一个猜想是:这或许说明了蛋白质多肽链中氨基酸的排列顺序,也就是所谓的蛋白质一级结构决定了它最终的三维结构——当一级结构决定后,多肽链会服从热力学的定律,自动折叠成能量最小化的状态。在后来的生物学研究中,安芬森的上述猜测被归纳为了“安芬森法则”。1972年,安芬森凭借着这个重要的法则斩获了诺贝尔化学奖。
对于研究者而言,安芬森法则指出了一个重要的研究方向,即“蛋白质折叠问题”:既然蛋白质的三维结构取决于其一级结构,那么,从理论上讲,人们就可以根据分子间的能量优化法则通过蛋白质的一级结构来对其三维结构进行预测。由于蛋白质的功能很大程度上取决于其结构,因此如果人们可以充分了解蛋白质的三维结构,就可以按图索骥地寻找,甚至创造自己所需要的蛋白质。很显然,由此带来的想象空间是十分巨大的。
然而,正所谓“理想很丰满,现实很骨感”。尽管乍看之下“蛋白质折叠问题”的潜在价值十分巨大,不过由于组成蛋白质多肽链的氨基酸数量都很庞大,因此要通过其结构来预测蛋白质的折叠是非常困难的。所以安芬森法则指出的道路看似光明,但在很长时间内,却成了一条少有人走的路。
相比之下,生物学家们似乎更倾向于用直接观测的方法来探索蛋白质的结构。从早期的X光衍射法到新近的冷冻电镜法,随着实验器具的日益发展,人们通过实验探索蛋白质结构的能力也日渐提高。但尽管如此,相比于蛋白质庞大的种类量,人们用实验探索蛋白质结构的努力只能算是杯水车薪。
2018年,转机出现了。在当年11月举办的第13届全球蛋白质结构预测竞赛(CASP)上,DeepMind的AI程序AlphaFold成功地对43种蛋白质中的25种的结构进行了预测,由此在98名参赛者中获得了第一。而相比之下,第二名只预测准确了3种蛋白质的结构。更值得一提的是,在对某些蛋白质结构的预测中,AlphaFold得到的结论甚至比用X光衍射法和冷冻电镜法观测到的结论更为准确。
AlphaFold是靠什么获得了如此优异的成绩呢?其实,它用的方法很简单:学习大量蛋白质的序列和结构数据,从中寻找氨基酸分子之间的相互作用,以及蛋白质片段之间的演化关系,然后再按照找到的规律对蛋白质的结构进行预测。
初战告捷之后,AlphaFold不断从生物学、物理学和机器学习领域的最新进展中汲取灵感,以此来升级自己的算法,其预测能力也获得了很大的提升。2022年7月28日,DeepMind在其官网发布了一篇名为《AlphaFold揭示蛋白质宇宙的结构》(AlphaFold reveals the structure of the protein universe)的新闻,宣布AlphaFold已经对几乎所有已知蛋白质的结构做出了预测。随后,又将所有预测的蛋白质结构放到了网上,供科研人员自行下载使用。据不少下载了数据的科研人员反映,这些数据的准确率非常高。
虽然在未来的一段时期内,人们还需要继续对AlphaFold给出的预测数据进行验证,但可以说,困扰了人们半个多世纪的“蛋白质折叠问题”基本上已经得到了解决。
AI在科学研究中的应用
毫无疑问,AlphaFold破解“蛋白质折叠问题”的成功为生物学的发展作出了巨大的贡献。但这个事件还有一个更为重要的意义,即证明了AI可以在科学研究领域起到至关重要,甚至是决定性的作用。由此,“人工智能驱动的科学研究”(AIforscience,有时也简称AI4S)成为了AI研究中的显学。
科学的发展是一个不断猜想、不断检验的过程。在科学研究当中,研究者需要先提出假设,然后根据这个假设去构造实验、搜集数据,并通过实验来对假设进行检验。在这个过程中,研究者需要进行大量的计算、模拟和证明。而在几乎每一个步骤当中,AI都有很大的用武之地。
(1)研究问题的提出
提出一个好的问题是做出一个好研究的第一步,只有提出的研究问题是重要的,后续的研究才可能有意义。传统上,科学问题主要有两个来源:一种是对现象以及数据的观察来提出某些猜想,比如,天文学上著名的开普勒三定律,就是由开普勒在整理天文学家第谷留下的大量数据之后提出,然后再通过理论研究加以确立的。第二种则是对既有文献的梳理,即通过阅读既有的研究成果,看看前人的研究还有哪些地方留有不足,然后以此为突破点提出自己的问题。在使用了AI这个工具后,用以上述两种方式寻找问题的研究者都可以大幅改善自己的效率。
先看通过观察提问。在过去,通过观察来提问对研究者的直觉要求是非常高的。以开普勒三定律为例,其中的第一定律(椭圆定律),即“行星绕太阳运行的轨道是椭圆,并且太阳在这个椭圆的一个焦点上”是相对直观的,通过对记录数据的观察基本就可以提出这个假设。但第二定律(面积定律),即“行星和太阳的连线在相等的时间间隔内扫过相等的面积”就不那么直观了,即使是十分仔细的人也需要在灵感的启发之下才可能发现这个规律。至于第三定律(调和定律),即“行星绕太阳一周的恒星时间(T)的平方与它们轨道长半轴(a)的立方成正比”则更是一个非常不直观的现象,只有非常天才的研究者才有可能提出这样的假说。
而应用了AI之后,人们在占有了充分的观测数据之后,就可以相对容易地提出相关的研究问题。比如,如果人们有了行星运行的大量数据,并且猜想行星绕太阳一周的时间可能和其轨道椭圆的某条轴的长度存在着某种关系,那么他就可以让AI去尝试建立这些变量之间的函数关系。通过这样的方法,开普勒第三定律就可能比较容易地被提出来。
再看通过阅读文献来提问。过去,从事科学研究的人相对较少,研究的数量也相对较少,因此一个研究者只要肯下功夫,就至少可以把自己所从事的领域的相关文献都予以掌握。然而,随着科学的发展,从事科研的人数不断增加,各种科研成果也不断地涌现,一个科研人员要想完整地了解自己所在研究领域的进展已变得越来越困难,更遑论去了解其他领域的动态来给自己的研究提供启发了。
在应用了AI工具后,以上的问题可以在很大程度上得到缓解。比如,现在的研究者可以让ChatGPT等AI大模型来为自己整理已有的文献,并写成摘要。这样,他们就可以大幅减少搜索和阅读文献所花费的精力,可以以更小的成本了解现有研究的进展,并在此基础上提出新的研究问题。
(2)数据的搜集
在提出了相关的研究问题之后,研究人员就需要设计实验,并搜集相关的数据,为进一步的研究做准备。在这个过程中,AI的应用潜力也是十分广阔的。
这种作用首先体现在数据的选择上。在实验当中,并不是所有的数据都是可用的。很多数据可能是受到干扰后产生的,如果不剔除这些数据,后续的研究结果就可能受到严重的干扰。现在在很多实验中,深度学习已经成为了这项工作的主要承担者。
在搜集了数据之后,对数据进行标注也是一项艰巨的工作。例如,在生物学当中,为新分子进行功能和结构标注对于后续的研究来说是非常重要的,但要进行这一工作则并不容易。虽然新一代测序技术不断涌现,但只有不到1%的已测序蛋白质得到了生物学功能的标注。目前,为了能够提高数据标注的效率,研究者们正在尝试让AI学习手动标注的结果,从而训练出代理模型(surrogate models)来帮助自己对新的数据进行标签。从现有的结果看,这种方式确实可以比较有效地改进标注效率。
除此之外,AI现在还有一个非常重要的作用,即生成数据。这一点,在AI研究领域表现得最为显著。近十多年来,人工智能的主要发展主要来自于机器学习领域,众所周知,这个领域的发展对数据的依赖非常强。在实践当中,数据的搜集和整理不仅成本高、质量难控制,还可能衍生出侵犯个人隐私、威胁数据安全等问题。为了应对这些问题,一些学者建议可以用合成数据作为真实数据的补充,供机器学习使用。
与真实数据相比,合成数据具有不少优势:一方面,从训练效果上看,用合成数据进行训练的效果其实并不比真实数据差,在一些场合,它们的表现甚至更高。在真实数据的形成过程中,可能混入很多不必要的噪声信息,这就可能对其质量造成影响,而合成数据则没有这样的问题。麻省理工学院、波士顿大学和IBM曾联合做过一项研究,用真实数据和合成数据分别训练模型对人类的行为进行识别,结果采用合成数据进行训练的模型表现要比采用真实数据训练的模型更优。另一方面,从成本上看,合成数据的成本要远远低于真实数据。除此之外,由于合成数据都是生成而非搜集的,所以使用它们来进行研究还可以规避很多法律和道德风险。
目前已经有越来越多的AI研究者开始用合成数据取代真实数据作为机器学习的材料,其对AI技术发展的贡献正在变得越来越显著。正是因为这个原因,所以《麻省理工科技评论》(MIT Technology Review)将合成数据技术评为了2022年全球十大突破性技术之一。
(3)科学计算和模拟
在科学研究的过程中,通常需要进行大量的计算和模拟工作。比如,如果科学家发现了某个星体的运行规律,怎样才能证明他的发现是正确的呢?最直观的方法就是根据他发现的规律计算出这个星体在未来某个时间点的位置,然后进行比对。从这个意义上讲,精确的计算和模拟就是验证理论的关键。
但计算并不是那么容易的事情。例如,从理论上讲,各大星体之间的相对运动关系都可以由万有引力定律推出。牛顿在发现三大定律之后,就曾经很自豪地宣称,他已经掌握了宇宙运行的终极奥秘。但是,真实情况却并非如此。以由于刘慈欣的小说而被人们所熟知的“三体”问题为例。从表面上看,“三体”系统是非常简单的,总共只有三颗彼此纠缠的恒星,以及一颗夹在其中的行星,要模拟它的运动轨迹似乎并不难。但一旦我们试图用牛顿力学来对其位置进行推导,就会发现得到的联立微分方程其实构成了一个混沌系统,其运动的轨迹是很难确定的,一个微小的扰动都可能带来巨大的偏差。正是因为这个原因,所以在《三体》小说中,即使科技水平远超地球的三体人也无法制成一张精确的万年历。
在现实中,远比“三体”系统复杂的问题比比皆是。在对这些问题进行研究时,人们都不得不直面“维度爆炸”问题的挑战。
举例来说,台风轨迹的预测就是一件计算量需求非常高的工作。传统上,人们主要是依靠动力系统模型来进行预测。这种方法会根据流体动力学和热力学等物理定律来构造大量的微分方程,用它们来模拟大气的运动,进而对台风的走向进行预测。显然,这个动力系统是非常复杂的,不仅预测所需要的计算量非常大,并且非常容易受外生扰动因素的影响。正是因为这个原因,所以世界各国即使动用了最先进的超级计算机,预测也经常出错。最近几年,人们调整了预测的思路,开始尝试用AI模型预测台风,由此涌现了一大批相关的AI模型。这类模型放弃了传统物理模型的预测思路,转而用机器学习的方法来进行预测,不仅大幅降低了计算负担,而且有效提升了预测精度。比如,“风乌”模型在一个单GPU的计算机上就可以运行,并且仅需30秒即可生成未来10天全球高精度预报结果。在最近预测台风“杜苏芮”的过程中,“风乌”模型预测的轨迹误差远远小于传统模型,从而为人们抗击台风做出了很大的贡献。
(4)辅助证明
在一些学科(例如数学)的研究过程中,需要对命题进行理论上的证明。从很早开始,人们就试图借助计算机来帮助他们完成这项困难的工作。他们的基本思路是:首先将一个数学命题形式化(formalisation),然后借助计算机来对形式化的命题给出证明。
在现实当中,很多数学命题是由自然语言表述的。比如,著名的“四色问题”就是要证明“任何一张地图只用四种颜色就能使具有共同边界的国家着上不同的颜色。”对于计算机来讲,这种自然语言是它们难以理解的,因此它们也不可能帮助人们以自然语言的形式来解决证明问题。幸运的是,数学家们经过长期的努力,已经对大部分的数学分支建立起了公理化的表述体系。借助于公理化体系,用自然语言表述的命题就可以表述为由一个系列逻辑判断构成的形式化命题。通过特定的方式编码,计算机可以对这些形式化命题进行识别,于是,计算机就可以帮助人们用来进行辅助证明。
仍以“四色问题”的证明为例:在历史上,这个著名的问题曾经有过好几个版本的证明。尽管在每一个版本的证明中,数学家都用到了计算机作为辅助,但最初的证明都是以人工的推导为主,计算机的工作主要局限在提供计算的支持。2005年,英国剑桥研究院的高级研究员贡蒂埃(Georges Gonthier)给出了“四色问题”的新一代证明。和前几代的证明不同,贡蒂埃首先将这个问题转化成了一系列形式化的命题,再用一个名叫Coq的交互式辅助软件对它们进行了证明。由于在证明的过程中,Coq完成了大量最复杂的证明,因此在某种意义上讲,这个过程可以算是一个机器证明。
需要指出的是,尽管包括Coq在内的辅助证明软件已经可以帮助人们完成很多证明工作,但它的自动化是非常低的。在多数时候,人类研究者还需要充当引导员的角色,帮它们把自然命题转化为形式化命题。
随着AI的发展,人们开始尝试让AI来解决这个问题。比如,2022年,由谷歌、斯坦福大学等单位的研究人员组成的一个团队就发表了一篇论文,介绍了使用OpenAI Codex的神经网络进行自动形式化的工作,显示了用大型语言模型将非形式化语句自动翻译成形式化语句的可行性。今年,这个团队又在此基础之上提出了一整套名为“草图、草稿、证明”(Draft, Sketch, and Prove,简称DSP)的AI辅助证明方法。这套方法建议利用大型语言模型先将自然语言命题转化为由一系列逻辑推理步骤组成的形式化命题,然后用交互式定理证明器来对这些命题进行证明。当然,在这些步骤之间,还存在着一系列的中间猜想。因此在证明的最后,还需要通过自动验证器来对这些中间猜想进行证明。这样,上述的工作就可以合起来构成一个完整的形式化证明。
(5)辅助写作
对于科研工作来说,AI还有一个重要的贡献:辅助写作。在很多人看来,在完成了研究、得到了相关的结论之后,把它们写成论文就是一件非常轻松的事了。但事实上,情况未必如此。在现实中,有很多研究人员对做实验、跑数据非常热衷,但对写论文则相当抵触,甚至认为花时间在遣词造句上完全是浪费时间。而在以ChatGPT为代表的生成式AI兴起之后,这类研究人员就得到了拯救。现在,他们在完成研究后,直接把相关的结论丢给ChatGPT,就可以得到非常规范的论文。很显然,这会极大减轻他们的工作负担,提升他们的工作效率。
另一个容易被忽视的贡献
需要指出的是,除了上述的这些直接贡献之外,AI还有一个非常容易被忽视的影响,即重构产学研关系、促进企业对基础研究的投资热情。对于面临一些领域被西方“卡脖子”的我国而言,这一点可能是尤其需要重视的。
根据《中国研发经费报告2022》,2022年我国基础研究经费支出为1951亿元,基础研究投入强度为6.3%。虽然与历史相比,我国对基础研究投入的强度不断上升,但如果与国外相比,就可以看到目前我国的基础研究投入强度依然很低。
如果我们把基础研究投入分执行机构进行分析,就会发现以高校作为执行机构的比例是最高的,在总投入中占到了49.4%。其次是研究和开发机构,占39.1%,而企业作为执行机构的,仅占6.5%。相比之下,美国基础研究经费由企业执行比例为32.4%,日本基础研究经费由企业执行比例为47.07%。众所周知,高校和科研机构的经费主要来自于国家拨款,而企业的研究经费则主要是由其自行投入的。因此,这组数字就说明了,我国的企业在基础研究上进行投入的意愿要远低于美、日等国。
为什么会出现以上这样的情况呢?一个重要的原因是,基础研究的周期太长、风险较大、转化率又低,导致以利润最大化为目标的企业认为从事基础研究是无利可图的。在发达国家,由于建立了比较完善的产学研共生生态,类似风险可以比较好地在企业、政府、科研机构等众多主体之间分担,所以企业对基础研究的投资积极性就相对较高。而我国,产、学、研彼此之间的孤立性还较高,因而就很难有类似的风险分担机制。
显然,要破解上述问题,根本的出路还是要培育健康的创新生态,推进产学研的一体化。但这是一个长期的过程,不是一朝一夕可以实现的。不过,即使在创新生态未能有效改善的条件下,AI的应用也可以在很大程度上提升企业投资基础研究的积极性。通过前面的分析可以看到,借助AI的辅助,基础研究的周期可以大幅缩短,效率可以大幅提升。从经济角度看,这其实就增加了基础科研的预期收益,同时降低了其失败风险。因此,原本无力可图的基础研究就可能成为一项合算的生意,企业对其投资的积极性也将提升。这样一来,基础研究投入不足的问题就可以得到有效的缓解。
阅读作者更多文章