查看原文
其他

Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展

智药邦 智药邦 2022-06-15

理论、实验和模拟是解决未来科学和生物医学挑战的三大支柱。

机器学习和其他数据科学方法目前正在为众多领域的发现提供新的工具。用于预测生物分子结构、动力学和功能的工具可以与基于物理学的方法相结合,不仅可以找到解决方案,还可以了解相关机制。

2021年5月,Nature子刊Nat Comput Sci发表了一篇关于生物分子建模的综述文章。

作者提出,基于物理的方法和基于知识的方法的组合可能是最有效的。重要的是,需要人类的直觉和洞察力来充分融合这两种方法并正确解释计算结果。

以下是全文内容。



摘要

由于对最先进技术的快速适应和使用,生物分子建模领域自20世纪70年代的早期开始就已经蓬勃发展。生物分子模拟的规模和时间跨度的急剧增加已经超过了摩尔定律。在这里,我们讨论了基于知识的方法和基于物理的方法,以及硬件和软件的进步在推动该领域发展中的作用。这种快速的适应性和拓展性表明了建模的光明前景,理论、实验和模拟是解决未来科学和生物医学挑战的三大支柱。



主要内容

生物分子建模和模拟领域的发展轨迹,是一个由思想、人、技术和偶然性的混合驱动的典型案例。从早期的模拟和力场开发,到结构测定、酶动力学和分子动力学模拟的开创性应用,该领域经历了显著的高潮和低谷(图1)。20世纪80年代的标志是超级计算机带来的进步。与此同时,当人们意识到计算不可能轻易或迅速地取代实验室实验时,人们的高期望值受到了打击。20世纪90年代出现了一些令人失望的情况,除了生物医学方面的高期望值未被满足外(如人类基因组信息未能迅速带来医学解决方案),人们意识到力场和有限的构象取样可能会阻碍模拟在实际中成功应用。

幸运的是,这一时期出现了许多新的方法,利用软件和硬件来解决这些缺陷。在过去的二十年里,我们经历了巨大的胜利,因为在关键领域取得了成功。其中包括蛋白质折叠(例如蛋白质折叠的毫秒级全原子模拟)、大型生物分子网络的机制(例如病毒模拟)和药物应用(例如搜索COVID-19的药物)。站在力场先驱Allinger、Lifson、Scheraga和Kollman的肩膀上,2013年诺贝尔化学奖表彰了Martin Karplus、Michael Levitt和Arieh Warshel的工作,这是对生物计算的庆祝。显然,在一个充满活力和成功的领域,实验和建模已经成为了全面合作伙伴。

图1:生物分子建模和模拟领域的期望值曲线 

该领域从全面的分子力学工作开始,随着快速工作站和后来的超级计算机的日益普及,它开始起飞。在分子力学的图中(左上角),符号b、θ和τ分别代表键、角和二面角的运动,非键相互作用也被标出。扭转势能(E)包含two-fold(黑色虚线)和three-fold(紫色实线)。在不切实际的短期高期望值和失望(建模和基因组研究对人类疾病治疗的医学影响有限)之后,理论和实验之间更好的合作将该领域带入了具有生产力的阶段。

2000-2010年的十年间面临诸多挑战:包括力场的不完善、构象取样的限制、一些药物基因组学的障碍,以及基于基因组学的治疗方法对于人类疾病的医学影响有限。

技术创新包括分布式计算和使用GPU进行生物分子计算的出现,推动了该领域的发展。2009年,专业的分子动力学超级计算机Anton让显式溶剂全原子模拟达到了毫秒级别。2013年诺贝尔化学奖(授予Levitt、Karpus和Warshel)帮助验证了这个落后于实验的领域,并推动了该领域的发展。

沿着时间线,我们描述了里程碑式的模拟:

25-bp DNA (5ns and ∼21,000 atoms);

villin protein (1μs and 12,000 atoms);

bc1 membrane complex (1ns and ∼91,000 atoms);

12-bp DNA (1.2μs and ∼16,000 atoms);

Fip35 protein (10μs and ∼30,000 atoms);

Fip35 and bovinepancreatic trypsin inhibitory (BPTI) proteins (100μs for Flip35 and 1ms for BPTI, and ∼13,000 atoms);

nuclear pore complex (1μs and 15.5million atoms);

influenza A virus (1μs and >1million atoms);

N-methyl-D-aspartate(NMDA) receptor in membrane (60μs and ∼507,000 atoms);

tubular cyclophilinA/capsid protein (CypA/CA) complexes (100ns and 25.6million atoms);

HIV-1 fully solvatedempty capsid (1μs and 64million atoms);

GATA4 gene (1ns and 1B atoms);

influenza A virus H1N1(121ns and ∼160million atoms).

图经许可改编自参考文献

研究化学和生物系统的科学家们,现在经常将计算机模拟和各种实验信息结合起来,以确定或预测重要系统(从小分子到巨大的病毒)的结构、能量、动力学、机制和功能。该领域的先驱和领导者通过大型模拟程序和最先进的方法,推动了应用和技术的发展,揭开了生命分子的面纱,类似于光镜和X射线技术在17和19世纪的作用。生物分子建模和模拟应用使我们能够提出和回答新的问题,并在基础和应用研究中追求困难的挑战。问题的范围从解开蛋白质的折叠途径,确定人类常见疾病的新治疗靶点,到设计新型材料和药物。随着最近冠状病毒大流行的出现,所有这些工具都被用于模拟COVID-19相关系统。与我们现在所熟悉的COVID-19感染传播的指数级增长相似,只有当我们进行长期的评估时才能实现指数级的进步。

这一成功的关键因素是生物分子模拟界对于最先进技术的不懈追求和利用。事实上,建模者对超级计算机和技术的出色利用获得了里程碑式的模拟性能,与世界上最快的计算机相同步(图2)。生物分子复合物的模拟时间每十年增加约三个数量级,这一进展比摩尔定律快(摩尔定律预计每两年翻一番)。虽然对这种翻倍的某些方面有争论,但也有人认为,这种计算/性能的翻倍在许多领域保持了100多年。

  图2:与世界上最快的超级计算机相比,模拟性能的里程碑和摩尔定律趋势

图示是根据Top500超级计算机名单(www.top500.org)中的LINPACK基准,以Rmax报告的计算系统排名第一(蓝色)和排名最高的学术计算机(橙色)。Rmax是用于定义计算机性能的单位,单位为TFLOPS(每秒万亿次浮点运算)。具有里程碑意义的模拟(绿色)的日期是假设计算是在发表前一年进行的,但1998年的发表除外,我们假设这些计算是在1996年进行的。

其中包括从1996年至今:

使用国家超级计算应用中心(NCSA)的Silicon Graphics Inc. (SGI)机器;

使用CrayT3E900的villin protein;

使用CrayT3E900的bc1 membrane complex;

使用MareNostrum/Barcelona的12bp DNA;

使用NCSAAbe clusters的Fip35 protein;

使用BlueWaters的nuclear core complex;

使用JadeSupercomputer的influenza A virus;

使用BlueWaters 的CypA/CA complex;

使用TitanCray XK7的HIV-1 capsid7;

使用TrinityPhase 2的GATA4 gene;

由于BlueWaters已经选择退出Top500,我们使用2012年和2020年的持续系统性能/持续千万亿级性能(SSP/SPP)的估计值。

今天,许多技术领域的同步进步导致了相关领域的指数式增长。以基因测序技术为例,从人类基因组计划的27亿美元到今天对一个人的基因组进行测序的1,000美元,成本急剧下降。我们不仅可以将这些信息用于个性化医疗,还可以在几小时内完成COVID-19等的基因组测序,并应用这些序列变异信息,几乎实时地绘制疾病在全球的传播图。人工智能、纳米技术、能源和机器人等领域也都在受益于指数级增长。这反过来又意味着,从风电场到疫苗,迫切的问题可以得到解决,以改善我们的生活、健康和环境。特别是,生物分子建模和模拟在这个不断发展的环境中茁壮成长,许多成功的例子以及由建模驱动的实验就是证明。

关于这个领域的成功的轨迹的详细描述,我们的文章有单独描述(参考文献1)。Dill等人最近也发表了一篇关于该领域成功运用计算的文章。在我们的文章中,我们涵盖了该领域的普及和生产力上升的指标,成功和失败的例子,实验者和建模者之间的合作,以及社区倡议和实践的影响。在此,我们着重讨论与整个计算科学的众多领域相关的技术进步的两个方面:基于知识的方法与基于物理的方法,以及硬件与软件在推动该领域发展中的作用。



基于知识的方法与基于物理学的方法

自20世纪60年代以来,基于分子力学原理的物理类型模型已被成功地应用于分子系统,提供了对涉及生物分子重新排列、灵活性、路径和功能的结构和机制的见解。在这些方法中,将分子视为物理系统的能量函数,类似于由弹簧连接的球,被用来表达生物分子的基本振动、旋转和非结合的相互作用。从相关分子实体的实验中获得的目标数据被用来对这些函数进行参数化,然后将其应用于由相同的基本化学子群组成的更大的系统。因此,实验数据被用于构建这些一般的函数,但以基本的方式,如C-O键的性质或α碳周围的旋转灵活性。

相比之下,基于知识的方法缺乏一个基本的能量框架。相反,各种结构、能量或功能数据被用来训练计算机程序,以便从特定分子系统的已知化学和生物物理信息中发现相关系统的这些趋势。因此,这种方法利用现有的数据对相关的生物和化学系统进行推断预测。

虽然基于物理学的模型一直在使用,但自2000年以来,随着可用数据和处理大量数据的计算能力的增加,基于知识的方法获得了发展动力。尽管基于物理学的方法对于理解机理仍然至关重要,但基于知识的方法在特定的应用中不可避免地获得了成功,并超越了科学和工程的许多领域。正如我们在下面所论证的,这两种方法的发展都很重要,而且它们的结合可能特别富有成效。

基于物理学的方法

基于物理学的方法为我们提供了对生物过程的概念性理解。事实上,用于生物分子模拟的全原子力场在功能形式和参数方面的改进,对提高许多生物过程的建模精度至关重要。蛋白质、核酸、膜和有机小分子的力场已被应用于研究蛋白质折叠、酶学机制、配体结合/解体、膜插入机制和许多其他问题。目前的第四代力场已经引入了极化效应,这对于具有诱导电子极化的过程或系统非常重要,如本质上无序的蛋白质、金属/蛋白质相互作用和膜渗透机制。尽管经过50年的发展,但力场还远未达到完美的程度,未来可望进一步完善、扩展、标准化和验证。对广泛的生物分子系统的可转移性和不同力场之间的 "趋同 "将继续成为问题。与全原子力场的发展相平行,许多系统的粗粒度势能已被开发出来,但与全原子力场相比,这些势能远未统一。随着人们对生物分子复杂性问题的兴趣的增加,预计在不久的将来这一领域会有很多发展。 

例如,在蛋白质结构预测领域,Harold Scheraga实验室开发的基于物理的粗粒度联合残基(UNRES)力场在CASP10中表现出优异的成绩。这种预测不受结构数据库的影响,并依赖于能量上有利的残基/残基相互作用(第一性原理)。

基于物理学的方法对于研究蛋白质的动力学和折叠途径是必不可少的。例如,UNRES和许多全原子力场已经成功地研究了几种蛋白质的折叠途径,包括其伴侣蛋白内的一种小蛋白质。除了折叠机制,动力学和热力学参数也可以确定。

许多其他领域的应用表明分子力学和动力学模拟如何提供关于结构和机制的见解。这些包括病毒的结构(包括SARS-CoV-2),DNA修复的途径或染色质纤维的折叠。在药物发现中,分子对接已被证明对高通量筛选是成功的。例如,限定温度下的多拷贝分子动力学(MD)复制交换与分子对接相结合,提出了与SARS-CoV-2病毒的spike protein结合的分子。

这种分子力学方法最常见的问题涉及构象取样不足和模拟长度有限(与生物时间跨度相比)。其他的缺点是由于力场的不完善和其他模型的简化造成的近似,缺乏足够的统计信息和缺乏对所有分子系统的普遍适用性。计算机能力的提高,增强型模拟技术的进步,以及第四代力场与极化率的结合正在帮助克服这些限制。例如,Frontera petascale计算系统允许对嵌入病毒膜的SARS-CoV-2穗状糖蛋白进行多个微秒级的全原子MD模拟。结合平行调控和良好调控的集合元动力学的增强采样模拟,揭示了本质上无序的蛋白质的磷酸化如何调节它们与相互作用的“伙伴”的结合。可极化的力场AMOEBA允许确定磷酸盐与磷酸盐结合蛋白的结合模式,这在很长一段时间内仍有争议。

基于知识的方法

基于知识的方法在概念上比基于物理的模型要求低,原则上可以克服基于物理的方法的近似性。

在蛋白质折叠和结构预测领域,基于知识的方法,如同源、单线程和多线程建模,在某些情况下显示比基于物理的方法更有效。其他成功的算法使用进化耦合残基的信息,即参与补偿性突变的残基。这样的信息可以从多序列比对中检测出来,并用于从头预测蛋白质结构,准确度很高,正如在CASP11中观察到的那样。

特别是谷歌AlphaFold的人工智能方法,一种基于协同进化的方法,在2018年举行的CASP13中大放异彩,超过了其他蛋白质结构预测的方法(图3a)。最近,用更新的AlphaFold2对CASP14(2020年)的结果进行分析,发现所有目标的准确性都达到了前所未有的水平。

  图3:技术的进步使生物分子模型的应用成为可能

a, AlphaFold工作流程。用存放在蛋白质数据库中的已知结构训练深度神经网络,以预测新的蛋白质结构。获得距离和角度的分布后,用梯度下降法优化分数以改善设计。

b, RNA中尺度建模。SARS-2-CoV的FSE(frameshifting element)中药物或基因编辑的靶点残基由图论结合全原子微秒级MD模拟确定,该模拟由纽约大学一台新的4-petaflop的" Greene "超级计算机实现。 

c,染色质中尺度模型。利用核糖体定位、组蛋白尾部乙酰化和连接体组蛋白结合的实验信息,构建了核糖体分辨率的HOXC中尺度模型。未折叠的基因(左)和基因的折叠结构(右)。

d,云计算。与SARS-CoV-2相关的靶蛋白,与来自十亿化合物数据库的结合配体,用VirtualFlow平台进行筛选。该平台利用云计算和云存储。
保存在蛋白质数据库中的蛋白质/配体结合的高分辨率结构数据越来越多,加速了基于知识的方法在药物发现中的应用,这是生物分子建模的一个关键应用。例如,即使没有SARS-CoV-2病毒的主要蛋白酶的晶体结构配体,也可以利用多肽模拟抑制剂的复合物得到解决,这为使用基于知识的方法开发改进的抑制剂提供了基础。同样与COVID-19有关的是,人工智能工具被用来识别针对SARS-CoV-2的潜在药物。

当然,基于知识的方法的准确性取决于现有数据库的质量和规模、基础数据库和所研究系统之间的相似性以及所应用的分析方法。即使在大型数据库中,有些系统也没有得到充分的体现。例如,这些系统包括具有高阶RNA junctions,但这些junctions很少有实验数据;还有本质上无序的蛋白质,这些蛋白质很难用传统的X射线或核磁共振技术解决。随着更多数据的出现,此类问题原则上可以得到缓解。尽管如此,不平衡的数据库会产生错误的结果。例如,用配体-蛋白复合物数据库训练的模型,如果结合力弱的配体代表不足,就会高估结合亲和力。

对于一些应用,如基于由量子力学计算获得的大量和多样化的高质量训练数据集,通过机器学习推导出力场,对于获得可靠的结果是必不可少的。然而,目前还没有已知的、充分的标准。需要有多少个分子描述符才能令人满意地解释配体结合或化学反应?需要有多少种大型非编码RNA的多样性才足以代表这些系统的RNA折叠宇宙?

基于知识的和基于物理学的组合方法

幸运的是,基于知识的和基于物理的方法的组合可以融合每种技术的优势,将特定的分子信息与学习的模式结合起来。例如,最大熵法和贝叶斯方法整合了模拟和实验数据。他们利用MD或蒙特卡洛模拟为系统生成结构组合,并通过施加限制条件来重现实验数据。

蛋白质折叠方法可以通过使用混合能量函数来改进,该函数结合了基于物理学和基于知识的成分。例如,基于物理的函数可以用来自核磁共振实验的结构约束、残基的骨架或侧链的扭转角校正项或基于高分辨率蛋白质晶体结构的氢键电位来修改。

在蛋白质结构的完善中,基于物理和知识的方法的组合已被证明是特别成功的。例如,在CASP10中,来自Shaw和Zhang小组的MD模拟显示,实验约束对于完善预测的结构至关重要。纯粹的基于物理学的方法在纠正非原生构象到原生状态方面是不成功的。最近,有报道说,用MD模拟对用AlphaFold获得的模型进行细化,大大改善了预测的结构。

在计算机辅助药物设计中,定量结构/性能关系(QSPR)模型结合了实验和量子力学描述符,以改善对溶解的吉布斯自由能的预测。MD模拟与机器学习算法相结合,有助于建立改进的定量结构-活性关系(QSAR)模型。

从长远来看,推断机制对于理解和解决生物物理学的复杂问题至关重要。尽管基于知识的方法越来越成功,但力场不可能很快消失。正如公共项目所显示的那样(如用于蛋白质折叠的Foldit),基于物理的方法和基于知识的方法的组合可能是最有效的。重要的是,需要人类的直觉和洞察力来充分融合这两种方法并正确解释计算结果。



算法与硬件的作用

严格和高效的算法是任何生物分子建模或模拟成功的关键。需要新的算法来解决出现的问题,以及利用新技术和硬件的发展。提高生物分子模拟的可靠性和效率的算法的经典例子包括:用于处理静电的粒子网格Ewald方法,以及MD模拟中用于长时间整合的交折和无共振方法。此外,硬件的进步对于扩大系统规模和模拟时间框架也是至关重要的。计算机功率的持续增长,结合并行计算,对生物分子模拟领域的发展至关重要。硬件和软件对于该领域的持续成功都是至关重要的。

算法和软件的进展

据报道,在开发软件以加强采样、降低计算成本、整合机器学习和人工智能方法的信息,以解决生物问题方面已经取得了突出的进展。利用新型硬件,如图形处理单元(GPU)和耦合处理器的算法也有进展。增强的采样方法和基于粒子的方法,如Ewald求和,已经彻底改变了分子模拟的执行方式,以及如何捕捉构象转变,例如,连接实验终点。相比之下,MD算法(如多时间步长的方法),由于净计算量相对较小,所取得的影响远不如硬件创新。然而,他们的框架可能与其他改进相结合(如增强的采样算法或优化的粒子网格Ewald算法)。人们关注的生物系统的复杂性和规模每年都在增加,因此,持续的算法开发对于获得兼顾准确性和性能的可靠方法至关重要。

密度泛函理论(DFT),自20世纪90年代以来用于量子力学的应用,已经成为研究生物大分子最流行的量子力学方法之一。DFT的计算成本与半经验方法相似,但精度更高。新的DFT函数不断被开发出来,以改善对分散的描述和特殊应用。DFT的高效率意味着可以研究更大更复杂的系统,扩大了电子结构理论的应用和预测能力,并促进了建模者和实验者之间的合作。这种高效率也被MD方法所利用;基于DFT的MD模拟方法(如Car-Parinello MD和ab initio MD),被广泛用于研究生物系统的电子过程,如化学反应。

考虑到量子力学方法的计算成本和大多数生物系统的规模,量子力学/分子力学(QM/MM)组合方法的发展是推进生物系统电子结构计算的基础。特别是,自Warshel和Levitt对溶菌酶反应机制的开创性工作以来,计算酶学已经推动了这些方法的发展。通过将系统划分为电子活性区和其余部分,在分子力学水平上进行处理,计算工作集中在系统需要的部分,总体成本大大降低。现在,几种QM/MM方法在计算QM/MM能量的方案、边界区域的处理和QM与MM的相互作用方面有所不同,被应用于研究许多酶的机制、金属与蛋白质的相互作用、光化学过程和氧化还原过程等。研究人员还开发了自适应的QM/MM方法,在飞行中重新分配QM和MM区域。这些方法对研究溶液中或生物大分子中的离子,以及明确的溶剂中的化学反应特别重要。

最近的QM/MM方法采用机器学习(ML)电位来代替MM计算。这种QM/ML方案可以避免与力场相关的问题,以及QM和MM区域之间的边界问题。其他最近的发展是使用神经网络与QM/MM算法相结合;神经网络被用来预测半经验/MM计算中的ab initio/MM水平的势能表面。

许多感兴趣的生物过程发生在常规MD模拟不容易获得的时间尺度上。因此,各种增强的采样算法已经被开发出来。这些方法通过减少能量障碍和允许系统摆脱势能表面的局部最小值来提高采样效率。与传统的MD相比,其速度可以提高一个数量级或更多。基于集体变量的方法,如伞状取样、元动力学和引导式MD,已经推动了该领域的发展,应用于配体结合/解体、蛋白质和核酸的构象变化、酶促反应和配体解体时的自由能曲线以及蛋白质折叠。不需要定义特定集体变量或反应坐标的方法(如复制交换MD和加速MD),在定义集体变量有困难时(如探索过渡途径和中间状态时),显示出特别成功。马尔科夫状态模型(MSM)可以帮助描述由实验或MD确定的不同相关可转移状态之间的路径。例如,在研究二聚体蛋白的折叠时,自由能表面上的可转移状态的MSM已经确定了描述折叠过程的状态,以及可能导致动力学陷阱的特定残基间相互作用。基于物理学的蛋白质折叠已经受益于结合了许多短的独立轨迹的MSM的应用。相关的热力学整合和自由能扰动方法,计算初始和最终状态之间的自由能差异,也有助于确定蛋白质/配体结合常数、膜/水分配系数、pKa值和折叠自由能,将模拟与实验测量联系起来。

现在,强化的取样技术正在与机器学习相结合,以改善集体变量的选择,并开发新的方法。显然,人工智能和ML算法正在改变我们做分子建模的方式。再加上数据的增长,GPU加速的科学计算和基于物理学的技术,这些算法正在彻底改变这个领域。自从Behler和Parrinello在使用神经网络表示DFT势能表面从而描述化学过程方面的开创性工作以来,ML已经被应用于设计全原子和粗粒度力场、分析MD模拟、开发增强型采样技术和构建MSM等等。如上所述,谷歌在CASP13和CASP14中的AlphaFold表现显示了这类算法对预测蛋白质结构的影响有多大。用于药物发现的人工智能平台也使COVID-19相关的临床试验在创纪录的时间内完成。

多尺度模型

有可能彻底改变这一领域的算法的一个特殊情况是多尺度模型。多尺度模型对于弥合实验和计算时间框架之间的差距至关重要,这类模型通过使用粗粒化、插值和其他方式连接不同层次的所有信息来提高空间和时间分辨率。

2013年的诺贝尔化学奖表彰了Karplus、Levitt和Warshel在开发多尺度模型方面的工作,强调了这些模型的重要性。在20世纪70年代,将分子力学与量子力学连接起来确实定义了一种模拟分子系统的新方法。Warshel和Karplus建立的这种类型的第一个混合模型,最初是为了研究平面分子的化学性质和反应,但后来被扩展到研究酶反应。今天的模型多而杂。虽然在实践中很有用,但它们一般都是针对特定系统的,缺乏严格的理论框架。

例如,许多粗粒度的蛋白质模型已经被开发出来,并应用于蛋白质动力学、折叠和灵活性、蛋白质结构预测、蛋白质相互作用和膜蛋白,这一点最近已经有文章回顾。

粗粒度模型也被开发出来用于研究核酸。可能是由于结构数据量小、电荷密度高和结构多样性广,它们的进展比蛋白质要慢一些,特别是在RNA的研究中。

DNA粗粒度模型使我们能够在合理的时间内研究全原子模型所不能接近的大型DNA系统。粗粒度模型实现的自由度的减少使我们能够在微秒到毫秒的范围内研究成千上万的碱基对系统。关键的研究包括大的DNA分子的自组装,变性过程,对许多生物功能很重要的杂交过程,DNA mini-circles的拓扑结构和单链DNA结构的序列依赖性。

RNA的灵活性和巨大的可能构象谱图使其建模具有挑战性,研究人员已经开发了许多粗粒度的模型,这些模型在每个核苷酸的beads数量和模型中包含的相互作用及其处理方式上有所不同。使用二维和三维图形表示RNA结构的不同的粗粒度方法也被证明对分析和设计新型RNA很有用,包括SARS-CoV-2的frameshifting element(图3b)。 

粗粒度模型也被应用于生物膜(由数千种脂质组成的系统,在微秒到毫秒范围内发生大规模的转变)。膜蛋白动力学、病毒外壳组装、蛋白质对脂质的识别和许多重塑过程都已成功地被这种粗粒度的应用所捕捉。

最后,为了研究与蛋白质复合的DNA(如在染色质纤维的背景下),多尺度方法是必不可少的,正如最近的回顾文章(参考文献123,124)。这些方法从原子化的DNA、核糖体和连接的组蛋白中导出染色质模型。已故的Langowski、Wedemann、Nordenskiöld、Olson、Spakowitz、dePablo和我们的小组的成功模型,已被用于理解调节染色质压实和功能的机制。例如,我们最近通过中尺度建模对HOXC基因簇(约55kbp)进行了核糖体分辨率的三维折叠,揭示了表观遗传因子如何共同作用于调节染色质折叠(图3c)。这类模型的下一个挑战是合并理解染色质的千碱基到兆碱基水平,同时保留对决定纤维构象的物理参数的基本依赖。

多尺度模型既是艺术又是科学,因为它们需要主观决定哪些部分要近似,哪些部分要解决。然而,许多信息指导着这些模型,而重要的生物问题则是激励因素。总的来说,算法和硬件的创新进展,特别是多尺度模型的创新进展,将在未来几年对生物科学的发展起到关键作用。

硬件方面的进展

计算生物学和化学界对硬件的利用非常好。这从图1的期望曲线和图2的计算机技术图中可以看出。我们看到,在过去的三十年里,硬件的创新推动了生物分子模拟领域的发展,从生物分子系统的模拟长度和规模来看,大约有六个数量级。

在二十一世纪的第一个十年,超级计算机Anton和Blue Waters等硬件创新,通过扩大系统规模和模拟时间的极限,推动了该领域的发展。今天,对1.6亿个原子的流感病毒或10亿个原子的GATA4基因进行纳秒级的模拟已经成为可能。

与此同时,英伟达公司推出的用于生物分子模拟的GPU也打破了新的局面。GPU是专门的电子电路,旨在快速操作和改变内存以加速计算。这种GPU包含数百个算术单元,拥有高度的并行性,性能水平比单一中央处理单元(CPU)核心的定制软件高几十或几百倍。

GPU计算和超级计算机对MD模拟的加速,大大缩小了实验和理论规模之间的差距。例如,如上所述,世界上第二快的超级计算机--来自橡树岭国家实验室的Summit,拥有超过27000个英伟达GPU和9000个IBM Power9 CPU,被用来在8000多个化合物中探索SARS-CoV-2病毒抑制剂。这种模拟在短短几天内进行,发现了77个候选化合物。与基于CPU的方法相比,基于GPU的自由能计算算法可以实现200的速度提升。基于QM/MM的GPU方法也加速了专注于酶学机制的计算。例如,在混合QM/MM计算的框架内,基于GPU的DFT,如ONIOM或Additive QM/MM,与基于CPU的计算相比,实现了20到30的加速系数。Folding@home分布式计算项目,致力于了解蛋白质折叠在几种疾病中的作用,通过使用适应这种架构的模拟包,在GPU上进行大部分计算。最近,超过一百万的公民科学家帮助解决了COVID-19的挑战;他们结合了约28万个GPU,达到了exascale,产生了超过0.1秒的模拟。这些模拟有助于了解SARS-CoV-2病毒的穗状表面蛋白如何附着在人类细胞的受体上。适应GPU加速架构的MD软件也被用来进行巨大的细胞规模模拟,这对模拟真实的细胞环境和研究病毒和细菌感染非常重要。

基于云的计算作为超级计算机的一个可行的替代方案正在激增,为研究人员提供了远程高性能计算平台,用于大规模模拟、分析和可视化。购置和维护这样的硬件对单个研究小组来说是负担不起的,但对机构和公司来说却是可行的。例如,谷歌的Exacycle被用来对G蛋白偶联受体β2AR进行毫秒级的模拟,揭示了其激活途径,对设计治疗心脏疾病的药物很重要。最近,在一项史无前例的研究中,谷歌云平台和谷歌云存储被结合起来,针对15个SARS-CoV-2蛋白和2个参与感染的人类蛋白筛选了约10亿个化合物(图3d)。流行的可视化程序VMD的一个高性能版本已经在亚马逊云上实现,还有MD工具包QwikMD和用于从低温电子显微镜密度中提炼结构的分子动力学灵活拟合(MDFF)方法。这些努力使全世界的科学家能够以一种具有成本效益的方式获得强大的计算设备和软件包。

总的来说,用于分子模拟的定制计算机,如Anton,可以通过专门的软件加速计算相互作用。而通用的超级计算机或云计算,用成千上万的GPU或CPU在多个处理器上并行MD计算,可以加速大型系统的性能(例如,每秒数万亿次的计算)。

尽管硬件的进步已经压倒了软件的进步,但两者显然都是最佳性能所需要的。随着计算机存储量达到极限,硬件瓶颈将不可避免地出现。然而,无论摩尔定律是否会继续实现,软件的进步将永远是重要的。当然,工程师和数学家不会失业。

  图4总结了有助于突破性研究的关键软件、硬件和算法的发展

1970s:由于数字计算机和处理长程Coulomb相互作用的算法的发展,在真空中模拟<1,000个原子的系统和几皮秒的时间成为可能。图中描述的是小蛋白BPTI的结构,模拟了8.8ps,没有氢原子,有四个水分子。

1980s:考虑溶剂效应的模拟成为可能,像SHAKE这样的算法可以约束涉及氢原子的共价键,允许对有明确氢原子的系统进行研究。该图片描述了在水溶液中使用简单的三点电荷水模型对12bp DNA与lac抑制蛋白的复合体进行的125ps模拟。

1990s:QM/MM方法可以进行几何优化、MD和蒙特卡洛模拟。该图片描述了用AM1/CHARMM研究的柠檬酸合成酶的乙酰-CoA烯化机制。

2000s: 基于GPU的MD模拟、专门的超级计算机(如Anton)、共享资源(如Folding@home)、增强的采样算法和马尔科夫状态模型(MSM)都有助于推动蛋白质的折叠。该图像描述了在Anton中进行的Fip35折叠的100μs长模拟(红色)与X射线结构(蓝色)的对比。

2010s:在超级计算机(如Blue Waters)上进行的病毒的全原子和粗粒度的MD模拟变得普遍。该图片描述了使用MDFF方法对全原子HIV外壳进行的MD模拟,该方法使用低温电子显微镜数据来指导模拟工作。

2020年代:正在开发物理全细胞模型,以充分了解生物分子在细胞内的表现,并研究它们之间的相互作用,例如在病毒和细胞内的相互作用。图片描述了阿马罗实验室正在开发的SARS-CoV-2表面的穗状蛋白与人类细胞表面的ACE2受体之间的相互作用模型。



结论和展望

技术推动了许多影响我们日常生活的进步,从手机和个人医疗设备,到太阳能和在目前COVID-19大流行期间的物理隔离时期的应对措施。生物分子建模者一直在利用技术有效地解决重要的实际问题,并且无疑将继续这样做。机器学习和其他数据科学方法目前正在为众多领域的发现提供新的工具。这些用于预测生物分子结构、动力学和功能的工具可以与基于物理学的方法相结合,不仅可以找到解决方案,还可以了解相关机制。诸如MSMs、神经网络、多尺度建模、增强构象取样和比较建模等算法可以得到前所未有的利用,尤其是与这些数据科学方法相结合时。

我们预计,基于力场的方法对于理解生物分子系统的机制仍将是必不可少的,但基于知识的方法肯定会获得发展的动力。尽管最近AlphaFold2的惊人结果可能会诱使我们相信基于物理学的时代已经结束,但蛋白质折叠以外的一系列复杂问题不可能仅仅通过基于知识的方法轻易解决。新的计算平台也将在未来的生物分子模拟中发挥重要作用。随着量子计算、神经形态计算和其他架构进入这个领域,我们可以肯定,它们将被生物分子界热切地利用。尽管计算机对我们的领域有着非凡的技术影响,而且人工智能技术在解决许多科学问题方面有着令人难以置信的潜力,但人类的直觉和智慧将继续对发展思想和追求新的研究途径起到作用。毕竟,这样的人类人才首先负责人工智能的设计和实施,并可能会继续这样做。

最后,建模者孤立工作的时代已经过去了。无论是在Zoom上还是在共用一个工作台,多学科的科学家团队(未来也可能是自动化机器)正在合作解决从能量到疫苗等生命的基本问题。尽管有一些“颠簸”,但指数增长在不久的将来似乎是一个现实,生物分子建模和模拟领域无疑将继续纳入、改革和数字化生物系统的内部运作,以解决生命的秘密,并为治疗人类疾病、改善全球健康和改善我们的环境开发解决方案。

本文仅作学术交流,非商用。

参考资料 Schlick, T.,Portillo-Ledesma, S. Biomolecular modeling thrives in the age of technology.Nat Comput Sci 1, 321–331 (2021). https://doi.org/10.1038/s43588-021-00060-9

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例
人工智能在药物研发中的应用
AI药物研发公司Exscientia的理念、技术与特点
进入临床试验的AI设计的药物 汇总V1.0
远程机器人实验室在AI药物发现中的应用价值与前景
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
利用人工智能增强表型药物发现
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存