查看原文
其他

Nature|人工智能助力蛋白质折叠预测

智药邦 智药邦 2022-06-15

2021年11月23日,Nature杂志发表文章Artificial intelligence powers protein-folding predictions。在该文章中,多位专家对AI应用于蛋白质折叠预测的现状和问题进行了评述。

以下是全文内容。

摘要

AlphaFold2和RoseTTAFold等深度学习算法现在可以根据蛋白质的线性序列预测其三维形状,这对结构生物学家来说是一个巨大的福音。

前言

很少有科学软件能引发如此轰动。英国广播公司(BBC)宣称:"生物学中最大的谜团之一被人工智能'基本解决'了"。福布斯称其为"有史以来人工智能领域最重要的成就"。谷歌DeepMind的人工智能系统AlphaFold2于2020年11月首次亮相,用于预测蛋白质的三维结构,自从该工具在7月免费提供以来,人们对它的讨论更加激烈。

使用AlphaFold2和结构数据建立的人类核孔复合体的模型。资料来源:Agnieszka Obarska-Kosinska

这种兴奋与该软件有可能解决生物学中最棘手的问题之一(从线性氨基酸序列中预测蛋白质分子的功能性折叠结构,以及3D空间中每个原子的位置)有关。蛋白质如何形成其三维结构的基本物理化学规则仍然过于复杂,人类无法解析,因此这个"蛋白质折叠问题"几十年来一直没有解决。

研究人员已经研究出了大约16万种蛋白质(来自所有生命世界)的结构。他们一直在使用实验技术,如X射线晶体学和冷冻电子显微镜(cryo-EM),然后将其三维信息存入蛋白质数据库。计算生物学家在开发补充这些方法的软件方面取得了稳步的进展,并且已经正确地预测了一些来自研究良好的蛋白质家族的分子的三维形状。

尽管取得了这些进展,研究人员仍然缺乏大约4800个人类蛋白质的结构信息。不过AlphaFold2已经将结构预测策略提升到了一个新的水平。例如,西班牙研究人员的一项独立分析显示,该算法的预测将没有结构数据的人类蛋白质数量减少到了29个。

AlphaFold2于去年11月在CASP14上公布,这是一个两年一度的竞赛,让计算生物学家在那些结构已被实验解决但未公开发布的蛋白质上测试其算法。DeepMind的软件(使用了被称为深度学习的复杂机器学习技术)在比赛中大获全胜。

"根据CASP14的结果,总体上,他们可以得到约三分之二的具有实验准确性的蛋白质,即使是困难的目标,他们也可以得到约三分之一的具有实验准确性的蛋白质",位于Ann Arbor的密歇根大学的生物化学家Yang Zhang说,他的算法是CASP14的亚军之一。"这是一个非常惊人的结果"。随后的两篇《Nature》论文和几十篇预印本文章进一步证明了AlphaFold2的预测能力。

Zhang认为AlphaFold2是深度学习力量的一个引人注目的展示,但只是蛋白质折叠问题的部分解决方案。即使在没有结构信息的情况下,该算法也能为许多蛋白质(以及一些多蛋白质复合物)提供高度准确的结果。这可以大大加快实验性结构生物学,并有助于指导蛋白质工程和药物发现的研究。

但是对于一些蛋白质来说,许多重要的细节仍然是遥不可及的。马萨诸塞州波士顿Dana-Farber癌症研究所的计算生物学家Chris指出,算法在处理具有多个功能域或高度动态结构的复杂蛋白质目标时仍有困难。Sander说:"他们所做的很好,但蛋白质的灵活性以及它们如何变化还未被触及到,仅仅拥有一个snapshot(意为快照,简要说明)并不能解决生物功能的问题。"

深度学习方面的进展以及不断增长的AlphaFold2用户社区,可以使其中一些挑战得到解决,但对蛋白质生物学的全面理解将需要一个更广泛的计算和实验工具箱。

高级的训练

深度学习包含了机器学习策略,其中计算神经网络被训练来识别和解释数据中的模式。西雅图华盛顿大学的计算生物学家David Baker说:"这些模型并不试图一次性预测结构",他说,"它们更像是一种物理模拟,模型正在学习如何做出好的动作来改善结构"。通过用大量的注释过的实验数据训练这些算法,他们可以开始识别序列和结构之间的联系,为新蛋白质的预测提供信息。

在过去的五年里,多个团队在将深度学习应用于结构预测方面取得了进展。AlphaFold的第一次迭代在2018年赢得了CASP13,但其表现远不及去年的突出胜利。几个学术实验室随后开发了基于深度学习的算法,其性能超过了第一代AlphaFold,包括Zhang实验室的DI-TASSER、Baker实验室的trRosetta和RaptorX(由位于伊利诺伊州芝加哥的丰田技术研究所的Jinbo Xu及其团队开发)。

但是这些算法通常被作为一个更大的软件管道的一部分来应用,造成了错误和低效率的可能性。纽约市哥伦比亚大学的系统生物学家Mohammed AlQuraishi说:"经常出现不同的组件沟通不畅,或者彼此之间沟通不畅,因为它们是零散的。这些限制激发了人们对端到端算法的兴趣,这种算法可以管理从序列到结构的整个过程"。DeepMind的高级研究科学家John Jumper说,"在CASP13之后,他的团队基本上放弃了第一代AlphaFold,开始开发这样一个解决方案AlphaFold2"

AlphaFold2的几个方面是建立在既定技术之上的。例如,该算法首先生成多序列比对(MSA),将结构未知的新蛋白质与其他物种的相关序列进行比较。通过识别平行变化的共同进化的氨基酸,算法可以锁定那些最有可能在折叠的蛋白质中相互关联的氨基酸。在这些地方,序列中的一个变化需要补偿性突变来保持整体结构。

Sander和他的合作者,马萨诸塞州剑桥市哈佛大学的计算生物学家Debora Marks,以及他们的团队在2017年开发了这种基于共同进化的技术。"这是第一个对许多蛋白质全面有效的解决方案,利用进化来获得正确的折叠和基本形状"Sander说,"而现在机器学习让它变得更好了。"

AlphaFold2的开发者利用前所未有的信息量来构建他们的MSA,使用的是韩国首尔国立大学的计算生物学家Martin Steinegger和德国哥廷根马克斯普朗克生物物理化学研究所的Johannes Söding汇编的数据集中的数十亿条蛋白质序列。Steinegger说:"他们希望我把它变成一个可搜索的数据库。"

由AlphaFold建模的6种不同蛋白质结构的三维结构

这些由AlphaFold2生成的预测突出了蛋白质的结构多样性。

DeepMind团队还为蛋白质折叠问题设计了创新的解决方案。一个是使用被称为transformers的模式识别工具,这些工具通常用于图像分析和自然语言处理。transformers被设计用来识别局部模式。例如,单词串或相邻的视觉元素可能会指导数据的解释。DeepMind对它们进行了调整,以便在更具挑战性的蛋白质结构领域开展工作,建立了能够识别和关注可能在最终折叠形式中很重要的长程蛋白质相互作用的transformers。Jumper说:"在最终的蛋白质结构中,你会在相当遥远的事物之间建立联系,比如也许残基10会与残基350对话"。

AlphaFold2同时从多个角度处理蛋白质折叠问题,并平行生成预测结构的多个表示。然后对这些结构进行比较,得出的见解有助于在随后的迭代中完善建模过程。Jumper和他的同事们通过设计一个神经网络架构来实现这一点,该架构允许软件的各个组成部分之间进行流畅和有效的信息交流。AlQuraishi说:"我认为使其成为现实的最大因素是那个设计非常好的通信系统。"

为用户预测

由于AlphaFold2的首次亮相和论文发表之间的滞后性,以及学术界对其是否会提供完整的细节的不确定性,Baker和他的博士后Minkyung Baek从该软件架构的稀疏信息出发,开发了他们自己的版本RoseTTAFold。这使用了许多与AlphaFold2相同的策略,但有一些独特的变化。

Baker说:"在我们提供它的时候,这是可以使用的最好的结构预测方法,但没有AlphaFold2好"。他指出,与大多数学术实验室相比,DeepMind是一个私人实体,拥有巨大的资源和一个长期的多学科专家团队。哥本哈根大学的计算生物学家Amelie Stein说,"对AlphaFold2的成功最广泛的解释是‘这只是因为谷歌的钱,但它也汇集了软件工程师和了解蛋白质、理解蛋白质结构的人的专业知识。"

自从AlphaFold2在7月发布以来,各实验室争相使用该软件及其结构预测,这些预测可通过欧洲生物信息学研究所托管的一个数据库获得。

"用户普遍认为该软件使用起来很简单,尽管他们需要几TB的磁盘空间来下载数据库和多个图形处理单元(GPU)来处理分析工作"。斯德哥尔摩大学的生物信息学家Arne Elofsson说,"单一结构的计算并不是那么糟糕,我们运行它几个小时。但由于其规模和所需的资源,对一个生物体的全部蛋白质或蛋白质组的分析,对于大多数学术实验室来说,可能暂时还无法实现。"

对于那些希望测试软件的研究人员,Steinegger和他的同事开发了ColabFold,这是一个基于云的系统,使用谷歌提供的远程数据库和计算能力运行AlphaFold2和RoseTTAFold。基于网络的界面相对简单。Steinegger说:"你可以插入你的序列,然后只需按下一个按钮,它就能为你预测出结构"。但它也允许用户修改设置并优化他们的实验,比如通过改变结构预测的迭代次数。

寻找折叠

即使是DeepMind团队也对AlphaFold2在CASP14上的出色表现感到吃惊。"我们显然有内部基准测试,表明我们会做得非常好 ",Jumper说,"但到了最后,我的脑海中仍有一种感觉:这真的是真的吗?"

CASP14打消了这些顾虑,在过去的几个月里,AlphaFold2的能力和局限性得到了大量的展示。在与描述该算法的论文同时发表的一项研究中,DeepMind团队将AlphaFold2应用于包括98.5%的人类蛋白质组的数据集。该算法使用一种称为预测局部距离差异测试(pLDDT)的指标来表示其对某一特定氨基酸的位置和方向准确反映其真实世界结构的信心。通过这种方式,蛋白质组中36%的残基可以以非常高的信心得到解决。

8月,由西班牙巴塞罗那超级计算中心的生物信息学家Alfonso Valencia 领导的研究人员独立得出结论,AlphaFold2将人类蛋白质中可以准确映射的氨基酸比例从31%提升到50%。

Zhang预计,该软件将很快摘完蛋白质组的低垂果实。他说:"他们可能可以折叠所有的单域蛋白。但许多蛋白质仍然是一个挑战,例如那些由多个独立的功能单元组成的、由相对灵活的连接元素连接的蛋白质。在这些情况下,单个结构域可能会排列整齐,但它们相对于彼此的方向可能不会。"

更具挑战性的是那些在自然状态下本质上无序的蛋白质片段,它们可能占人类蛋白质组中所有氨基酸的三分之一以上。目前没有任何算法可以预测这些段如何折叠,但Jumper指出,极低的pLDDT分数至少可以在结构中划分出这些段。他说:"一个完全没有信心的预测是相当有力的无序指标。"

AlphaFold2和RoseTTAFold的一个出乎意料的特点,是它们有能力从形成复合体的一对蛋白质链中预测出准确的结构,这些复合体被称为同源二聚体(如果由两个相同的蛋白质形成)或异源二聚体(由两个不同的蛋白质形成),它们最初没有被训练成这样。

Elofsson和他的团队报告说,他们使用AlphaFold2分析的双蛋白复合物中,成功建模的比例高达59%。当试图从头开始识别可能的复合物时,这一过程在计算上比为已知的相互作用对建模时更具挑战性。但是Baker和他的团队表明,通过串联应用多种深度学习算法,他们能够从酵母菌Saccharomyces cerevisiae的蛋白质组中数百万个可能的相互作用对中,识别并模拟出数百个多蛋白复合物。"Baker说:"RoseTTAFold比AlphaFold2快100倍,因此我们可以在所有的配对上运行它,然后用它来过滤出最有可能相互作用的那些。"然后我们在这个小得多的子集上运行AlphaFold2。"

感受到这种应用的热情,DeepMind在10月发布了AlphaFold-Multimer,它被专门训练来处理由多条链组合而成的蛋白质复合体。AlphaFold-Multimer对所测试的34%的同源二聚体复合物和23%的异源二聚体复合物的相互作用进行了高准确度预测。

功能的边界

尽管如此,许多问题仍然遥不可及。Marks说:"如果你的技术一心想要很好地学习复制晶体学,那么这很好"。但她指出,这种静态结构快照将不适合探索与特定蛋白质的操纵或内在动态行为有关的问题。

例如,AlphaFold2通常对每个序列产生一个单一的"正确"答案。但是许多蛋白质有多种构象状态,它们都与功能有关。例如,决定一个酶是活跃还是被抑制。Elofsson说:"你可以尝试调整AlphaFold以获得一个或另一个,但无论你做什么,你往往只生成一个构象。该算法根本不是为了模拟复杂的分子物理学而设计的,即使它在生成预测的同时捕捉到了这些力量的影响。要解决这样的问题,可能需要通过实验技术来显示实际蛋白质在多种状态下的结构,如低温电镜。"

AlphaFold2通常也不适合预测单个氨基酸的变化如何改变蛋白质结构,这是理解突变如何导致疾病的关键因素。Stein说:"这部分是因为该算法使用进化的观点,从许多略有不同的序列中收敛到一个正确的解决方案,他的工作重点是描述这种变体的特征"。她说:"如果你在某处翻转一个残基,你不能指望它突然说'这是一场灾难'。然而,她和她的团队已经发现,他们可以将深度学习产生的野生型蛋白质结构与其他突变分析算法相结合,以实现更准确的预测。"

好消息是,结构生物学家不会很快失去工作。事实上,他们现在可能能够将更多的时间投入到该领域的其他紧迫问题上。例如,英国剑桥大学的结构生物学家Randy Read指出,AlphaFold2的结构预测已经帮助晶体学家克服了乏味的"相位问题(phase problem)",一个与解释X射线衍射实验中产生的不完整数据有关的挑战,从而大大加快了他们的数据解释。

蛋白质设计者也可以看到好处。从头开始(称为新的蛋白质设计)涉及到通过计算生成的模型,但在实验室中进行测试。Zhang说:"现在你可以立即使用AlphaFold2来折叠它。这些结果甚至可以用来重新训练设计算法,以便在未来的实验中产生更准确的结果。"

对AlQuraishi来说,这些可能性意味着结构生物学的一个新时代,强调蛋白质的功能而不是形式。他说:"在很长一段时间里,结构生物学是如此专注于各个部分,以至于它把这些美丽的带状图提升到几乎就像结构生物学自身的终点。现在我认为结构生物学将赢得其名称中的'生物学'部分。"

参考资料

https://www.nature.com/articles/d41586-021-03499-y


----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向





- 历史文章推荐 -


AlphaFold

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续

药物设计

JMC|用于从头药物设计的生成模型

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN

●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

●BioRxiv|基于表型和化学结构预测化合物活性

●Drug Discov Today综述|分子从头设计和生成模型

●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展

靶点发现

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

●AI+临床数据助力新药靶点发现,天坛医院院长王拥军谈【神农计划】

临床试验

●NPJ Digit Med|多种数字健康技术在去中心化的世界中赋能临床研究

●Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准

产业进展

●如何管理人工智能和数据科学:来自诺华的实践经验和教训

●20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动

●Drug Discov Today|药物研发风险地图

算法开发】 

●NPJ Digit Med|数字医学和维度诅咒

机器学习质量

Nat Comput Sci|迈向可重复的机器学习

Science|让机器学习值得信赖 

隐私计算

●曾亥年|AI药物发现实践与隐私安全计算

●Science China|用增强的联邦学习应对药物发现数据小和偏的困境

●Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例

AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例

量子计算

●Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态

●利用量子理论加速药物发现的18家初创企业

机器人实验室

●远程机器人实验室在AI药物发现中的应用价值与前景

监管

Nat Mach Intell|美国和欧洲如何监管医学领域的人工智能

●Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存