查看原文
其他

Nature封面 | AlphaFold将多方面推动结构生物学的发展

李大发 科技导报 2022-04-20


近年来,受益于人工智能和深度学习技术的快速发展以及结构生物学数据的大量积累,蛋白质结构预测的方法学取得了突破性的进展。

8月26日这期的《自然》(Nature),以AlphaFold实现高准确率的蛋白质结构预测这一成果为封面,而其内的两篇论文,更是极大推进了我们对蛋白质结构的理解。

《科技导报》新媒体对此工作进行了编译,同大家分享。

蛋白质是生命的基础,理解蛋白质的3D结构是揭示蛋白质功能的关键,但迄今只有17%的人类蛋白质组结构得到了实验解析。

确定一个蛋白质结构往往需要数月甚至数年的艰苦努力。科学家们通过巨大的努力,已经确定了约10万种独特蛋白质的结构,但这只是数十亿已知蛋白质序列中的一小部分。

50多年来,预测一个蛋白质的三维结构——“蛋白质折叠问题”的结构预测部分,一直是个重要的开放式研究问题。

尽管已经取得了一定的进展,但现有方法远未达到原子精度,尤其是在没有可用同源结构时。

横空出世的强大工具



谷歌位于伦敦的姊妹公司DeepMind的研究人员提供了第一个可以定期预测蛋白质结构的计算方法,即AlphaFold神经网络的最新版本,即使在没有类似结构的情况下也能达到原子精度。

来源:Nature

支持最新版本的AlphaFold是一种新颖的机器学习方法,它将关于蛋白质结构的物理和生物学知识,利用多序列比对,融入深度学习算法的设计中。

该网络利用一个基于蛋白质物理学和几何学直觉预测的全新架构,能够实现准确率很高的结构预测。

在去年12月举办的第14届蛋白质结构预测技术关键评估(CASP14)中,验证了完全重新设计的基于神经网络的模型AlphaFold,即使对于蛋白质数据库(PDB)中没有模板结构的具有挑战性的蛋白质,或者使用相对较少的相关序列来构建多序列比对(MSA),通常也可以获得良好的结果。

*CASP是一项两年一度的用于分析蛋白质结构预测方法准确性的黄金标准评估。

AlphaFold在大多数情况下显示了足以与实验结构相竞争的准确性,并大大超过了其他方法,被认为是蛋白质结构预测这一长期难题的解决办法之一。

AlphaFold产生高度精确的结构

设计思路

AlphaFold的第一个模块Evoformer将蛋白质结构预测视为3D空间中的图推理问题

折叠的蛋白质被看作是一个“空间图”,其中节点代表氨基酸残基,边缘将彼此靠近的残基连接起来。这有助于了解蛋白质内部的物理相互作用及其进化历史。

Evoformer模块

作为原始输入,Evoformer采用一级氨基酸序列和其进化同源物的比对序列或多序列比对(MSA),然后生成两个数组。

MSA表示数组编码每个氨基酸位置与不同输入序列之间的关系,而配对表示数组编码蛋白质中两个氨基酸残基之间的关系。

该网络不断更新这些数组。更新的MSA表示用作更新配对表示的输入,而配对表示又成为进一步更新MSA表示的输入。这个过程的迭代意味着两个数组不断交换信息以细化空间图,使得该网络能够解释并直接推理出序列之间的空间和进化关系,最终对蛋白质的基本结构做出强有力的预测。

结构模块根据Evoformer输出的信息生成一个三维主干结构。蛋白质骨架的几何形状用独立的旋转和平移表示,并进行迭代更新。值得注意的是,该模块在此过程中违反了立体化学约束,如非物理性的肽键角度或长度,使得蛋白质结构的所有部分都可以同时被完善,而不必解决复杂的循环问题。

违反立体化学的数量随着迭代次数的增加而下降,最终产生一个高度精确的蛋白质结构。结构模块还计算了一个内部的置信度,以评估每个预测的结构中哪些部分是可靠的。

准确预测的蛋白结构

此外,DeepMind使用来自蛋白质数据库的约17万个已知蛋白质结构和来自Uniprot数据库的未知结构蛋白质序列端到端地训练网络。

研究团队将AlphaFold应用于20296种蛋白质——占到人类蛋白质组的98.5%,并与欧洲生物信息学研究所合作将这些预测结果免费公开,同时公开的还有对人类长链蛋白质和20种其他模式生物蛋白质的预测。

AlphaFold的局限性

尽管为已知“蛋白质世界”预测3D模型的可用性是一个令人兴奋的前景,但AlphaFold方法和资源仍然存在局限性,其中一些可能在未来得到解决:

许多蛋白质作为与其他蛋白质、核酸或配体的复合物起作用。AlphaFold目前无法预测蛋白质-蛋白质或蛋白质-DNA/RNA/配体复合物的3D结构。在某些情况下,单链预测可能对应于复合体中采用的结构。在其他情况下(特别是如果蛋白质只在与伙伴分子结合时才有结构),周围分子的背景缺失可能会导致预测结果不具参考意义。

蛋白质是一个动态系统,根据其环境或功能周期内的状态而采取不同的结构。当一个蛋白质已知有多种构象时,AlphaFold通常只会产生其中一种。这留下了许多关于蛋白质构象动态的相关问题,对理解生物功能至关重要,仍将是一个非常活跃的研究领域。

对于孤立的本质上无序或非结构化的区域,AlphaFold预计会产生低置信度的预测,并且预测的结构将具有扩展的带状外观。AlphaFold可作为识别这类区域的工具,但该预测并未说明不同构象的相对可能性。此外,AlphaFold并未声称可以预测“折叠途径”。

AlphaFold还没有经过训练或验证来预测突变的效果,特别是不可能捕捉到破坏蛋白质稳定性的点突变的影响。

此外,AlphaFold不会对实验结构中经常观察到的任何非蛋白质成分进行任何预测,即预测的结果中并不包含有辅因子、金属、配体(包括类药物分子、离子、碳水化合物和其他后翻译修饰)等成分。

多方面推动结构生物学的发展

结构生物学是分子生物学的一个分支,通过使用3D结构信息回答生物学问题。

最新版的AlphaFold无疑成为了结构生物学领域的重要里程碑事件,从多方面推动了结构生物学的发展:





加速结构研究

大规模预测3D模型的可用性可能会显著改变结构生物学研究的格局,在某些情况下会加速结构分析。

目前,PDB包含超过18万个条目,涵盖约5.5万个独特蛋白质(UniProt种质)。PDB对蛋白质领域的有限覆盖是许多生物学领域的障碍,包括结构生物学本身。

大量预测模型的可用性可用于从头开始实验结构确定。此外,对于实验结构生物学家难以表达全长蛋白质的问题,预测模型有助于将蛋白质分解为功能域,再单独或组合表达。

目前,冷冻电镜是确定大而灵活的蛋白质复合物和“分子机器”结构的主要方法之一,但无法将人们所关注的复合物完全解析为高分辨率的结构。

预测模型对于解释低分辨率区域、更好地解析区域的模型构建非常重要。





填充蛋白质复合物的成分

AlphaFold DB将使研究复杂的生物系统成为可能,而在这些系统中,无法获得非常高分辨率或高质量的实验结构数据,并可能提供有关大型大分子机器功能的机械假设。

实验人员可以确定与其他相关蛋白质、DNA/RNA或小分子配体复合的感兴趣蛋白质的形状,以获得此类复合物为执行其功能而采用的构象和状态范围的图片。

当组分蛋白质的实验模型不可用时,AlphaFold模型可以以互补的方式使用。

此类复合物的模型可用于生成相关结合位点或相互作用表面的假设,并随后计划对应的实验,例如找出哪些配体(或配体的片段)可以结合。





为蛋白质动力学分析生成假设

蛋白质3D模型的可用性可能会刺激对其动力学的实验分析。

预测模型可用于拟合来自小角度散射(SAS)等方法的低分辨率数据,或为时间分辨研究提供信息,以了解酶催化机制或侧链的构象变化,这些侧链与配体结合以赋予特异性或选择性。

冷冻电镜技术的快速发展使得利用原位实验研究生物环境(细胞)中的大分子复合物成为可能。预测模型可能有助于阐明在细胞的各种环境中与大型复合物相互作用的蛋白质的身份。

AlphaFold DB总体上会加速结构生物学研究,在可预见的未来,很可能是验证和充分利用结构预测潜力的关键,并能对目前无法进行可靠预测的结构进行研究(核酸和大型复合体的结构、配体和片段筛选、动力学调查等)。


AlphaFold解决了一个长期存在的生物学难题——通过蛋白质的氨基酸序列预测蛋白质的3D结构。

由于蛋白质结构决定了其功能,因此该算法可以揭示蛋白质在健康和疾病中所发挥的作用。

这项工作也证明了人工智能在加速一些基本科学领域的发现和研究方面的价值。

随着进一步的改进,AlphaFold或许可以确定多蛋白复合物的结构,甚至有助于设计新的蛋白质,推动新药的开发。

参考资料:

1.Highly accurate protein structure prediction with AlphaFold. Nature 596,583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2

2.Highly accurate protein structure prediction for the human proteome. Nature596, 590–596 (2021). https://doi.org/10.1038/s41586-021-03828-1

3.https://d4-pharma.com/alphafold-predicts-protein-structure-with-near-experimental-accuracy/

4.https://www.ebi.ac.uk/about/news/opinion/alphafold-potential-impacts

作者简介:李大发,西班牙UVA眼科研究所,研究员,研究方向为角膜移植。

内容为【科技导报】新媒体原创,欢迎转载

白名单回复后台「转载」精彩内容回顾

22世纪老年人口将占比22%,发展老龄友好社区势在必行

第三代半导体辐射探测器研究进展

王贻芳院士:中国的粒子物理研究整体处于跟跑或并跑阶段,有影响的学界领袖太少

中国关闭煤矿区域生态恢复规划进展

储气、储水、储油、储物资、处置核废料,废弃矿井地下空间开发潜力巨大

《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。


《科技导报》微信公众平台创建于2014年,主要刊登《科技导报》期刊内容要点,报道热点科技问题、科技事件、科学人物,打造与纸刊紧密联系又特色鲜明的新媒体平台。科技导报公众号聚集了数万名专心学术的未来之星和学术大咖,添加编辑微信,让优秀的你有机会与志趣相同的人相遇。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存