查看原文
其他

Nat Methods | AlphaFold预测的准确度究竟有多高?

王彤彤 北京生物结构前沿研究中心 2024-04-27

星标,再也不怕错过更新!方法见文末动图。


当涉及蛋白质结构预测技术时,例如AlphaFold1和RoseTTAFold2,它们已经取得了相当高的准确性,有助于我们获取更多蛋白质的信息。然而,这些预测仍需考虑实验结构的局限性,因为蛋白质的构象受到多种因素的影响。尽管AlphaFold在局部准确性方面表现出色,但仍存在一些差异。预测模型对人体和大肠杆菌蛋白质组的部分氨基酸残基具有高置信度3,但也存在低置信度的预测。蛋白质结构预测技术使得从已知大分子的三维结构中获取的生物学信息更接近现实,已对2亿个蛋白质序列的结构进行了预测4,推动了药物发现和蛋白质工程。然而,预测在多大程度上可以替代实验结构的测定仍需探讨。实验测定和预测模型都有局限性,蛋白质构象受多种因素影响。预测的准确性通常通过与PDB中相同序列的结构进行比较来评估,AlphaFold预测的结果被认为具有“原子级准确性”,但在与PDB中的结构比较时存在差异。AlphaFold预测的结构可能比数据库中的结构更准确,但也存在差异。预测结果与实验结构的差异需谨慎评估。


2023年11月30日,Nature Methods上在线发表了一篇题为“AlphaFold predictions are valuable hypotheses and accelerate but do not replace experimental structure determination”的科研论文,这一工作在Nature Methods一月刊上证实发表。本文通讯作者Thomas C. Terwilliger与其团队成员对AlphaFold预测结果的准确性及其与实验数据之间的一致性进行了进一步的评估。本文利用102个X-射线晶体学数据集对AlphaFold预测的准确性进行了评估。通过将AlphaFold预测的结构与实验测得得晶体衍射数据进行比较,发现球型结构域Cα距离的预测相对误差增加了一倍。此外,在AlphaFold预测的结构中,有7-20%的侧链与已有的晶体学数据不相符。无论在主链走向还是侧链构象上,都有相当大比例高置信度的AlphaFold预测结果与实验测得的密度图存在偏差。



在不依赖于数据库中已有结构信息的情况下,研究者利用AlphaFold对蛋白进行迭代的结构预测,并利用PDB中的X射线晶体学数据对预测得到的密度图进行模型的重建。在整个数据集中,研究者选定了102个高质量的模型及其密度图用于分析。由于预测的过程不以任何已有的结构信息为参照,研究者认为,如果预测的密度图与实验得到的密度图不符,且重建的模型与数据库中的模型存在差异,那么极有可能意味着预测的结果存在错误。


图1展示了4个预测结果与实验结果的比对情况,其中a-d为预测结果,e-f为实验结果,所有的预测结果都显示有plDDT> 90的高置信度。在图1a (PDB: 7waa)中,AlphaFold预侧的结果与实际的密度图非常接近,Cα的RMSD值为0.5 Å。在图1b (PDB: 7s5L) 中,包含了与实验密度图不相匹配的高置信度区域,两个模型Cα的RMSD值为2.1 Å。图1c (7t26) 中,预测结果与实验结果不相匹配,但是仍可能是分子的一种合理构象。而图1d (PDB: 7naz) 中的预测结果则相对实验数据的扭曲 (图1)。此外,在用于分析的102个蛋白中,AlphaFold预测的密度图与模型之间的整体相关性为0.56,远低于实验数据 (0.86)

 

图1. AlphaFold预测结果与实际密度图之间的比较


由类似于图1d的结果来看,AlphaFold预测的结构可能存在扭曲现象,这一点在相距较远的原子对之间尤为明显。当原子对之间的距离较小 (4~8 Å) 时,Cα RMSD的中位数尚为0.1 Å左右,然而当距离增大 (48~52 Å) 时,Cα RMSD的中位数会增加值0.7 Å,显著高于PBD中已公布的结构 (图2)

 

图2. AlphaFold预测密度图与已发表结构模型之间的比对情况


本研究发现,AlphaFold预测的102个密度图与已公布的结构模型相比,在中到高置信度的的残基中,有约20%的侧链与已公布的结构模型存在明显差异,其中约7%的侧链构象与实验数据明显不一致。另外,通过对比不同空间群中的晶体结构,发现AlphaFold预测与晶体结构的差异程度明显大于不同空间群中的晶体结构之间的差异。进一步分析发现,这7%与实验数据不一致的残基中,有53个残基被确认为具有功能重要性。此外,研究者还观察到这些具有重要功能的残基的侧链构象与实验数据的不一致程度与其他残基相似,这可能表明AlphaFold对于功能重要残基的预测并没有明显优势 (图3)

 

图3. 对比AlphaFold预测结果与实验数据得到的侧链密度


通过将AlphaFold预测的密度图与已公布的结构模型进行叠加,并进一步计算二者Cα原子之间的距离和与预测结构中Cα原子的置信度 (pLDDT),研究者发现,高置信度 (pLDDT > 90) 残基的中位预测误差为0.6 Å,而pLDDT在80到90之间的残基为1.1 Å,70到80之间的残基为1.5 Å。与此相比,不同空间群中结构中匹配的Cα原子的中位误差为0.3 Å。对结构进行形变可以减小所有置信度范围内的差异。此外,对于不同的应用场景,中位坐标误差可能会产生不同影响。此外,研究者还发现,AlphaFold预测的坐标误差分布不符合预期中的Maxwell-Boltzmann分布,而是具有很大的峰度。

 

图4. AlphaFold预测置信度的误差分布范围


综上,Terwilliger等人提出的结果为使用AlphaFold预测模型的研究者们提出了一些可能需要注意的事项。然而,仅通过模型与结晶蛋白实验电子密度的拟合质量来评估准确性可能存在局限性,且预测模型和晶体结构可能都不能反映在接近生理条件下的蛋白质正确构象。


供稿 | 王彤彤

审稿 | 丛野

责编 | 囡囡

设计 / 排版 | 可洲 王婧曈




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群

原文链接

https://www.nature.com/articles/s41592-023-02087-4

参考文献

参考文献

1.Jumper, J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).


2.Baek, M. et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science 373, 871–876 (2021).


3.Akdel, M. et al. A structural biology community assessment of AlphaFold2 applications. Nat. Struct. Mol. Biol. 29, 1056–1067 (2022).


4.Hassabis, D. AlphaFold reveals the structure of the protein universe. DeepMind www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe (2022).



精彩回顾

精彩回顾



特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!



点击上方卡片

关注我们吧


THE END

我知道你“在看”

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存