查看原文
其他

PNAS 速递:蛋白质结构预测中 transformer 的变换能力

集智编辑部 集智俱乐部
2024-11-16


关键词:Transformer神经网络,蛋白质结构预测,结构生物学



论文题目:The transformative power of transformers in protein structure prediction

期刊名称:PNAS

斑图地址:https://pattern.swarma.org/paper/4959892e-2ffe-11ee-a742-0242ac17000d

论文地址:https://www.pnas.org/doi/10.1073/pnas.2303499120


Transformer神经网络以前所未有的高准确性预测蛋白质结构,彻底改变了结构生物学。这方面的标志性事件是2020年,DeepMind的AlphaFold2方法在从氨基酸序列预测蛋白质的三维结构方面取得了重大科学突破。AlphaFold2框架的核心是由注意力机制驱动的Transformer神经网络组成。Transformer架构之所以非常强大,是因为它能够模拟输入序列中超出其顺序邻域的长程关系。在AlphaFold成功的同时,RoseTTAFold、OmegaFold等框架也在快速发展。自AlphaFold2在2020年取得突破以来,学界在预测蛋白质结构方面取得了多大的进展?尤其是Transformer架构在其中起到多大作用?这些成为了新的问题。


在结构预测界,广泛认可需要进行盲目结构预测测试,以客观评估新的蛋白质结构预测方法的性能。最近结束的CASP15会议为评估这些新兴方法提供了一个优秀的测试平台。新发表于PNAS的一篇研究,对69个CASP15单链蛋白质目标的预测建模性能进行了基准测试。首先,研究者下载了所有方法的开源软件实现,并使用默认参数设置的建模流程进行了完全自动化的模式,没有任何手动干预。其次,研究者通过直接将全长预测与实验坐标进行比较,而不是将其分割成域,来评估单链预测建模的准确性。对多域蛋白质进行了额外的领域级别分析,以检查各个领域及其结构的相对准确性。第三,研究者使用的是在CASP15之前发布的静态数据库、库和模型权重,没有中间更新。


该论文展示了各种方法的主干准确性以及它们之间使用全局距离测试(GDT-TS)指标的对比结果,如图1所示。其中AlphaFold2以最高的平均GDT-TS得分73.06取得了最佳表现,明显优于其他所有方法。ESMFold在主干定位方面表现出第二好的性能,平均GDT-TS得分为61.62。有趣的是,基于PLM(protein language models,蛋白质语言模型)的ESMFold在超过80%的情况下优于基于MSA(multiple sequence alignment,多重序列比对)的RoseTTAFold,并获得了更高的平均GDT-TS得分。相比之下,AlphaFold2在近80%的情况下优于ESMFold。在这两种基于PLM的方法中,ESMFold在主干定位方面的整体准确性优于OmegaFold。


尽管AlphaFold2以基于Transformer的神经网络在蛋白质结构预测方面取得了显著进展,但该研究揭示了两个持续存在的问题。首先,对于具有复杂拓扑结构的大型多域蛋白质的准确预测仍然具有挑战性。对于其中一些目标,没有一种方法能够准确预测出适当的域定向和整体拓扑结构。通过模拟蛋白质间相互作用的原则来调整Transformer模型的架构,可能对于大型多域蛋白质是必要的。其次,目前所有方法在侧链定位的准确性上仍然较低。结构预测算法将受益于准确的侧链排列,这可能要通过在神经架构中加入侧链优化来实现。


作者提出,结合MSA(multiple sequence alignment,多重序列比对)和PLM(protein language models,蛋白质语言模型)两者的优势,可能是进一步推进结构生物学中蛋白质预测模型的途径。


图1 对CASP15数据集上最先进的蛋白质结构预测方法进行性能基准测试。(A)GDT-TS得分比较。虚线表示平均性能,左上角的百分比表示y轴上的方法优于x轴上的方法,右下角则相反。(B)Grishin图分析。(C)域级GDT-TS得分与域长度的关系,插图显示长度小于750个残基的域。线表示数据的线性拟合。(D)三个代表性的CASP15目标,预测结果(彩虹色)与实验结构(灰色)的叠加。粗体数字表示最佳性能。(E)整体拓扑预测性能,以%TM-score >0.5为指标。(F)基于MSA的方法的lDDT得分与以Neff的对数为单位的MSA深度的关系。线表示数据的线性拟合。(G)lDDT得分与蛋白质目标长度的关系,插图显示长度小于750个残基的目标。线表示数据的线性拟合。(H)Ramachandran图分析。颜色代码从蓝色到红色表示低密度到高密度。(I) MolProbity得分分布。(J) GDC-SC得分与A类似的比较。



编译|刘培源

大模型与生物医学:

AI + Science第二季读书会启动



详情请见:

大模型与生物医学:AI + Science第二季读书会启动



推荐阅读

1. Science 前沿:空间组学为新一代科学发现赋能
2. Science前沿:大语言模型涌现演化信息,加速蛋白质结构预测
3. Science 速递:大语言模型对蛋白质结构进行演化尺度预测
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5. 加入集智学园VIP,获得20周年“涌现”学术年会入场券!
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会
继续滑动看下一个
集智俱乐部
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存