查看原文
其他

Bioinformatics | 张贵军课题组:蛋白质结构模型质量评估方法DeepUMQA

iTASSER iTASSER 2022-12-18

蛋白质是生命的基础,几乎存在于所有的生物过程中,解析蛋白质结构将有助于理解其功能和作用机制。测序技术的发展,使得快速且廉价地确定蛋白质的一级序列成为可能,目前在蛋白质序列数据库(Uniprot)中已经存在了2亿多条蛋白质序列数据。然而,通过实验测定蛋白质的三维结构仍然困难且昂贵。经过50年来结构生物学家坚持不懈的努力,截至20211110日,蛋白质数据库(PDB)中也仅仅发布了183,954个蛋白质实验测定三维结构。其中,161,086个来自X射线晶体学,13,448个来自核磁共振NMR8,971个来自低温电子显微镜cryo-EM,剩下的837个来自固体核磁共振、中子和电子晶体学等其它方法。因此,如何直接从氨基酸序列出发,预测精确的蛋白质三维结构一直是计算生物学家的梦想。


202011DeepMind开发的AlphaFold二代程序在CASP14竞赛中,有三分之二的目标蛋白质预测结构达到了实验精度,甚至是对于预测困难(无足够同源模板或同源序列)的目标蛋白,也有三分之一的预测结构达到了实验精度。这也表明,深度学习算法可以根据蛋白质的线性序列预测蛋白质的三维结构。随后,DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作,在蛋白质组尺度上进行结构预测,并发布了AlphaFold蛋白质结构数据库资源AlphaFold DB,最初版本包含了UniProt中的365,000个条目的预测结构,覆盖了大部分人类蛋白质组和20个其他模式生物的蛋白质组;目前,已经包含了800,000个预测结构,覆盖了SwissProt数据库中的大多数条目;预计,AlphaFold DB2022年将增长到1亿个预测结构。显然,面临的一个无法回避的事实就是,有效的模型质量评估方法将会成为蛋白质预测结构(包括AlphaFold DB)实用性和推广性的关键;此外,模型质量评估方法对蛋白质结构精调和模型识别等方面也具有重要意义


一般来说,蛋白质模型评估方法可分为两大类。第一种是单模型质量评估方法,以单个结构模型为输入,提取能够反映模型结构信息的特征,并使用机器学习方法来推断模型的质量。第二种方法是共识方法,通过使用候选模型池中其他模型的信息来评估蛋白质模型。尽管共识方法在预测的质量和真实的质量之间实现了高相关性,但它们的性能很大程度上受到输入模型池的大小和多样性的影响。当模型缺乏一致性或相似性时,共识方法很难选择最优模型。而单模型质量评估方法不受模型池的限制,可以独立对模型进行评分和选择。近年来,在蛋白质结构预测技术的关键评价中,单一模型的质量评估方法引起了越来越多的关注。在CASP14中,单模型质量评估方法占所有模型质量评价方法的70%以上。


浙江工业大学张贵军课题组于202223日在生物信息学领域期刊《Bioinformatics》上在线发表了题为《DeepUMQA: Ultrafast Shape Recognition-based Protein Model Quality Assessment using Deep Learning》的研究论文(图1),提出了一种基于超快形状识别的蛋白模型质量评估的深度学习方法DeepUMQACASP13CASP14测试数据集及CAMEO-QE持续盲测结果表明,DeepUMQA的性能在目前先进的单模型质量评估方法中处于领先水平。该论文通讯作者为浙江工业大学信息工程学院张贵军教授,浙江工业大学信息工程学院郭赛赛硕士生和刘俊博士生为共同第一作者。


图1. 《Bioinformatics》论文页面


1. 研究动机

蛋白质模型质量评估是蛋白质结构预测的重要组成部分。在最近的研究中,体素化特征被用来表征残差的局部结构信息,但它可能不足以描述残基级的拓扑信息。因此,结合深度学习方法设计能够进一步反映蛋白质残基级拓扑结构的特征对于提高模型质量评估的性能至关重要。

 

2. 研究路线

提出了一种基于超快速形状识别(USR)的深度学习方法DeepUMQA,用于残基水平的模型质量评估。如图2所示,首先从PISCES服务器构建了一个包含7,615条序列的非冗余蛋白质数据集,然后用不同的折叠方法及native扰动来生成不同质量分布的decoys(每个目标蛋白包含约150decoys)。在深度残差网络的框架下,通过计算一组残基距离集合的一阶矩,引入残基级USR特征来描述残基与整体结构之间的拓扑关系,然后结合一维特征、二维特征和体素化特征来评估模型的质量。

 

2. 算法流程图

 

3中给出了DeepUMQA的模型质量评估的实例(PDB ID: T1046s2)。图3(A)T1046s2的真实结构;图3(B)T1046s2的所有测试模型的预测lDDT与实际lDDT的比较;图3(C)T1046s2的所有测试模型的ROC曲线;图3(D)为随机选取的三个不同质量模型的模型评估结果。第一行显示了三个模型的结构及其对应的预测和实际模型的全局质量,第二行显示了每个残基的实际lDDT(灰色)和预测lDDT(不同颜色)的比较。尽管预测的lDDT值与实际的lDDT值存在差异,但可以发现DeepUMQA能够正确捕捉不同质量模型的残基lDDT值的变化趋势,这对于修正模型的错误建模区域和进一步的模型细化具有重要意义

 

3. DeepUMQA预测实例

 

3. 实验结果

DeepUMQA在由51CASP1344CASP14目标蛋白组成的14,063个结构模型上进行了测试,并与其他单模型质量评估方法进行了比较,包括ProQ2 ProQ3ProQ3DVoroMQAOrnateProteinGCNModFOLD7ModFOLD8QDeepResNetQAGraphQADeepAccNet。表1和表2的结果显示,与其他先进的方法相比,无论在全局质量评估还是局部质量评估中,DeepUMQA几乎在所有指标上都是表现最好的。同时,作者通过计算各个指标的Z-score之和来对方法的综合性能进行排名,图4显示,无论是在Global QA 还是Local QADeepUMQA的综合性能显著优于其他比对方法。

 

1. DeepUMQA与其他单模型方法在CASP13数据集上的性能比较

 

2. DeepUMQA与其他单模型方法在CASP14数据集上的性能比较

 

4. 所有方法在全局和局部精度评估的排名。(A)(B)分别为在CASP13CASP14数据集上所有方法的Global QA指标的Z-scores之和;(D)(E)分别为在CASP13CASP14数据集上所有方法的Local QA指标的Z-scores之和。


DeepUMQA参加了CAMEO-QE(https://www.cameo3d.org/quality-estimation/)的持续盲测(2021 - 11 - 262021-12-18),并与其他12个公开服务器(包括QMEANDisCo3ModFOLD8ProQ3and VoroMQA_sw5VoroMQA_v2QMEAN3ProQ2ModFOLD7ProQ3D_LDDTProQ3DModFOLD6)的性能进行了比较(表3)。DeepUMQA在所有指标上的性能依然处于领先水平,尤其在图5的综合性能排名中,DeepUMQA在全局评估中具有最好的综合性能,并且在局部评估中,DeepUMQA的综合性能仅次于QMEANDisCo3


3. DeepUMQA 与其他单模型方法在 1-month CAMEO 盲测中的比较

2021-11-26 2021-12-18


5. 所有方法在全局和局部精度评估的排名。(C)为在CASP13CASP14数据集上所有方法的Global QA指标的Z-scores之和;(F)分别为在CASP13CASP14数据集上所有方法的Local QA指标的Z-scores之和。


到目前为止,DeepUMQA已经参与了10周的CAMEO-QE持续盲测,性能均处于领先水平。最近一个月的CAMEO-QE盲测结果(2022-01-072022-01-29)如图6所示。DeepUMQA每周的排名情况如图7所示。


6. 最近一个月的CAMEO-QE盲测结果(2022-01-072022-01-29)


7. DeepUMQACAMEO-QE持续盲测(10)结果


同时,在上述CASP13/14以及CAMEO-QE盲测数据集上的组件分析结果显示(表4-6),具有USR特征的模型质量评估预测器在评估蛋白质结构的全局得分或局部得分方面具有更好的性能。值得注意的是,同时使用体素化和USR特征能够获得最佳模型质量评估性能,这说明USR和体素化特征可以相互补充,综合反映残基的拓扑和局部结构信息


4. DeepUMQACASP13数据集上的组件分析实验


5. DeepUMQACASP14数据集上的组件分析实验


6. DeepUMQACAMEO盲测数据集上的组件分析实验


4. 结论

DeepUMQA是一种基于超快形状识别(USR)的单模型质量评估的深度学习方法。通过从结构模型中提取的残基级USR和体素化特征、氨基酸序列属性和二级结构、Rosetta能量项以及距离和方向来描述模型信息。将这些特征信息输入到深度残差神经网络,预测蛋白质结构模型的质量。在CASP13CASP14测试数据集上的性能优于目前最先进的单模质量评估方法。此外,DeepUMQACAMEO-QE持续盲测中的总体性能与目前最先进的几种单模型质量评估服务器性能相当。

 

DeepUMQA论文链接:

https://doi.org/10.1093/bioinformatics/btac056


DeepUMQA服务器:

http://zhanglab-bioinf.com/DeepUMQA/

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存