简报:2022年12月13日,在土耳其安塔利亚举行的第15届全球蛋白质结构预测竞赛(CASP)落下帷幕。CASP15官方宣布在蛋白质复合物结构模型质量评估组中,来自浙江工业大学张贵军课题组开发的GuijunLab-RocketX服务器(算法名:DeepUMQA系列),在蛋白质复合物界面接触残基精度评估赛道中排名第一,在综合评价指标上,GuijunLab-RocketX大幅度超越同类方法。课题组首次参加CASP,并受邀在CASP15研讨会中作模型质量评估组(EMA)优胜者首个报告。
在全球持续蛋白质结构预测竞赛(CAMEO)中,截止发文日官网结果显示,张贵军课题组开发的DeepUMQA、DeepUMQA2以及ZJUT-GraphCPLMQA三个服务器,在CAMEO模型质量评估组赛道(CAMEO-QE)上,连续在最近“一年”、“六个月”、“三个月”、“一个月”、“一个周”评测周期中中均排名第一。背景
1994 年美国马里兰大学的科学家John Moult发起的CASP 是一个世界性的蛋白质结构预测评比活动,客观地反映了当前蛋白质结构预测领域发展的最新技术水平,被誉为全球蛋白质结构预测的奥林匹克竞赛。CASP每两年举行一次,迄今已经举办15 届。在2020年举办的CASP14上,AlphaFold2首次实现了人类在单结构域蛋白质和单链蛋白质预测领域无前例的巨大进步,有史以来,生物学家可以不用做实验,也有可能从氨基酸序列直接推测出蛋白质的三维结构。自从2020年CASP14以来,由于AlphaFold2的诞生,使得单个蛋白质和结构域预测模型的准确性大幅提高,许多预测模型可以与实验测定方法相媲美,已经彻底改变了传统结构生物学的研究范式。CASP组委会为了应对这一新的形势,在刚刚结束的CASP15竞赛中摒弃了模型精修、接触预测和单链蛋白质模型质量评估等一些旧的赛道,而是增加了更具挑战性的RNA结构预测、蛋白质配体复合物、以及蛋白质复合物模型质量评估等新赛道。同时,CASP15组委会还加强了与合作伙伴CAPRI和CAMEO的互动。最新一轮CASP15中,在5~9月间,来自全球约100多个研究小组提交了“单体单域(Regular)”、“复合物(Multimeric)”、“单体多域(Inter-domain)”、“RNA结构预测(RNA)”及“复合物模型质量评估(EMA)”等五个预测类别127个建模目标的53000多个模型,之后,CASP独立评估员将计算模型与后续得到实验结果进行比较,并且将评测结果在CASP15官网公布。蛋白质结构模型质量评估是蛋白质结构预测的重要组成部分。在生物体中,内质网就像细胞里的“包装厂”,它们把蛋白质“打包”准备好,以便这些蛋白质能够有序地分布于细胞内或细胞外,当出现“打包”错误时,“质检员”蛋白质(如ERdj5酶)能够识别出存在缺陷的蛋白质,并在这些蛋白质“上岗”之前将其降解掉。在计算机的世界,我们能否设计出类似的算法去评估蛋白质预测模型的精度?其答案是肯定的:自2006年以来,模型精度估计一直是CASP中一个重要的预测类别;其意义也是显然的:通过蛋白质结构模型评估算法,生物学家可以更可靠的评估蛋白质生物学功能,进而通过获取更为可靠的蛋白质靶标、蛋白质蛋白质互作模型,极大地加速基于结构的创新药物设计、疫苗设计的速度。随着AlphaFold2在蛋白质单链结构预测方面取得的显著进展,CASP15组委会将目光聚焦在更具挑战的复合物模型质量评估方面,尤其是复合物界面接触残基精度评估,其不仅仅可以识别复合物单体间相互作用,而且可以根据接触残基精度质量,通过结构精修技术,有望进一步推动复合物预测技术的发展。CASP15竞赛结果(EMA复合物界面接触残基精度评估赛道)
在本届CASP中,模型精度估计组别也将评估对象从单体结构精度评估转到了多聚体复合物和亚基间界面的精度估计。相比CASP14中多达73个方法参加了单链模型精度估计,本届CASP仅有20余个方法参与复合物模型精度估计,这也表明复合物模型质量评估更具挑战性。张贵军教授课题组参赛GuijunLab-RocketX服务器(算法:DeepUMQA系列)在复合物界面接触残基局部精度评估组别中脱颖而出。界面接触残基定义为与其它单体至少有一个残基接触(CB-CB distance≤8Å,甘氨酸为CA原子)。在CASP15 EMA组提供的39个任务上(其中有3个因计算资源问题未及时提交), GuijunLab-RocketX服务器有27个任务获得最佳排名(局部lDDT相关性指标),在其它5个任务上排名第二,且整体综合性能大幅领先于同类方法(如图1所示)。图1. 复合物界面接触残基精度估计排名前五的方法在每个任务上的性能(局部lDDT相关性指标)。曲线连接的点表示GuijunLab-RocketX(算法名:DeepUMQA系列)在每个任务上的性能。
相比于复合物整体折叠精度估计(SCORE)和整体界面精度估计(QSCORE)只需要提供单个分数,复合物界面接触残基精度估计则需要提供每个界面残基的精度,更具挑战性。除了能够精确估计复合物界面残基的精度,课题组参赛服务器GuijunLab-RocketX还能够精确预测复合物结构每一个残基的精度,进而可能为复合物结构模型的精修提供重要帮助。GuijunLab-RocketX对H1134(2种不同单体组成的复合物)所有模型的平均Pearson相关系数约为0.696,平均ASE约为0.890,平均AUC约为0.898。从图2可以看出,H1134预测任务的界面接触残基lDDT与真实值的相关性、ASE和AUC都很好,且大部分界面残基的预测精度与实际精度接近。图3给出了T1170的分析结果。T1170由6条相同的单链组成,从图3中可以发现预测的界面接触残差lDDT与实际值的相关性、ASE和AUC均较好。大部分界面残差的预测精度与实际精度接近。同样,预测的复合结构的每一个残基lDDT也非常接近真实值,而且从整体结构上很容易区分高质量和低质量区域。
图2. GuijunLab-RocketX(算法:DeepUMQA系列)在H1134上的案例分析。GuijunLab-RocketX不仅能够准确估计复合物界面残基精度,还能够精确预测复合物每个残基的精度,捕获残基精度变化的趋势。
图3. GuijunLab-RocketX(算法:DeepUMQA系列)在T1170任务上的性能分析。
此外,GuijunLab-Threader参赛服务器(算法:GPSSM)在复合物全局打分方面也表现突出。在H1134的任务上,与全局评估(SCORE)排名靠前的组相比,虽然预测相关性稍差,但预测得分更接近真实值;在T1170的任务上,预测的TM-score与真实的TM-score非常接近,而且两者具有很强的相关性。图4. 课题组GuijunLab-Threader服务器(算法:GPSSM)在H1134任务上整体分数(SCORE)预测情况
![]()
图5. 课题组GuijunLab-Threader服务器(算法:GPSSM)在T1170任务上整体分数(SCORE)预测情况
CAMEO竞赛结果(CAME-QE组)
由瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛(CAMEO),与CASP并列为蛋白质结构预测领域的最重要的两大权威竞赛。CAMEO竞赛的得分和排名每周更新,每个参赛组每周需对约20个由权威结构生物学家最新破解出的蛋白质结构进行预测。该竞赛自举办以来,吸引了来自世界范围内众多生物计算领域顶级实验室和企业参加。张贵军课题组开发的模型质量评估算法DeepUMQA系列、GraphCPLMQA在CAMEO模型质量评估组赛道上,连续“一年”、“六个月”、“三个月”、“一个月”、“一个周”均斩获周冠军、月冠军和年冠军。如图6~10。图6. 课题组模型质量评估服务器CAMEO-QE评测结果(最近1年)
![]()
图7. 课题组模型质量评估服务器CAMEO-QE评测结果(最近6月)
![]()
图8. 张贵军课题组模型质量评估服务器CAMEO-QE评测结果(最近3月)
![]()
图9. 课题组模型质量评估服务器CAMEO-QE评测结果(最近1月)
![]()
图10. 课题组模型质量评估服务器CAMEO-QE评测结果(最近1周)
致谢
感谢课题组CASP、CAMEO所有参赛人员,尤其感谢DeepUMQA系列算法(CASP参赛服务器:GuijunLab-RocketX)主要开发人员刘俊博士生;感谢GraphCPLMQA算法(CAMEO参赛服务器:ZJUT-GraphCPLMQA)主要开发人员刘栋博士生;感谢GPSSM算法(CASP参赛服务器:GuijunLab-Threader)主要开发人员何广星硕士生。感谢科技部2030-“新一代人工智能”重大项目(2021ZD0150100)、国家自然科学基金项目(62173304)的资助;感谢浙江工业大学信息学院、控制科学与工程学科在计算资源上给予的大力支持。参考文献:
[1] Jun Liu, Kailong Zhao, Guijun Zhang*, Improved
model quality assessment using sequence and structural information by enhanced
deep neural networks, Briefings in Bioinformatics, 2022; bbac507,
https://doi.org/10.1093/bib/bbac507
[2] Saisai Guo#, Jun Liu#, Xiaogen Zhou, Guijun Zhang*.
DeepUMQA: Ultrafast shape recognition-based protein model quality assessment
using deep learning. Bioinformatics. 38(7): 1895-1903, 2022.
张贵军教授课题组在蛋白质结构和功能预测、蛋白质模型质量评估、基于冷冻电镜数据的蛋白质结构建模、蛋白质与配体相互作用及空间姿态预测等方面进行了长期研究。近三年来,开发了蛋白质模型质量评估服务器DeepUMQA系列和GraphCPLMQA、从头蛋白质预测服务器RocketX、域划分工具DomBpred、多结构域组装方法SADA、远程同源模板识别及蛋白质折叠路径预测服务器PAthreader等服务器20余项。课题组开发的部分相关在线服务器:
http://zhanglab-bioinf.com/DeepUMQA/
http://zhanglab-bioinf.com/GraphCPLMQA/
http://zhanglab-bioinf.com/RocketX/
http://zhanglab-bioinf.com/DomBpred/
http://zhanglab-bioinf.com/SADA/
http://zhanglab-bioinf.com/PAthreader/