查看原文
其他

Nat Commun|提升AlphaFold2蛋白-蛋白相互作用的预测能力

智药邦 2023-01-26

The following article is from GoDesign Author PKUMDL

预测蛋白间的相互作用对于理解蛋白质的功能具有很重要的意义,但是目前缺乏工具能够精准地预测蛋白质复合物结构。
传统的蛋白质复合物结构预测主要依赖分子对接。分子对接又主要分为刚性和柔性,刚性对接准确度较低,而柔性对接一旦考虑主链链结构的rearrangement,复杂度会很高。
CASP14后的蛋白质单链结构预测方法,应用到复合物上,刚好可以实现Fold-and-Dock的方法,一步到位地兼顾了速度与主链的变化。

于是,以AlphaFold2(AF2)这一神器为基础,Patrick Bryant等人提升了蛋白复合物预测的能力,该工作于近日发表在Nature Communication上。

方法与结果

作者探索了不同的AF2用法与不同的多序列比对(MSA)输入的结合,在216个复合物蛋白的方法开发集上进行了比较。预测复合物的方法是仿照RoseTTAFold文章,将两条链的index留出200个残基的gap。复合物预测的成功指标为DockQ≥ 0.23。作者发现网络推断的超参数recycleEnsembles对预测提升影响不大,而网络模型的选择与MSA的选择对结果影响很大。model_1的模型表型好于model_1_ptmAF2本身的MSA输入与paired MSA输入结合(表1 AF2+Paired MSA)的表现优于二者分开,其中paired MSA是通过两条链序列的物种信息对其进行成对拼接(如图1)。

表1. 216个复合物蛋白的方法开发集上各种方法的表现

图1 AF2 MSA与paired MSA的拼接方式

接着作者用网络模型参数model_1与recycle=10、Ensembles=1在1481个复合物测试集上进行了测试,以比较出更好的MSA输入方式,参与比较的还有RoseTTAFold以及其他蛋白质复合物对接的方法。结果显示基于AF2的预测方法整体明显好于其他方法。AF2+paired MSA的对接成功率达到了57.8%。作者又尝试加入block diagonalization MSA输入(搜索uniclust30并将两种序列比对对角拼接),可以将成功率略微提升到58.4%。

图2 测试集上各种方法的DockQ比较,box收紧处为中位数

表2 测试集上各种方法的表现

为了能够区分预测出模型的好坏,作者受到AF2的pLDDT指标启发,提出了pDockQ指标。通过比较以下不同指标结合能否辨别DockQ ≥0.23:(1)链间8 Å内的Cβ原子数(2)界面上所有8 Å内的Cβ原子数(3)界面残基平均的plddt (4)两条链中最低的平均plddt(5)整体平均的plddt,作者最终选择了
pDockQ = 界面上残基的平均plddt ✖ log(界面上所有8 Å内的Cβ原子数)
分类的AUC达到了0.95(见图3)。
由此,每次结构预测可以生成5个结构,通过pDockQ选出最好的。这样top rank的方法进一步将复合物结构预测的成功率提升到62.7%与61.7%(图2与表2的block +/AF2 + paired msa + top-Ranked)。虽然这一结果不如AF-multimer,但是考虑到AF-multimer可能使用了测试集的这些蛋白进行训练,因此无法直接比较。

图3 各指标分类DockQ ≥ 0.23的ROC曲线

接着,作者用AF2+paired MSA方法挑战了CASP14的杂源蛋白复合物,取得了4/6的成功率。其中失败的两例分别为A链重复出现但状态不同的三聚体、界面只有19个残基的二聚体。
无模板任务的预测成功率降到了50%。图4的a、b的PDBid分别为7EIV与7MEZ,预测得非常成功;而c 7EL1由于没有模板,E链(绿色)错误折叠并占据了DNA的位置;d 7LF7 M链(紫色)的作用预测错误。

图4 无模板预测的结果

最后,作者尝试用pDockQ去预测蛋白是否会相互作用。在Ecoli的3989个无互作蛋白与1481个互作蛋白的测试集上取得了0.87的AUC。为了让应用更贴近实际,作者又将1705个无互作哺乳动物蛋白加入了测试集,分类的AUC为0.87,并且真阳性为51%时假阳性仅为1%。

图5 各指标分类蛋白是否互作的ROC曲线

总结

作者优化了复合物结构预测中的MSA输入,大幅提升了AF2的复合物结构预测能力,并且发展的pDockQ指标可以很好地分类蛋白是否能相互作用。

参考文献

Bryant, P., Pozzati, G. & Elofsson, A. Improved prediction of protein-protein interactions using AlphaFold2. Nat Commun 13, 1265 (2022). 

--------- End ---------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明-企业-职位/岗位 

姓名-学校-职务/研究方向




- 历史文章推荐 -


蛋白质结构与AlphaFold

●Nature|确定蛋白质结构的短暂状态

AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资

●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基

●Curr Opin Struc Biol|蛋白质设计的深度生成建模

●Nat Methods|用AlphaFold以原子精度预测蛋白质结构

●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究

●Nat Methods特刊|2021年度方法:蛋白质结构预测

迈入世界领先梯队!天壤自研蛋白质结构预测平台 TRFold,单张 GPU 16 秒实现精准预测

对标AlphaFold2!深势科技发布Uni-Fold蛋白结构预测工具,并开源训练代码

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

Nature|人工智能助力蛋白质折叠预测

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存