2021年10 月4 日,DeepMind 团队推出 AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对结合界面的预测,相关文章发表在 bioRxiv。
虽然AlphaFold2(AF2)实现了对结构良好的蛋白质单体结构的高精度预测,但蛋白质复合物的预测仍然是一个挑战。2021年10 月4 日,DeepMind 团队推出了AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对结合界面的预测。在此之前,Usman Ghani等人提出了AlphaFold2 + ClusPro模型来预测蛋白质复合物的结构;另外,有些科学家在推特上建议用linker将复合物链接起来,看作是一条链然后输入 AF,也能得到不错的结果。DeepMind 团队指出了这些方法都是基于AF2的单链训练,与直接使用AlphaFold对输入调整的单链进行预测相比,AlphaFold-Multitimer预测多聚体界面的准确性明显提高,同时保持了较高的链内准确性。DeepMind 团队对 4,433 个蛋白质复合物进行预测,分别考察了 AlphaFold-Multimer 在异源多聚体和同源多聚体接触界面的预测准确率,结果分别达到 67% 和 69%,高度精确预测的例数分别占到 23% 和 34% 的比例。AlphaFold-Multimer 对蛋白复合物进行结构预测,真实结构标为深蓝色,多聚物其他链以不同颜色区分。
AlphaFold-Multimer 在保留了AlphaFold 2 算法一些重要特性的基础上,做了部分调整以满足复合物结合界面结构的特殊需要。相比单链结构的预测,复合物中氨基酸总数大大增加,所需的计算机内存和算力更是迅速增加。为了改善这种情况,DeepMind 团队设计了一种裁剪程序,对蛋白质进行裁剪,这些裁剪区域是连续的残基块,最多可达384个残基。为了更好的预测结合界面的结构,裁剪区域需要在给定的复合物中包含多个链,力求扩大链覆盖度、截断片段多样性。同时,需要兼顾结合面与非接合面的截取。AlphaFold 使用帧对齐点误差(FAPE)损失,在每个残差的局部参考帧中计算真实值和预测原子之间的距离。AlphaFold 的损失固定在 10Å。为链内氨基酸对原子间设置截断距离为10Å,链间不设置固定截断距离值。这为预测错误的界面提供了更好的梯度信号。此外,他们还添加了额外的位置编码来表示给定的一对氨基酸是否对应于不同的链,以及它们是否属于不同的同源链或异源链。他们还对模型和实现做了各种小的改变,以便在有限的内存下推断更大的蛋白质。在计算损失和对同源复合物打分时,他们考虑排列对称性。当一个给定序列的蛋白质在复合体中多次出现时,预测的坐标和真实坐标之间的映射是任意的,因此模型不能假定预测链的顺序与真实相同。为了解释这一点,需要挑选出最符合真实值的预测同源链的最佳排列。对所有排列进行优化的复杂性会组合增长,因此他们采用了一个简单的启发式算法,尽可能地尝试找到一个好的排列。AlphaFold模型用 predicted TM-score (pTM)估计内在模型精度。AlphaFold-Multimer 采取类似方案,但是更专注于界面预测的准确性。因此建立了不同链残基之间相互作用的评分系统——Inerface pTM(ipTM)。实际情况是,他们用 pTM 和 ipTM 的加权组合作为模型置信度度量,以便在模型排名中考虑一些链内置信度:model confidence = 0.8 · ipTM + 0.2 · pTM在对 AlphaFold-Multimer 模型预测准确度评估中发现,无论是同源复合物还是异源复合物,AlphaFold-Multimer 对复合物接触面的对接预测评分均有提升;值得注意的是,无论是错误率降低,还是不同等级的预测程度,在对异源复合物的预测表现更佳。在 Recent-PDB-Multimers 数据集上的性能Deepmind 团队通过修改 AlphaFold 体系结构来处理多聚体并对寡聚体数据进行显式训练,能够为很大一部分来自 PDB 的复合物提供高精度预测,超过了单纯基于 AlphaFold 改进的模型的准确性。但是,他们还没有实现多聚体模板或多聚体预测的自蒸馏,因此未来可能还有很大的提高精度的空间。另外,同源界面的性能通常高于异源界面;这大概是因为在同源情况下,MSA将容易编码关于复合体界面的进化信息,而在异源界面的情况下,这一信息更有限,更难以访问。还有一个限制是 AlphaFold-Multimer 通常不能预测抗体的结合。他们还表明,模型提供的置信度指标与真实的准确性密切相关,这对结构预测模型的可用性至关重要。DeepMind 团队在 AlphaFold 网络结构基础上为处理多聚体结合界面结构预测优化了AlphaFold-Multimer 算法,在尚未引入多聚物模板的条件下已经展示出对蛋白复合物结构的预测,且其精确度有极大提升的空间。尽管目前 AlphaFold-Multimer 还不能对抗原-抗体复合物结构进行准确预测,AlphaFold-Multimer 依然有望在AlphaFold 2 的基础上进一步为基于结构的药物研发提供广阔的思路,使得基于阻断蛋白互作、蛋白聚合等机制的小分子、多肽、小蛋白药物更加易于实现。DeepMind 团队希望通过对蛋白质复合物的准确预测,帮助生物学家进一步推动结构生物信息学的发展。参考资料
Evans, R.; O’Neill, M.; Pritzel, A.; Antropova, N.; Senior, A.; Green, T.; Žídek, A.; Bates, R.; Blackwell, S.; Yim, J.; Ronneberger, O.; Bodenstein, S.; Zielinski, M.; Bridgland, A.; Potapenko, A.; Cowie, A.; Tunyasuvunakool, K.; Jain, R.; Clancy, E.; Kohli, P.; Jumper, J.; Hassabis, D. Protein Complex Prediction with AlphaFold-Multimer. bioRxiv 2021. https://doi.org/10.1101/2021.10.04.463034.https://github.com/deepmind/alphafold/releases/tag/v2.1.0https://zhuanlan.zhihu.com/p/418872501https://www.chainnews.com/articles/088391694715.htm----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
历史文章推荐
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
JCIM|基于图卷积神经网络的逆合成反应预测和可解释性可视化
Nat Biotechnol|深度学习快速识别有效的DDR1激酶抑制剂
CHEM SCI|在不对称催化中,用AI优化溶剂的选择
JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用
BIB|Mol2Context-vec:从情境感知中学习分子表征用于药物发现
BRIEF BIOINFORM|基于BAN的策略,来改善基于SMILES字符串的分子表征学习
JCIM|结合AI与Docking的基于结构的分子从头生成模型
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图