Nat Commun｜使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测

Original 智药邦智药邦 2023-01-26

2022年3月10日，斯德哥尔摩大学生物化学和生物物理系的Arne Elofsson和Patrick Bryant在Nat Commun杂志发表文章，介绍了AlphaFold2如何预测多种异质蛋白复合物的结构，尽管它被训练为预测单个蛋白链的结构。使用优化的MSA与AlphaFold2可以准确地预测异源二聚体复合物的结构。

摘要

预测相互作用的蛋白质链的结构是理解蛋白质功能的一个基本步骤。不幸的是，没有一种计算方法能够产生准确的蛋白质复合物的结构。AlphaFold2在模拟单链蛋白质结构方面显示出前所未有的准确度。在这里，我们将AlphaFold2应用于预测异源二聚体蛋白的复合物。我们发现，AlphaFold2与优化的多序列比对(MSA)一起，为63%的二聚体生成了具有可接受质量 (DockQ≥0.23) 的模型。根据预测的界面，我们创建了一个简单的函数来预测DockQ得分，该评分函数可以区分可接受的和不正确的模型，以及有相互作用的和无相互作用的蛋白质，具有最先进的准确性。我们发现，使用预测的DockQ分数，我们可以在1%的FPR下识别51%的所有相互作用对。

简介

蛋白质与蛋白质的相互作用是生物过程中的核心纽带。大多数的相互作用是由相互作用的蛋白质的三维排列和动态控制的。这种相互作用从永久性到暂时性不等。一些相互作用是一对蛋白质之间的，而一些相互作用是蛋白质与许多伙伴的相互作用。这种复杂的相互作用对实验和计算方法都是一种挑战。

通常，对蛋白质-蛋白质相互作用的研究可以分为两类，即识别什么蛋白质相互作用和识别它们如何相互作用。有些方法已被应用于这两个问题。蛋白质对接方法研究蛋白质如何相互作用，方法可分为两类 (将蛋白质视为rigid bodies)：基于对接空间的穷举搜索和基于结构模板的比对 (包括序列和结构)。穷举法在蛋白质结构或单体模型之间产生所有可能的构型，并通过评分函数选择正确的对接，而基于模板的对接只需要合适的模板来识别几个可能的候选者。然而，在蛋白质对接中经常要考虑灵活性，顾及相互作用引起的结构重排。因此，刚性对接所能达到的精度受灵活性限制，但是灵活的对接对于大规模应用来说传统上太慢了。一个可能的折衷办法是半灵活的对接方法，它在计算上更加可行，并且在对接过程中可以在一定程度上考虑灵活性。

无论采取何种策略，对接仍然是一个具有挑战性的问题。

最近，在CASP14实验中，AlphaFold2 (AF2) 在单链蛋白的结构预测中达到了前所未有的性能水平。由于采用了先进的深度学习模型，有效地利用了进化和结构信息，该方法的表现一直优于所有竞争对手，达到了90的平均GDT_TS分数。最近，RoseTTAFold被开发出来，试图实现类似的原则。此后，出现了其他端到端的结构预测工具，使用不同的原则，如DMPFold2中的快速多序列比对 (MSA) 处理和语言模型表示。

作为其他对接方法的一种替代方法，可以利用协同进化 (co-evolution) 来预测两个蛋白链之间的相互作用。最初，直接耦合分析 (DCA) 被用来预测细菌双组分信号蛋白的相互作用。后来，这些方法利用机器学习进行了改进。

在折叠和对接方法中，两个蛋白质同时被折叠和对接。我们最近使用另一种专注于蛋白质折叠的距离预测方法 (trRosetta) 开发了一个折叠和对接管道。在这个管道中，使用trRosetta的距离和角度约束，预测了异质二聚体蛋白复合物的两条链之间的相互作用及其结构。这项研究表明，一个专注于链内结构特征提取的管道也可以成功地扩展到链间特征的提取。但是，只有7%的被测蛋白质成功折叠和对接。

在该研究中，我们发现生成最佳MSA对于获得准确的折叠和对接解决方案至关重要。我们还发现，这个过程需要一个最佳的MSA深度来优化链间信息提取。太深的MSA可能包含假阳性 (即相互作用不同的蛋白对)，导致噪音掩盖了所寻求的共同进化信号，而太浅的排列则不能提供足够的共同进化信号。

在这项工作中，我们在两个不同的数据集上系统地应用AF2管道，以同时折叠和对接蛋白-蛋白对。

我们结合不同的输入MSA，来探索使用AF2管道的对接成功率，以研究输出模型质量与这些输入之间的关系。

我们还发现，通过对同一蛋白质-蛋白质相互作用的多个模型进行预测的DockQ评分 (predicted DockQ, pDockQ)，我们可以很有把握地将可接受的模型 (DockQ≥0.23) 与不正确的模型区分开来。对于细菌蛋白对、具有由螺旋或折叠组成的大的相互作用区域的蛋白对以及许多同源序列，建模的成功率更高。我们还测试了区分相互作用的蛋白质和非相互作用的蛋白质的可能性，并发现，使用pDockQ，我们可以以一致的准确性将真正相互作用的蛋白质和非相互作用的蛋白质分开。我们发现，使用AF2成功对接的结果优于其他对接方法。AF2明显优于最近的最先进的方法，与最近开发的AF-multimer的表现相当接近 (63% vs 72%)，它是使用与这里的测试集相同的数据开发的，因此很难直接比较。

结果和讨论

识别最佳的AlphaFold2模型

成功率(SR)，即可接受的模型 (DockQ>0.23) 的百分比，被用来衡量使用不同MSA的开发集 (216种蛋白质) 的AF2的性能。AF2 MSA的最佳性能为33.3%，AF2+Paired MSA为39.4% (表1)。由此可见，结合Paired MSA和AF2 MSA比单独使用MSA要好。

表1 不同建模设置的成功率(SR)

接下来，我们比较了默认的AF2模型 (model_1) 和微调版本的 (model_1_ptm) 。令人惊讶的是，原始的AF2 model_1在大多数情况下优于AF2 model_1_ptm (表1)。此外，在所有MSA和AF2模型中，10 recycles-1 ensemble和3 recycles-8 ensembles之间的差异很小。因此，输入信息和AF2模型似乎对结果的影响最大。

在测试集上的性能

AF2的最佳模型和配置 (m1-10-1) 被用于测试集的进一步研究。使用这种建模策略的最佳结果是，AF2+ Paired MSA的SR为57.8% (1481个复合物中856个正确建模)，而单独使用AF2 MSA则为45.0% (图1，表2)。使用block diagonalization +Paired MSA的结果几乎相同 (SR=58.4%，中位数=0.363)。

此外，用随机种子运行五个初始化，并使用预测的DockQ得分 (pDockQ，图2c) 对模型进行排名，AF2+ Paired、block diagonalization + Paired MSA的SR分别增加到61.7%和62.7% (模型变化和排名，图2)。使用AF2和Paired MSA的组合性能提高，表明AF2从更大的MSA和Paired MSA中都有收获，尽管它常常可以用更少的信息来管理。

图1：测试集的DockQ得分 (除了RF，n=1455，其他都是n=1481)

测试集上不同建模策略的DockQ分数分布图。Boxes包含了数据的四分位数，水平线标志着中位数，上、下线分别表示每个分布的最大值和最小值。所有AF2模型都以相同的神经网络配置 (m1-10-1) 运行。这里不显示离群点。AF2，指的是使用默认的AF2 MSA运行AF2，"Paired"指的是使用物种信息配对的MSA，"Block"指的是使用块对角化 (block diagonalization) MSA。RF是RoseTTAFold。

最引人注目的是，AF2以很大的优势超过了所有其他测试的对接方法 (图1，表2)。RoseTTAFold仅在测试集的14个蛋白质对上优于AF2，而GRAMM和TMdock interface分别在188和225个配对上优于AF2。在CASP14-CAPRI实验中表现最好的方法是MdockPP，但它只获得了24.2%的SR。GRAMM、TMdock和MdockPP在这个水平的原因可能是由于使用了蛋白质的结合形式，导致了非常高的形状互补性，因此以一种方式提供了"答案"。

表2 使用不同方法和模型配置的测试集的成功率和DockQ的中位数分数。

不同对接方法在测试集上的成功率和DockQ分数中位数的结果。除了RoseTTAfold (n = 1455) 和AF-multimer (n = 1458)，所有方法的复合物数量为n = 1481。

最近开发的AF-multimer的性能最好 (SR=72.2%，中位数=0.560，表2) (可参见文章BioRxiv｜利用AlphaFold-Multitimer进行蛋白质复合物预测)。这个方法是用与测试集相同的数据进行训练的，这使得直接比较很困难。不管怎么说，我们确实认为，使用AF-multimer，性能可能会比我们管道的结果有所提高，但有可能差异小于观察到的9%。

区分可接受的和不正确的模型

不仅要获得改进的预测，而且要能够区分可接受的和不可接受的预测。我们使用接收操作特征 (receiver operating characteristic , ROC) 曲线来衡量几个指标所提供的正确 (DockQ≥0.23) 和不正确的模型之间的区别。

我们在测试集上考察了不同的标准，包括 (i) 界面中独特的相互作用的残基 (来自不同链的Cβ原子相互之间在8埃之内) 的数量，(ii) 界面中Cβ原子之间相互作用的总数，(iii) 界面的平均plDDT，(iv) 每个单链平均的最低plDDT，和 (v) 整个蛋白质异构体的平均plDDT (图2a)。

结果是三个标准的曲线下面积 (AUC) 测量值非常相似。Cβs之间的相互作用总数和界面上的残基数可以区分正确/不正确的模型，AUC分别为0.92和0.91，而平均界面plDDT的AUC为0.88。然而，pLDDT在较低的FPR下会产生较高的TPR；因此，我们将plDDT与界面接触的对数相乘，得出的AUC为0.95。

图2：模型质量指标和多个模型的排名。

a 接收操作特征 (receiver operating characteristic , ROC) 曲线作为测试数据集的不同指标的函数 (n=1481，第一次运行)。不同链彼此相距8 Å以内的Cβs被用来定义界面。IF_plDDT是界面残基的平均plDDT，每条链的min plDDT是两条链的最小平均plDDT，平均plDDT是整个复合物的平均值，IF_contacts和IF_residues分别是界面残基和接触的数量。pDockQ是对组合度量IF_plDDT⋅log(IF_contacts)的正态拟合，用来预测DockQ作为目标分数，见c。

b 平均界面plDDT与测试集上DockQ分数着色的界面接触的对数 (n = 1481)。

c 使用综合指标IF_plDDT⋅log(IF_contacts)，我们对测试集(n = 1481)上的DockQ得分拟合出一条正弦曲线，从而能够以连续的方式预测DockQ得分(pDockQ)。

d 不同的初始化对测试数据集 (n = 1481) 上的DockQ得分的建模结果的影响。最大和最小的分数与使用pDockQ分数的AF2 +成对MSA的排名靠前的模型作对比，m1-10-1。

有趣的是，整个复合物的平均plDDT只产生了0.66的AUC，这表明复合物中的两个单链常常被预测得非常好，而它们的相对方向可能仍然不正确。

图2b显示，增加界面接触的数量和平均界面plDDT会使测试集的DockQ得分更高。因此，利用plDDT与界面接触的对数的组合，我们对DockQ得分拟合了一个简单的sigmoidal函数 (图2c)。这使得DockQ分数 (pDockQ) 的预测以连续的方式进行，测试集的总体平均误差为0.11。使用pDockQ作为分离器的AUC与plDDT与界面接触的对数的组合相同，为0.95 (图2a)。

测试集的模型变化和排名

使用最佳策略 (m1-10-1与AF2+paired MSAs) ，以不同的初始化 (随机种子) 生成五个模型。所有五个运行的平均SR (57.2%±0.0%) 是相似的。然而，在比较一个目标的最佳和最差模型时，单个模型的平均偏差为DockQ=0.08 (图2d)，也就是说，单个配对的成功存在一定的随机性。如果使用所有模型的最大DockQ得分，SR将是62.9%。虽然这是无法实现的，但使用pDockQ得分对模型进行排名的结果是61.7%。使用同一指标对排名的测试集的AUC为0.93，这意味着在错误率为1%时，所有模型中有31%可以接受，在错误率为10%时有54%可以接受。

细菌复合物的预测更准确

在测试集中，大约60%的复合物可以被正确建模。我们试图通过分析测试集的不同子集来确定区分成功和不成功案例的原因。首先，我们按类群划分蛋白质，然后按界面特征划分，最后检查排列组合。

每个类群的SR是：真核生物(Eukarya) 61%，细菌 (Bacteria) 73.7%，古细菌 (Archaea) 84.5%，病毒 (Virus) 60% (补充图1b)。此外，酵母菌(Saccharomyces cerevisiae) 的SRs比智人 (Homo sapiens) 的好 (66%对58%，图3d)。原核生物的表现较好，这与以前关于原核生物与真核生物相比进化信息的可用性的观察是一致的。与H.sapiens相比，S.cerevisiae的性能更高，这表明同一类群中的高阶和低阶生物之间有类似的关系。

图3：测试数据集 (n = 1481) 四分位数的DockQ分布。

a 三组界面的DockQ得分分布，其中Helix、Sheet和Coil二级结构占多数。b 从对接模型界面的接触次数分布得出的四分位数的DockQ得分分布。

接下来，我们检查界面，对本地界面的不同二级结构含量进行了研究 (图3a)。最高的SR主要来自于螺旋界面 (62%)，其次是主要包含折叠的界面 (59%)。环状界面的SR为53%，大大低于其他界面，这表明具有更灵活结构的界面更难预测。我们将数据集按界面大小划分，发现具有较大界面的配对更容易预测，因为最小和最大的四分位数之间的SR从47%增加到74% (图3b)。

我们继续研究MSA的特点。首先，我们分析了配对和AF2 MSA中非冗余序列 (Neff) 数量的影响。很明显，正确建模的序列的比例随着Neff分数的增加而增加 (图3c)。另外，Paired MSA Neff (图3c) 比AF2 MSA的Neff (补充图2a) 对结果的影响更大。其次，分析了Paired MSA中的MSA界面信号，通过使用DCA的正确界面接触的比例来衡量。具有较强界面信号的MSA显示出较高的SR，即使成对的MSA与AF2 MSA结合使用 (补充图3)。这表明，MSA共同进化信号 (正确识别正交蛋白序列) 对结果有很大影响。

CASP14和没有模板的新蛋白

来自CASP14异构目标的链和来自PDB复合物的链，没有模板，使用所提出的AF2管道 (默认AF2 +paired MSA，10次循环，m1-10-1和5次不同的种子运行) 成对折叠。

对于CASP14链，6对中的4对显示了大于0.23的DockQ得分 (SR为67%)。在这种情况下没有必要进行排名，因为所有为同一链对产生的对接模型都非常相似 (每组DockQ分数之间的平均标准偏差为0.01)。一个有趣的不成功的对接是从PDB ID 6TMM (补充图4) 的复合物中获得的建模链，已知它们形成一个异源四聚体。在这个结构中，每个链A与它的伙伴链B在两个不同的部位接触。两个对接配置 (6TMM_A-B和6TMM_A-D) 都将链放在两个结合点之间。另一个不成功的对接 (6VN1_A-H) 的界面只有19个残基对。

对接没有模板的蛋白质的SR是50%。在五个不同的初始化之间，DockQ得分的平均差异为0.03，SR没有偏差，也就是说，排名没有提高成功率。两个可接受的模型显示在图5a (7EIV_A-C]) 和B (7MEZ_A-B)。更有趣的是，在其中一个不正确的模型 (7NJ0_A-C]，补充图5) 中，预测得到的两条链的位置是正确的，但它们的方向是错误的，导致DockQ得分接近0。对于7EL1_A-E (图4c)，较短的链E没有被正确折叠，它没有折叠成一个确定的形状，而是被拉长并插入到链A中，它占据了DNA在原始结构的形状。在剩下的两个不正确的模型 (7LF7_A-M和7LF7_B-M) 中，图4d，链只与M链的一个短环相互作用，使得对接非常困难，可能在生物学上没有意义。

图4：从一组没有模板的新型蛋白质中预测的和原始的结构。

原生结构用灰色带子表示。a 7EIV链A (蓝色) 和C (绿色) 的对接 (DockQ = 0.76) 。b 7MEZ链A (蓝色) 和B (绿色) 的对接 (DockQ = 0.53) 。c 7EL1链A (蓝色) 和E (绿色) 的预测结构 (DockQ = 0.01) 。d 7LF7链A (蓝色) 和M (洋红色) (DockQ = 0.02) 以及链B (绿色) 和M (洋红色) (DockQ = 0.02) 的对接。

识别相互作用的蛋白质

使用模型排名中的最佳分离器--pDockQ，可以从大肠杆菌中区分出3989个非相互作用的蛋白质和测试集中1481个真正相互作用的蛋白质，AUC为0.87。另一个最近发表的方法在这个集合上得到了AUC 0.76。然而，这些结果可能被夸大了，因为阴性集合只包含细菌蛋白，而阳性集合主要是真核生物。

为了得到一个更实际的估计，我们还研究了一组来自哺乳动物的1705个非相互作用的蛋白质，与大肠杆菌的非相互作用的蛋白质相结合。在这个由1481个相互作用蛋白和5694个非相互作用蛋白组成的组合中，我们得到的平均界面plDDT的AUC为0.82，界面接触数和残基数的AUC分别略高 (0.84和0.85) (图5a)。重要的是，pDockQ在低FPR时提供了更好的分离，在FPR为1%时，实现了51%的TPR，而界面plDDT、界面接触数和残基的TPR分别为27%、18和13%。在FPR为5%时，界面接触数和残基数报告的TPR分别为49%和42%，而平均界面plDDT为43%，pDockQ为66%。图5b-d中可以看到区分的情况。

图5：相互作用的 (n = 1481) 和不相互作用的 (n = 5694) 蛋白质的区分。

a ROC曲线是区分相互作用和非相互作用蛋白的不同指标的函数。IF_plDDT是界面中的平均plDDT，min plDDT每条链是两条链的最小平均plDDT，平均plDDT是整个复合物的平均数，IF_contacts和IF_residues分别是界面残基和接触的数量。pDockQ是以DockQ为目标分数的正比拟合，如上所述。

b-d 最重要的鉴别特征平均界面plDDT (b) 、界面接触数 (c) 和d的组合 (IF_plDDT⋅log(IF_contacts)) 以及相互作用 (非灰色) 和非相互作用 (灰色) 蛋白质的pDockQ的分布。

限制条件

在这里，我们只考虑蛋白质复合物在其异构状态下的结构，尽管这些复合物中的每个蛋白质链都可能有同构构型或其他高阶状态。也有可能复合物本身作为更大的生物单位的一部分，以潜在的更复杂的构象形式存在。研究可能的低聚物状态和更大的生物集合体不在本分析的范围内，留待今后的工作。

这里对AF2s分离相互作用和非相互作用的蛋白质的能力的研究比最近的研究包含更广泛的数据。然而，为了彻底测试这种分离，这里研究的数据需要扩展到比较单个生物体内的相互作用。我们把这种广泛的分析留给进一步的研究。

AF2在开发集和测试集上的表现有很大差异，报告的SR为39.4%，而AF2+Pairs MSA为57.8%。这种差异表明，其性能高度依赖于被预测的特定交互伙伴。目前还不清楚是什么原因导致了这种差异。我们相信，在如何选择这些集合方面可能存在一些未知的选择偏差。可以注意到，训练集比测试集小得多 (216 vs 1481个蛋白质)，这就是为什么应该在尽可能大的非冗余数据集上评估性能。

研究结果和未来展望

在这里，我们表明AlphaFold2 (AF2) 可以预测许多异质蛋白复合物的结构，尽管它被训练为预测单个蛋白链的结构。即使使用默认设置，AF2也明显优于所有其他测试的对接方法，包括其他折叠和对接方法、基于形状互补的方法和基于模板的对接方法。使用优化的MSA与AF2，我们可以准确地预测异源二聚体复合物的结构，在一个大型测试集上的SR达到了前所未有的62.7%。E.coli的SR (76.4%) 高于H.sapiens或S.cerevisiae (分别为58.1%和66.2%)。

此外，通过分析预测的界面，我们可以预测DockQ得分 (pDockQ)，平均误差为0.1，从而将可接受和不正确的模型分开，AUC为0.95。这意味着在特异性为99%的情况下，31%的模型可以被称为可接受的 (或者在特异性为90%的情况下，54%的模型可以被称为可接受的)。有趣的是，在AF2中没有实施额外的约束条件来拉动两个链的接触，这意味着链的相互作用 (以及随后的界面大小) 完全由预测器提取的链间信号量决定。假设一个界面中的所有残基都对相互作用能量有贡献，可以解释为什么更大的界面更有可能被正确预测。

我们发现，通过简单地融合Uniclust30上两个HHblits运行的MSA，而不是使用AF2的MSA，可以大大加快MSA的生成过程，而且没有任何性能损失 (性能增加1%SR)。快速生成MSA规避了管道中的主要计算瓶颈。使用pDockQ可以将真正相互作用的蛋白质与非相互作用的蛋白质区分开来，AUC为0.87，使得在1%的错误率下可以识别51%的相互作用的蛋白质。pDockQ得分对模型质量和二元相互作用都有区别。因此，同一管道可以识别两个蛋白质是否相互作用以及其结构的准确性。

以前从未有如此大的潜力来扩大对蛋白质相互作用的已知结构理解，而成本却如此之小。目前在人类参考相互作用组中有64,006对人类蛋白质相互作用。如果其中的31%能以1%的误差率被预测出来，这就有19,842个人类异质蛋白的结构。在Nvidia A100系统上运行所有这些的计算成本约为5天，并且自从这里介绍的管道 (被认为是 FoldDock) 开发以来，已经有应用了。

参考资料

Bryant, P., Pozzati, G. & Elofsson, A. Improved prediction of protein-protein interactions using AlphaFold2. Nat Commun 13, 1265 (2022). https://doi.org/10.1038/s41467-022-28865-w

代码

运行FoldDock和复制这里的分析的所有代码可以在这里获得

https://gitlab.com/ElofssonLab/FoldDock (commit 2e4c96aa352338976260ece0646ceaaa75392dec)，采用Apache License, Version 2.0。

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。

- 历史文章推荐 -

【蛋白质结构与AlphaFold】

●Nat Commun｜在生物科学领域应用深度学习的当前进展和开放挑战

●Nature｜确定蛋白质结构的短暂状态

●Facebook｜从数百万个预测蛋白质结构中学习逆折叠，预测序列信息

●AI+蛋白质错误折叠疾病的药物开发｜Congruence获5000万美元A轮融资

●BIB｜通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基