科研(IF:16.174) |北大:通过机器学习基于共进化预测蛋白质组中的金属结合位点(国人佳作)
生科云网址:https://www.bioincloud.tech/
编译:微科盟Wicro,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读金属离子在蛋白质中具有多种重要的生物学作用,包括结构维持、分子识别和催化作用。以前预测蛋白质组中金属结合位点的方法是基于序列或结构基序。在这里,我们开发了一个名为“MetalNet”的基于共进化的管道,以系统地预测蛋白质组中的金属结合位点。我们将MetalNet应用于四种具有代表性的原核物种的蛋白质组,并预测了4,849种潜在的金属蛋白,这大大扩展了目前注释的金属蛋白质组。我们在生物化学和结构上验证了几种蛋白质中先前未注释的金属结合位点,包括载脂蛋白柠檬酸裂解酶磷酸核糖基-脱磷酸辅酶A转移酶citX,一种与任何已知金属蛋白缺乏结构或序列同源性的大肠杆菌酶(蛋白质数据库(PDB)代码:7DCM和7DCN)。MetalNet还成功地概括了人类剪接体复合体中所有已知的锌结合位点。MetalNet管道为查询隐藏的金属蛋白质组和研究金属生物学提供了一个独特且有利的工具。
论文ID
原名:Co-evolution-based prediction of metal-binding sites in proteomes by machine learning译名:通过机器学习基于共进化预测蛋白质组中的金属结合位点期刊:Nature Chemical BiologyIF:16.174发表时间:2022.12通讯作者:王初, 苏晓东, 刘源通讯作者单位:北京大学, 生物有机化学与分子工程教育部重点实验室, 蛋白质与植物基因研究国家重点实验室
实验设计
实验结果
金属离子在许多生物过程中具有不可或缺的作用。由于其独特的物理和化学性质,金属离子经常被用来稳定蛋白质结构,并作为蛋白质中的辅助因子来帮助催化生化反应和转导。据估计,超过三分之一的整个蛋白质组是金属结合蛋白;然而,鉴于通常只有少数氨基酸残基参与金属结合,因此一般预测金属结合蛋白并非易事。因此,蛋白质组中新的金属结合蛋白的发现和功能表征将对后基因组时代的基础生物学和工业应用产生极大的兴趣。为了以稳定和能量有利的方式保持特定的金属离子,所有物种的金属蛋白都在其结构中进化出拓扑相似的金属结合位点,以满足化学和几何键合要求。几十年来,结构观察和理论计算都积累了详细的知识,可以准确描述不同金属离子的结合几何和化合价规则。最近,研究人员使用其他实验方法直接探索了蛋白质组中的金属结合蛋白,包括电感耦合等离子体质谱(ICP-MS)、基于活性的蛋白质分析和凝胶电泳中的金属同位素天然放射自显影。鉴于基因组数据库的爆炸式增长,还开发了各种生物信息学方法来根据序列/结构信息预测金属结合位点。例如,人类蛋白质组中的锌结合蛋白已通过与已知金属蛋白的序列和结构同源性组合进行系统预测。支持向量机和神经网络等更复杂的算法用于从蛋白质一级序列中识别过渡金属结合位点中的半胱氨酸和组氨酸。此外,还可以利用规范螯合几何学的知识来预测载脂蛋白结构的金属结合位点。最后,已经开发了诸如MIB和COFACTOR之类的网络服务器,以实现对蛋白质中金属结合位点或配体结合位点的自动注释。然而,通过计算发现蛋白质组中没有序列或结构同源性的新型金属蛋白仍然具有挑战性。得益于高通量测序技术,我们现在可以获得快速增长的物种列表的基因组信息。对来自多个物种的给定感兴趣蛋白(POI)的序列进行比对,可以构建其全面的进化历史,不仅包含高度保守的残基,还包含具有强协方差的残基对。这种共同进化信息通常在所谓的“接触图”中表示,已被提取用于精确检测序列中的远程相互作用。最近,利用共进化信号在球状蛋白质、蛋白质复合物和无序区域结构状态的结构预测方面取得了里程碑式的成功。还实施了共进化分析,以通过多种方法定义蛋白质中的功能位点;然而,尚未探索其在金属结合位点的系统预测中的用途。在这里,我们开发了一种名为“MetalNet”的机器学习(ML)方法,以使用共进化预测具有位点特异性分辨率的蛋白质组中的金属结合蛋白。我们将MetalNet应用于几个具有代表性的原核蛋白质组,并预测了近5,000种潜在的金属蛋白。我们在生物化学和结构上验证了几个以前未注释的MetalNet预测,包括一个来自载脂蛋白柠檬酸裂合酶磷酸核糖-脱磷酸-CoA转移酶citX的锌结合位点。此外,MetalNet还成功预测了人类剪接体复合体中所有已知的锌结合位点。这种独特的计算管道将为探索未知金属蛋白质组和研究金属生物学提供有用的工具。
1.共同进化的金属结合残基对的预测
我们首先从蛋白质数据库(PDB)收集金属蛋白,并与序列剔除数据库(PISCES, 基于单细胞测序的蛋白活性推断)进行交叉核对,以获得金属蛋白列表。我们还使用MSA变压器模型(方法)提取了这些蛋白质的接触图。金属螯合残基的分类表明,半胱氨酸(C)、组氨酸(H)、谷氨酸(E)和天冬氨酸(D)(统称为“CHED”)更频繁地出现在金属结合位点,占91%的金属螯合残基(图1a)。为简单起见,我们仅关注这四种类型的氨基酸作为后续分析的潜在金属结合残基。
我们接下来分析了来自CHED的所有十种可能成对组合的共同进化信号,并观察到与从蛋白质组中随机挑选的那些组合相比,它们中的许多显示出丰富的共同进化信号(图1b)。例如,53%的共同进化的CC残基对参与金属结合(图1b),如果考虑到蛋白质组中只有23%的半胱氨酸是螯合金属(图1 c),这比随机CC对丰富十倍。结果表明,我们原则上可以将共进化信息纳入预测模型,以区分金属结合残基对和非结合残基对。为了系统地制定这种方法,我们为接触图中的每个CHED共同进化的残基对生成了一个“成对频率矩阵”。21×21矩阵是根据在该给定对(20个氨基酸和一个位置缺口)的同源序列中观察到的残基-残基频率分布计算的。我们分别对所有金属结合和非结合残基对的矩阵进行平均,并观察到它们之间非常不同的模式(图1d)。例如,金属结合对在CHED区域具有更丰富的信号,而非结合对的信号分散在整个基质中。我们推断,这种模式差异可以转化为ML可解决的分类问题。我们从上述数据集中编制了一份包含697种金属蛋白的非冗余列表,涵盖十种金属(扩展数据图1中的ZN、CA、MG、MN、FE、SF4、NI、CU、CO和FES),并定义了总共这些蛋白质中有2,346个共同进化的金属结合CHED对作为阳性样本(补充数据集1)。我们还定义了另一组16,816个共同进化但非金属结合的CHED对,来自与负样本相同的一组(补充数据集1)。我们计算了每对的成对频率矩阵,并使用AutoGluon(https://auto.gluon.ai/stable/index.html)训练了多个ML模型,并通过5折交叉验证测试评估了性能。最终模型展示了接受者操作特征曲线(AUC)下面积为0.88,F1分数为0.66和马修斯相关系数(MCC)为0.63的性能(补充表1)。
2.将共同进化的金属结合对组装到网络中
在研究基准中蛋白质的共同进化网络期间,我们观察到许多金属结合共同进化对组装形成一个集成网络(扩展数据图2)。这与之前的报告一致,即功能位点内的残基倾向于在共同进化网络中聚集在一起。为了量化金属结合残基是否更频繁地参与连接的共同进化网络,我们计算了每个CHED残基的共同进化连接数(“节点度”)。结果表明,金属结合残基的平均节点度确实高于非结合残基(扩展数据图3)。我们推断检测此类网络应该有助于提高我们预测的精度(图2)。因此,我们实施了一种基于图的方法,通过修剪那些“单例”对(方法),从预测的金属结合残基对中检测共进化网络簇。正如预期的那样,应用图形过滤器可以提高预测的F1分数(补充表2)。
为了恢复具有较少侧链配体残基的某些位点,例如Mg/Ca结合位点(扩展数据图4),我们添加了一个“repechage”规则,即当应用图形过滤器后没有残留时,我们将保留前N个与未通过过滤器的预测可能性最高的配对。我们系统地评估了N从1到5不等的F1分数,结果表明,通过repechage规则恢复单个排名靠前的对产生了最佳F1分数(补充表2)。因此,我们确定了这个参数,并在没有检测到共同进化网络的情况下,将预测最好的一对指定为潜在的金属结合位点。有趣的是,在提取的共进化网络中,我们还观察到具有不同类型金属结合位点的不同网络模式(图2)。我们从已知的金属蛋白中编译了这些模式,以构建一个依赖于金属类型的共进化网络架构数据库(‘co-evolutionmotifbank’;补充数据集2)。因为不同的金属离子有它们偏好的共同进化网络架构,所以应该可以将预测的共同进化网络的残基组成和拓扑结构与共同进化基序库中的现有模式进行比较,并分配可能的金属离子结合类型(图2)。
3.MetalNet的整体工作流程
我们结合了基于ML的分类器和基于图形的网络检测来简化我们方法的工作流程,命名为“MetalNet”(扩展数据图5)。对于一个POI,我们首先获得了它的多序列比对(MSA)并计算了它的共进化联系。接下来,我们从接触图中提取了所有共同进化的CHED残基对,对于每一对,我们将其成对频率矩阵输入ML模型以确定它是否与金属结合。我们继续应用图形过滤器来检测连接的子网络集群,如果在图形过滤器之后没有留下任何对,则保留一对具有ML模型预测的最高可能性(扩展数据图5)。结果,我们在POI内获得了一个或多个共进化簇,每个簇代表一个潜在的金属结合位点。只要有可能,我们就会使用网络簇的残基组成和拓扑信息来帮助注释该特定位点中结合的金属离子类型。总的来说,该方法只需要MSA衍生的共进化信息作为输入,而不依赖于任何序列或结构基序来进行预测。我们简要比较了MetalNet与著名的基于结构的预测方法MIB的性能。我们收集了最近在PDB中发布的金属蛋白,因此它们对MetalNet和MIB都是“新的”,并将它们用作无偏测试数据集(补充数据集3)。总体而言,MetalNet显示出更好的精度,MIB具有更好的召回率,从而导致它们之间具有可比的F1分数性能(扩展数据图6)。考虑到这些方法分别以序列共进化和结构信息作为输入,未来将它们的特征整合在一起以提高预测能力是值得的。
4.原核蛋白质组中金属结合位点的预测
我们应用MetalNet预测四种原核蛋白质组中的金属蛋白,包括大肠杆菌、枯草芽孢杆菌、硫糖酵母和盐生盐杆菌,目前有1,965种带注释的金属蛋白。MetalNet在这些物种中预测了总共4,849种潜在的金属蛋白(图3a和补充数据集4)。此外,MetalNet发现了1,603个网络簇,我们能够匹配其中973个的共进化网络模式,以便可以通过类比现有的金属蛋白来推断它们的金属类型(补充数据集4)。
我们首先寻求直接的结构证据来支持我们的预测。对于每个预测的金属蛋白,我们通过PDB-BLAST33搜索其同系物,发现实验结构支持37%(4,849中的1,810)的预测(图3b)。在这些预测中,我们不仅观察到经典的短序列基序,例如锌指中的C2H2和某些铁硫结合蛋白中的CXXCXXCC,而且还发现了金属螯合残基序列相距>100个氨基酸的情况(图3c)或对应于多核或多个金属结合位点的复杂共同进化网络(图3d,e)。总的来说,这些例子突出了MetalNet在从独立于1D序列或3D结构基序的蛋白质中发现复杂金属结合位点的能力。对于其他没有直接结构证据的预测蛋白质,我们从各种数据库中搜索了间接但相关的证据,以进一步支持我们的预测,包括UniProt、GeneOntology和Pfam(图3b)。总的来说,至少有一个间接证据可以支持另外445种预测的蛋白质(图3b),占总预测的9%。最后,有2,594种预测的蛋白质以前从未被注释为金属蛋白(补充数据集4)。我们设想这些MetalNet预测将极大地促进这些物种中未表征的金属蛋白质组的功能注释。
5.来自宏基因组增强的Pfam数据库的预测
我们接下来研究了从宏基因组测序数据中提取的进化信息是否可以增强MetalNet预测。我们从之前由GREMLIN计算的MSA开始,以指导Rosetta对1,116个Pfam家族的结构建模。MetalNet预测了175种具有簇的金属蛋白,其中60种具有重叠的Rosetta模型(图4a和补充数据集5)。对这些模型的分析表明,46个预测的金属结合位点内的残基彼此接近(补充数据集5和补充图1)。此外,残基-残基距离的总体分布与根据低于4.5Å的已知金属蛋白计算的结果一致(扩展数据图7)。
我们选择了21个MetalNet预测进行实验验证,当时没有任何金属结合活动或同系物的报道。五个目标在初始筛选中产生了合理的表达,包括Rv3033、Desor_0198、SVEN_5263、cbrC和citX。其中,Rv3033(Uniprot代码:I6YAY5)可能未能纯化,因为它被预测为铁硫簇结合蛋白。纯化的Desor_0198(UniProt代码:G7W7J8)和SVEN_5263(UniProt代码:F2R5E5)通过ICP-MS显示锌结合信号(扩展数据图8a、b);然而,它们的金属结合位点变体对于纯化来说是不稳定的。因此,我们通过生化/结构方法详细表征了其余两种蛋白质cbrC和citX。蛋白质cbrC(UniProt代码:P31469,Pfam:PF03691)是大肠杆菌中CreB调节的基因C蛋白。MetalNet预测了两个潜在的金属结合位点(位点1:C31、C33、C34、C56和C59;位点2:H125、C126、C182和C185)(扩展数据图8c)。我们纯化了野生型蛋白质、C56S或C182S的单一变体,以及双变体(扩展数据图8c)。ICP-MS分析表明,野生型蛋白质与锌结合,测得的金属与蛋白质的比率接近2,这与MetalNet预测高度一致。单一变体C56S和C182S的锌/蛋白质比率分别测量为0.481和0.628,而对于C56S/C182S双变体,其金属结合活性被完全消除(扩展数据图8c)。蛋白质citX(UniProt代码:P0A6G5,Pfam:PF03802)被注释为大肠杆菌中的载脂蛋白柠檬酸裂合酶磷酸核糖-脱磷酸-CoA转移酶。MetalNet在citX中确定了一个由三个半胱氨酸(C145、C148和C155)和一个组氨酸H161组成的共进化网络(图4b),并且网络拓扑与锌结合位点相匹配。我们在大肠杆菌中重组过表达野生型citX和四种金属结合残基(C145S、C148S、C155S和H161S)的单一变体,并且一些单一变体显示出溶解度受损(图4c)。纯化后(扩展数据图8d),ICP-MS分析证实野生型蛋白质特异性结合锌而不是铁或铜,正如预测的那样,并且测量的金属与蛋白质的比率约为0.7,并且没有单一的变体显示出可检测的锌结合信号(图4d)。当用传统金属螯合剂EDTA处理野生型蛋白质时,与用PBS处理的样品相比,热稳定性曲线向左移动,表明蛋白质在金属提取后不稳定(图4e)。圆二色性分析还表明,EDTA处理会极大地扰乱蛋白质的构象(图4f)。最后,我们通过X射线晶体学解析了citX的结构(PDB代码:7DCM,分辨率为2.5Å,由单波长反常衍射确定,PDB代码:7DCN,分辨率为1.7Å,由分子置换确定;补充表3)。在7DCN的结构中,锌离子与预测的螯合残基之间的距离分别为2.34Å、2.31Å、2.36Å和2.08Å,这明确地证明了预测的半胱氨酸和组氨酸一起在citX中形成了一个四面体锌结合位点(图 4g)。晶体结构也与我们由Rosetta构建的结构模型非常匹配(图4h)。为了研究citX及其变体的结构和动力学特征,我们还进行了分子动力学(MD)模拟,结果表明所有四种变体在锌结合位点都有较大的构象波动,表明金属离子具有稳定作用对于蛋白质(扩展数据图9)。
7.人剪接体金属蛋白的预测
将MetalNet应用于真核蛋白质组的一个主要挑战是MSA的质量相对较差,这是由于目前可从有限数量的真核物种中获得的序列信息深度较低。为了证明MetalNet通常适用于任何类型的蛋白质组,只要目标蛋白质具有质量合理的MSA,我们作为原理证明,尝试将MetalNet应用于人类剪接体,因为巨型蛋白质机器在几乎所有真核生物中的功能上是保守的,并且已经解析出多个结构(扩展数据图10)。我们利用deepMSA39从可用序列中生成高质量的MSA,并应用MetalNet最终预测来自33个剪接体亚基的34个潜在金属结合位点(补充数据集6)。值得注意的是,在实验结构中观察到的所有锌结合位点都可以通过MetalNet进行概括(扩展数据图10),并且其他未注释的金属结合位点仍然在生化和功能上得到验证。
讨论
可用数据源
包含9,846个蛋白质序列及其MSA的原始蛋白质结构数据集可以从https://doi.org/10.1073/pnas.1702664114下载。模型训练中使用的共同进化对可以在补充数据集中找到。原核物种的蛋白质和相关MSA可以从https://gremlin2.bakerlab.org/db/{species}/fasta/ 下载。Metagenome-pfam MSA 和结构模型可以从https://gremlin2.bakerlab.org/db/UNI/下载。人类剪接体数据集可以在补充数据集中找到。 PDB代码6ID0、6ID1、6ICZ 和 6QW6 用于构建人类剪接体数据集。我们从PDB服务器(https://ftp.wwpdb.org/pub/pdb/derived_data/index/entries.idx) 下载了蛋白质实体的信息表,以在比较方法时构建无偏数据集。 UniProt (https://ebi10.uniprot.org) 配置文件(日期:2021年8月16日)、基因本体数据库 (https://www.ebi.ac.uk/QuickGO/) 和Pfam数据库(http://pfam. xfam.org/) 被用于分析。 pdbaa数据库(2018年1月16日发布,ftp://ftp.ncbi.nlm.nih.gov/blast/db/pdbaa.tar.gz)用于BLASTP。本文报道的citX结构已保藏在PDB中,登录号为7DCM(由单波长反常衍射确定)和7DCN(由分子置换确定)。本文提供了这些源数据。
https://pubmed.ncbi.nlm.nih.gov/36593274/
----------微科盟更多推荐----------
科研(IF:18.688) |Neuron:核ATXN1相互作用体在脊髓小脑性共济失调1型中的作用
科研 |中国药大&南京林业:通过谱效关系和蛋白质组学揭示贝母抗非小细胞肺癌的活性成分及其作用机制(国人佳作)
获取此文献原文PDF、申请加入学术群,联系您所添加的任一微科盟组学老师即可,如未添加过微科盟组学老师,请联系组学老师46,无需重复添加。
请关注下方公众号
了解更多蛋白质组知识