查看原文
其他

Cell | 蛋白寡聚之美:利用结构预测揭示寡聚的普遍性和重要性

王彤彤 北京生物结构前沿研究中心 2024-04-27

星标,再也不怕错过更新!方法见文末动图。


蛋白质组织成的复合物和生物分子网络是细胞过程实现和功能发挥的基础。在基础层面上,蛋白质通过同源寡聚化进行组装,形成具有对称相互作用的同源多聚体,具有独特的结构和功能特征1。同源复合物的结构和功能对于分析和解释蛋白质的重要,同时对人类疾病和相关突变的预测也具有重要意义。同源复合物在蛋白复合物和网络的进化中扮演着塑造作用,代表了许多关键大分子复合物的始祖状态2


然而,对同源蛋白复合物进行全面表征仍面临挑战。机器学习方法的发展为蛋白质结构预测提供了新的可能性,但在整个蛋白质组范围内对同源寡聚体进行系统预测仍存在困难。AlphaFold2虽然被认为是预测的首选方法,但仍需要知道复合物中蛋白拷贝的具体数量,且计算资源需求与拷贝数量呈指数比例,对大型复合物的预测存在困难。因此,对同源复合物的深入研究和预测仍需要更多的努力和创新。


2024年2月15日,来自以色列魏茨曼科学研究所的Emmanuel D. Levy、印度理工学院的Sucharita Dey、瑞士洛桑联邦理工学院的Bruno E. Correia和英国布里斯托大学的Derek N. Woolfson共同通讯,在Cell上发表题为An atlas of protein homo-oligomerization across domains of life的科研论文。该工作对蛋白质组中的同源寡聚体结构进行预测,发现蛋白质组中有相当一部分比例的蛋白会发生同源寡聚,强调了这一现象对于理解蛋白结构、功能和进化的重要性。通过对这些结构的分析,研究者发现:1)螺旋卷曲是人类蛋白质组四级结构演化的主要推动因素;2)人类蛋白质组同源寡聚体的互作界面比蛋白表面更有可能出现疾病相关的突变;3)在原核和真核生物中,有惊人比例的同源或异源寡聚体复合物是存在对称性的。



研究者首先系统性地生成了假定的同源二聚体结构,并对这些结构进行分析,以确定其中具有生理相关性的结构。在不依赖于AlphaFold2的基础上,研究者对这些具有生理相关性的结构进一步进行高级结构的预测,包括预测其是否形成纤维或环状结构。在Pyrococcus furiosus (狂热噬热菌)、Escherichia coli (大肠杆菌)Saccharomyces cerevisiae (酿酒酵母) Homo sapiens (人) 的蛋白质组中,分别鉴定了872、2181、1196、3946个同源寡聚体,覆盖分析所涵盖蛋白质组的20%~45%。其中的一些蛋白在预测中表现为大型结构,其中一个经冷冻电镜被证实为六聚体环状结构,还有一个由16个蛋白拷贝形成的百万道尔顿的巨噬细胞孔道形成复合物 (图1)


图1. 利用AF2对同源二聚体以及寡聚体结构进行预测


研究者利用一个从PDB中编整的、包含347个单体和77个同源二聚体的非冗余数据集 (不包含在AF2训练数据集中) 对AF2在同源二聚体识别和结构预测方面的准确性进行了评估,预测结构于X射线晶体学所得到的单体和二聚体数据具有良好的一致性。此外,研究者将相接触氨基酸的平均PAE (Predicted Aligned Error) 值和氨基酸的接触数作为区分生理相关的同源二聚体与单体的指标,并将这两个指标整合进逻辑回归模型中,用于预测二聚体的生理相关概率,并发现部分预测结构即使与实验结构不符,其模型看起来也具有生理相关性 (图2)。整体而言,AF2能够准确预测同源二聚体结构,并且生理相关的同源二聚体与不具有生理相关性的假象。


图2. 实验数据为单体而预测结构中蛋白以二聚体形式存在


为了应对在大规模预测蛋白复合物结构时计算资源上的局限性,研究者采用了一种分层算法,首先对同源二聚体的形成进行预测,随后进一步分析蛋白是否能基于二聚体的内部对称性形成更大的结构。在初始阶段,总共生成了156,065个同源二聚体模型,分别覆盖P. furiosusE. coliS. cerevisiaeH. sapiens参考蛋白质组的99.8%、98.2%、94.7%和89.7%,进一步对这些模型的亚基间接触、在五个AF2网络间的一致性以及PAE值进行评估,最终分别剩下872、2181、1196和3946个同源二聚体,分别覆盖了四个蛋白质组的43%、44%、21%和21%,这些预测中有相当大一部分与已有实验结构的序列高度匹配。此外,研究者还发现15%~20%的预测结构没有存在类似亚基间互作几何模式的同源结构,提示可能存在数百种潜在的新四聚体结构类型 (图3)


图3. 在蛋白组范围内对同源二聚体进行分析


在预测生成的模型中,大量蛋白存在广泛的分子间相互作用,如含TRIM (tripartite motif) 的蛋白被许多亚基间的相互作用稳定 (图4F),然而单体的结构与在二聚体中相比却几乎无异,二聚化的信息在单体结构中处于缺失状态;转录因子AP-2-α表现出广泛的相互作用,但在PDB中甚至还未能检索到其二聚体的同源结构 (图4G)。除此之外,一种半胱氨酸tRNA连接酶在预测结果中以同源四聚体的形式存在,该蛋白在P. furiosusH. sapiens保守,其在P. furiosus中的冷冻电镜结构为与预测模型极其相似的同源二聚体 (图4J)。利用本文数据对这些同源寡聚体进行的进化和保守性分析提示,P. furiosusE. coli分别有247和500个二聚体结构与人体蛋白组中的二聚体结构同源,反之,人体蛋白组中分别有475和626个二聚体与P. furiosusE. coli的二聚体结构同源 (图4K)


图4. 预测结果提示大量蛋白存在分子间相互作用


通常来说,许多同源寡聚体都以“头对头”的方式相互作用,形成C2对称,但除此之外,还有许多同源寡聚体会以“头对尾”的方式相互作用,形成环状或丝状结构。后者由于亚基数量不确定,且尺寸较大,结构通常难以预测。在本文中,研究者利用二聚体所包含的对称性信息对环形复合物进行重构,以图5A中的SatP为例,C6为其最适对称性,预测得到的结构与实验结构之间存在良好的一致性。


但这种基于对称性对环状结构进行重构的方法存在一定局限性,即环状结构的亚基可能相互交织,而亚基的柔性区域可能会与环状结构存在冲突。在此基础上,研究者开发了一个AF2协议,利用完全对称的结构作为骨架来生成最终的模型,同时将原子坐标初始化为输入结构,使结果更快、更一致地收敛为最终模型,使得研究者能够对多达6,500个残基的环状复合物结构进行预测和重构。其中一个例子为E.coli中功能未知的蛋白Yqha,其单体由4股螺旋缠绕而成 (图5E),整体上较为不稳定,在预测结构中,单体能够进一步互相交织形成具有14个亚基的环状结构。


图5. 利用二聚体对称性推测环状结构对称性


除此之外,虽然caveolin-1的同源寡聚体结构未被纳入AF2训练数据集中,但本研究预测得到的caveolin-2的环状结构却与caveolin-1高度相似 (图6A),对于许多转运体蛋白或巨型复合物macrophage-expressed gene 1而言也是如此 (图6B)。在后续对几种预测能环状结构的蛋白进行实验验证时,其中一种被预测形成六聚体的蛋白可以被成功表达,且结构与预测结构高度一致 (图6D)


图6. 预测结果整体上具有较高的准确性


除环状复合物之外,在预测结果中,研究者还发现了179个能形成纤维状结构的蛋白。Tektin-3是dynein修饰的双联微管的组成成分之一,在5个生成的预测模型中,其中一个的朝向与已被报道的同源二聚体结构截然不同 (图7F),这样的结构有可能在tektin-3被合成后进一步组装而成,以便其被传送到双联微管上。除此之外,研究者还发现了一种广泛保守的四聚体结构,组成这些结构的蛋白携带柔性的螺旋结构,当该区域被截短时,就会组装形成由20条链构成的环状结构 (图7G)。

图7. 实验数据所未能揭示的寡聚状态


在蛋白质组范围内对同源四聚体结构进行的表征,为后续描述蛋白质组在健康和疾病状态下的分子特征奠定了基础。


研究者首先通过结构相似性对二聚体结构进行聚类,发现分子间无规则卷曲 (coiled coil) 是最具有显著性的类型。通过基于结构的SOCKET方法对四聚体模型中的螺旋卷曲进行识别,研究者发现分子内的螺旋卷曲结构在本文所用的四个蛋白质组中均广泛存在,而分子间的螺旋卷曲结构在人类蛋白质组中更为富集,提示螺旋卷曲可能在人类四聚体结构的演化中起到重要作用。这一发现或许可以为未来螺旋卷曲肽和蛋白的设计以及这些蛋白的应用奠定基础 (图8A、B)


此外,在将662,413个非同义单核苷酸多态性 (single-nucleotide polymorphism, SNP) 映射到人类数据集中的四聚体结构上时,研究者发现,与暴露在溶剂中的非互作区域相比,互作区域中出现SNP的频率更低 (图8C),且出现疾病相关的SNP的频率更高。在临床疾病中,一个显著的例子便是肾小球中表达的podocin,肾病综合征以及肾功能衰竭相关的几种突变可在podocin互作的界面上出现,提示这些突变可能影响了podocin的成环和组装 (图8D)


图8. 四聚体结构预测为蛋白组进化、疾病相关的突变带来启示


在这一系列工作的基础上,研究者从多个来源进一步收集了关于蛋白复合物组成的信息,对迄今为止通过蛋白组实验表征的所有蛋白质复合物对称性的普遍性进行了估计,发现绝大多数蛋白质复合物都会形成对称的结构,这一点在大肠杆菌中尤为明显,超过90%的复合物都会形成对称的同源或异源寡聚体。而在真核生物中,60%~65%的蛋白复合物具有对称性 (图9)。这些数字提示对称性在蛋白质的组装中具备非常高的普遍性,可谓是蛋白复合物演化分析和组成分析的要点。


图9. 寡聚的普遍性


综上,本研究通过对四种不同生物体的蛋白质组进行研究以及进行同源寡聚体的结构预测,提高了对蛋白质四聚体结构的理解。研究发现螺旋卷曲在四聚体结构演化中起重要作用,同源寡聚体的相互作用界面是疾病相关多态性的热点。此外,大部分已知蛋白质复合物呈对称结构。这些发现有助于通过结构视角解释生物数据,深化对蛋白质组装和进化的理解。


供稿 | 王彤彤

审稿 | 肖媛

责编 | 囡囡

设计 / 排版 | 可洲 王婧曈




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群

原文链接

https://www.cell.com/cell/fulltext/S0092-8674(24)00059-X

参考文献

参考文献

1. Goodsell, D.S., and Olson, A.J. (2000). Structural symmetry and protein function. Annu. Rev. Biophys. Biomol. Struct. 29, 105–153.


2. Pereira-Leal, J.B., Levy, E.D., Kamp, C., and Teichmann, S.A. (2007). Evolution of protein complexes by duplication of homomeric interactions. Genome Biol. 8, R51.



精彩回顾

精彩回顾



特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


点击上方卡片

关注我们吧


THE END

我知道你“在看”

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存