查看原文
其他

Nature | 挖掘结构生物学的新金山:用Foldseek Cluster发现AFDB的隐藏宝藏

刘安吉 北京生物结构前沿研究中心 2024-04-28



Journal Club

 汇聚思想,点燃新识

Journal Club 凝聚了一批热爱科学、享受科学、传播科学的探索者和发现者。他们志同道合,他们青春飞扬,他们与科学共舞。在这里,你可以收获最新、最真的行业资讯和来自科研一线的文献解读。你关心的就是我们要说的,我们将用最质朴、最客观的文字书写有深度、有温度的科学。Journal Club,与你畅游Journal世界,和你共享科学蔚蓝。

无论是能量的产生,还是细胞的分裂,蛋白质都在这些基本的细胞活动中扮演了重要的角色。近些年来,随着蛋白质测序技术的发展,越来越多的蛋白质序列被人们得到,但是因为缺少可以大规模应用的实验方法,相较于蛋白质序列的研究,对于蛋白质结构的研究一直以来都是滞后的。然而,蛋白质的结构对于了解该蛋白质的功能、演化以及潜在的药物设计都有重要影响。因此,能够准确从蛋白质序列预测蛋白质结构的深度学习模型AlphaFold2在2021年一经问世1,就在生物学领域引起了轩然大波。2022年,DeepMind发布了包含2.14亿个已知蛋白的结构数据库AlphaFold Database (AFDB),这个数据库无论是从数据的体量还是从数据的质量上,都是前所未有的存在。



2023年9月13日,Martin Steinegger课题组在Nature发表了题为Clustering-predicted structures at the scale of the known protein universe的科研论文。本文提出并使用了了一种名为Foldseek cluster的基于结构比对的聚类算法,这个算法可以对大规模的蛋白质结构比较,并进行聚类。结合了序列聚类和结构聚类等方法,这篇文章对AlphaFold Database展开了全面的搜寻,得到了230多万个聚类中心。从这些聚类中心再出发,文章还展现了结构比对在预测不同蛋白质关系上的应用,在寻找远源蛋白方面,展现出了极大的潜力。如果把高数据体量和高数据质量的AFBD比做一座金矿,那本文的工作则相当于通过拉网式的全面搜寻,舍弃掉这座金矿中的大部分沙子和碎石,并找到真正重要的金子。


背景



AFDB拥有7500万高精度结构、9600万可用结构,任由如此巨量丰富的数据闲置,可以说是暴殄天物。所以我们需要找到一种方法,让我们能够“像使用搜索引擎一样”,使用AFDB蛋白结构数据库。面对AFDB这座金山,很多课题组都提出了自己的发掘方法,包括用AFDB里的蛋白质结构研究蛋白质与小分子的结合口袋2,预测蛋白质复合物的结构3,研究不同蛋白质结构之间的相似性4,发现全新的折叠方式5等等。但是这些发掘方法都是从应用入手,并不能推而广之,形成一种普适性的方法,而本篇论文的作者Martin Steinegger,则一直在探索如何开发新颖的方法,结合大数据算法和机器学习深入探索大规模使用AFDB的普适性方法。


图1: AFDB的发展历程6


首先,Martin Steinegger 课题组想要解决的问题是如何快速比对、搜寻结构。先前的生物数据库几乎都是基于序列的数据库,而最大的基于结构的数据库PDB目前也只含有20万个结构。但是AFDB则有两亿个结构,两者根本不在一个数量级。所以,如何在“大型蛋白质结构数据库”中挖掘信息,是一件之前并不存在的任务,其相关的方法也需要重新开发。目前已有的结构比对方法,如TM-align,DALI,CE等,应用到大型蛋白质结构数据库的结构比对任务中,都需要太多的算力和时间。文章作者估算,在一个含有1亿个结构的数据库中,使用TM-align方法,在1千个cpu核上进行多对多结构比对,需要1000年的计算时间,而这显然是无法接受的。


但是,作者先前开发了一套高速的序列多对多比对算法MMseqs2(全称为Many-against-Many sequence searching),则可以在相同的条件下,在仅仅一周的时间内,完成多对多的序列比对。因此,他们自然而然的想到,先把三维结构转化为一维序列,形成一个“结构字母表”(structural alphabet),再利用MMseqs2进行序列比对。在这个过程中,如何设计结构字母表,从而使得这个降维过程尽可能多的保留三维结构信息,则尤为重要。因此,Martin Steinegger 等人开发了 Foldseek,可以先通过训练一个神经网络得到一套结构字母表(3Di),再将给定的输入结构降维成序列信息,再使用MMseqs2中的prefilter环节完成结构对齐。Foldseek的原理图如图2所示,它可以实现在保持相似的灵敏度的同时,把结构比对的速度加快4~5个数量级,从而可以实现大规模的结构比对。


图2:Foldseek的原理图7


除此之外,Martin Steinegger 课题组也解决了压缩结构文件体积,从而加速结构文件处理的问题。开发了一个名为foldcomp的新工具,提出了一种新的结构文件格式FCZ,采用内坐标方式存储原子坐标,从而可以减少从PDB/mmCIF文件压缩到FCZ文件过程中的损失,从而为AFDB结构数据库的下载、存储和转移提供了便利。FoldComp的论文8中提到,它可以实现在精度损失在0.1Å的情况下,将23TB的AFDB-TrEMBL(v4)的大小,缩小到1.1TB。


图3: FoldComp的原理图8


相较于序列聚类,基于蛋白质的结构对数据库中的蛋白进行聚类能够发现序列上不相近但是结构上很类似的蛋白,从而能够更好的研究蛋白质的功能和进化信息。对于大规模数据集来说,则更需要考虑算力和时间的问题,因此他们把之前开发的对序列聚类时使用的线性时间算法Linclust9,扩展到了结构聚类上。


方法



如下图所示,他们首先依据序列相似度50%、序列重叠度90%,用MMseqs2 Linclust将AFDB中的2.14亿个蛋白质的结构对应的序列进行聚类,得到了52M个聚类中心(AFDB50);对于AFDB50中的每一个聚类,选择pLDDT打分最高的预测结构作为其聚类中心。其次,他们依据序列重叠度90%、结构比对的E value < 0.01,用Foldseek cluster将AFDB50中的52M个代表结构聚类,得到了18.7M个结构聚类中心。最后,将所有在Uniprot中标注为片段(fragment)的序列移除,获得了2.3M个至少含有两个蛋白结构的聚类(AFDB clusters),平均每个聚类含有13.2个结构。


图4:本文采用的聚类方法流程图


实验



先前对于蛋白质的研究大多聚焦于已知可能有显著作用的蛋白或者和已知发挥重要功能的蛋白属于同源的蛋白,但是对于AFDB的搜索则因为不带有这种先验条件,所以更容易发现具有新结构或者新功能的蛋白质。作者把结构未知且功能未知的蛋白聚类称为“黑暗聚类”(dark clusters),认为这些“黑暗聚类”中可能有新颖的结构。他们通过统计发现,1.13M个聚类代表都多多少少与PDB中的一只结构类似,而剩下的1.17M个聚类,则再使用它们聚类代表的序列,使用MMseqs2在Pfam数据库中搜寻,排除其中有Pfam或TIGRFAM标注的聚类,总共获得了711K个黑暗聚类(30.9% of AFDB clusters),这些黑暗聚类则有可能形成新颖的结构。最后得到的AFDB clusters中31%的聚类中心只涵盖了全部蛋白质的4%。


图5: 已知与未知聚类与聚类大小的分布关系


接着,为了探究这些黑暗聚类中是否存在新的酶与新小分子结合蛋白,研究人员又从711K个黑暗聚类中,选择了33K个聚类做进一步分析,选择的聚类代表的pLDDT都大于90。也就是说,通过筛选pLDDT,作者将研究范围进一步缩小。接着他们使用预测蛋白质功能的工具DeepFRI10直接在这些蛋白质结构上预测是否含有口袋、预测它们的基因本体(GO)、酶学委员会(EC)编号等功能信息。根据预测功能出现的频率进行排序,得到了如图7所示结果:


图6: DeepFRI原理图10

图7: 1707个预测有口袋的蛋白质的GO MF关键词的出现频率


随后,作者又探讨了蛋白的进化关系。首先,他考察了产生的结构聚类中心的的物种组成,确定了结构聚类在超界(super-kingdom)这一层级上的进化保守性。

图8: 大部分的结构聚类可能都来自同一个祖先


接着,他们又查看了人类相关的结构聚类在进化上是否保守。发现属于人类的蛋白聚类中既有只包含人类蛋白的聚类,也有既包含人类蛋白也包含其他物种蛋白的聚类。


图9: 能够显示人类蛋白保守性的一部份例子


然后,他们探索了人类免疫相关蛋白在细菌中的远源蛋白。在使用NCBI Blast在NR库中无法在细菌中搜到人类AIM2蛋白的同源蛋白的情况下,研究人员使用本文的方法,找到了人源AIM2在细菌中的远源同源蛋白,说明了通过结构聚类的方法,可以很好的研究进化关系,并且在这个例子中,很好的解决了免疫系统中的相似蛋白的问题。


图10: 结构相似的远源蛋白。黄色为人类蛋白,蓝色为细菌蛋白。


最后,作者分析了AFDB clusters中存在的结构域。在整个蛋白层级上(full-protein level),这些聚类的代表结构不尽相同,但在结构域层级上,不同的聚类可能有相同的结构域。作者又在结构域层级上进行了聚类,流程如下图所示:


图11: 基于结构域聚类的方法


完成在结构域层次上的聚类后,作者选择了三个案例,展示了基于结构的相似搜索,在识别未标注的远源蛋白上的潜力。


图12: 基于结构域聚类的应用案例

总结



这篇文章很好的建立了一个挖掘巨大结构信息库(AFDB)的生物信息学的流程,通过一系列的软件工具,在实现快速搜索的同时,能够通过聚类,逐渐缩小搜索范围,筛选出重要的蛋白。本文的方法不仅在速度上比先前的方法更快,而且在预测远源同源蛋白上,也展现出了很强的能力。无论是在整个蛋白层级,还是在结构域层级的聚类,都能很好地提取出有效信息。


原文链接

https://www.nature.com/articles/s41586-023-06510-w


参考文献

参考文献

1.Jumper, J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).


2.Wong, F. et al. Benchmarking AlphaFold ‐enabled molecular docking predictions for antibiotic discovery. Mol. Syst. Biol. 18, e11081 (2022).


3.Humphreys, I. R. et al. Computed structures of core eukaryotic protein complexes. Science 374, eabm4805 (2021).


4.Akdel, M. et al. A structural biology community assessment of AlphaFold2 applications. Nat. Struct. Mol. Biol. 29, 1056–1067 (2022).


5.Bordin, N. et al. AlphaFold2 reveals commonalities and novelties in protein structure space for 21 model organisms. Commun. Biol. 6, 160 (2023).


6.Barrio-Hernandez, I. et al. Clustering predicted structures at the scale of the known protein universe. Nature 622, 637–645 (2023).


7.Van Kempen, M. et al. Fast and accurate protein structure search with Foldseek. http://biorxiv.org/lookup/doi/10.1101/2022.02.07.479398 (2022) doi:10.1101/2022.02.07.479398.


8.Kim, H., Mirdita, M. & Steinegger, M. Foldcomp: a library and format for compressing and indexing large protein structure sets. http://biorxiv.org/lookup/doi/10.1101/2022.12.09.519715 (2022) doi:10.1101/2022.12.09.519715.


9.Steinegger, M. & Söding, J. Clustering huge protein sequence sets in linear time. Nat. Commun. 9, 2542 (2018).


10.Gligorijević, V. et al. Structure-based protein function prediction using graph convolutional networks. Nat. Commun. 12, 3168 (2021).


供稿 | 刘安吉

审稿 | 孔方

责编 | 囡囡

排版 | 可洲




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群


精彩回顾

精彩回顾


点击上方卡片

关注我们吧


THE END

我知道你“在看”

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存