查看原文
其他

Cell | 小基因开启微生物组研究新领域——大规模鉴定微生物基因组编码的小蛋白质

宏基因组 2022-03-29

The following article is from BioArt Author 617

撰文 | 617
责编 | 兮
 
近年来,随着测序技术的发展,微生物组研究成为一个新热点。借助宏基因组测序技术,我们在人体的不同部位发现了多种多样的微生物,但是微生物究竟通过什么机制发挥作用影响表型呢?对此我们的了解仍然很有限,其中一个限制原因可能是在基因注释的过程中往往会忽视某类具有重要功能的基因。
 
小开放阅读框(small openreading frame, sORF,一类编码小蛋白质(≤50个氨基酸)的基因,就常常被人们忽略【1】。由于预测工具往往需要设定开放阅读框的最小长度,且经典的生化方法难以检测这类基因编码的蛋白质,所以数据库关于其的信息是不完整的。而最近的研究发现这类蛋白质在真核生物和原核生物中均能发挥一定的生理功能【2,3】。那么人体中的微生物基因组具有多少这样的小开放阅读框呢?所编码的蛋白质具有哪些功能呢?
 
2019年8月7日,斯坦福大学的Ami S. Bhatt团队在Cell杂志发表题为Large-ScaleAnalyses of Human Microbiomes Reveal Thousands of Small, Novel Genes 的文章,该研究通过来源于HMP项目的263个健康人的1773个微生物组样本鉴定出大约250万个sORF,并确定了由其编码的4000多个保守蛋白质家族。这些蛋白质家族中超过90%都不具有已知的结构域。该团队对鉴定出的蛋白质家族进行功能预测,发现大约30%的蛋白质家族是分泌或者跨膜蛋白,还有一些蛋白家族与防御机制等功能相关。

 
首先,作者通过下述方法鉴定出由sORF编码的4539个保守蛋白质家族(图1)

1、利用宏基因组无参分析流程对HMP的1773个微生物组样本进行分析,获得128,368,337个contig。


2、使用MetaProdigal软件对所有ORF进行注释并过滤掉编码氨基酸数大于50个的ORF,过滤后得到2,514,099 个sORF。


3、使用CD-Hit软件对所有sORF编码的蛋白质进行聚类,共产生444,054个cluster。在Conseeved Domain Database(CDD)中查询每一个cluster,发现仅有~4.5%(113,693/2,514,099)的蛋白质(覆盖约0.5%的cluster)可以匹配到已知的结构域,其中大约65%(72,982/113,693)的蛋白质都是核糖体蛋白。


4、使用RNAcode软件对至少含8条不同DNA序列的cluster(共11715个)进行基因预测以鉴定潜在的蛋白质家族,最终p值≤ 0.05的共有4,539个cluster(包含467,538个蛋白质)。


图1.小蛋白质的鉴定和特征分析流程
 
随后作者对上述的蛋白质家族进行了分析,发现96%的蛋白质家族都不含有已知的结构域,仅有25%的蛋白质家族在RefSeq中可以找到同源基因,因此作者采取了一系列的策略分析了这些蛋白质可能具有的功能。
 
在4000多个蛋白质家族中有14个蛋白质家族至少在属于不同门的100个物种中存在,其中的13个蛋白质家族至少在3个身体部位中存在。且在非人体环境中都能鉴定到14个蛋白质家族的同源基因,说明这14个家族可能是管家基因(housekeeping)家族(图2。其中蛋白质家族26广泛存在于不同的部位和环境中,发现其sORF位于一段高度保守区域,下游是核糖体蛋白L28和L33,所以其可能也编码与核糖体相关的蛋白。

图2蛋白质家族的分布情况
 
利用TMHMM和SignalP-5.0算法鉴定是否为跨膜或分泌蛋白,发现1402个家族可能是跨膜或分泌蛋白,这些蛋白质家族可能与细胞间的交流有关。利用AmPEP软件鉴定发现有39个蛋白质家族可能编码抗菌肽。
 
为了鉴定蛋白质家族是否与抵御噬菌体有关,作者搜索了sORF上下游附近是否存在已知的防御基因,发现有869个家族的上下游至少存在一个已知防御基因的同源基因,其中132个家族与CRISPR基因有关。
 
细菌可以利用基因水平转移(horizontal genetransfer, HGT,指在差异生物个体之间或单个细胞内部细胞器之间所进行的遗传物质的交流)这种机制进化以适应环境。而人的肠道为微生物提供了基因水平转移的可能。因此,作者首先确定了具有这样一类基因的蛋白质家族,即其具有位于介导HGT基因附近的同源基因。然后,分析了这些蛋白质家族的系统发育分布,最后鉴定出了57个蛋白质家族可能发生了门水平的基因水平转移。
 
为了便于将来进一步深入研究这些蛋白质,作者提供了一个整合文件,该文件提供了全部4539个蛋白质家族特征的详细信息,然后可以依据文中提供的方法获取相应的DNA或者是氨基酸序列。
 
该研究开启了微生物组研究的新领域,为微生物组的研究提供了新思路,同时提示了未来也许应该深入研究这些被我们忽略的sORF及其编码的蛋白质的功能。

原文链接:
https://doi.org/10.1016/j.cell.2019.07.016

制版人:小娴子


参考文献



1. Duval, M., and Cossart,P. (2017). Small bacterial and phagic proteins: an up- dated view on a rapidlymoving field. Curr. Opin. Microbiol. 39, 81–88.
2. Couso, J.-P., andPatraquim, P. (2017). Classification and function of small open reading frames.Nat. Rev.Mol. Cell Biol. 18, 575–589.
3. Kemp, G., and Cymer, F.(2014). Small membrane proteins - elucidating the function of the needle in thehaystack. Biol. Chem. 395, 1365–1377.

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存