宏基因组公共数据挖掘基因组集再发Nature
The following article is from 菌探Momics Author 三明治
文章速递
Title: A new genomic blueprint of the human gut microbiota
DOI: 10.1038/s41586-019-0965-1
Journal: Nature [IF 41.577]
First Authors: Alexandre Almeida
Correspondence: Alexandre Almeida, Robert D Finn
Affiliation: European Bioinformatics Institute (EMBL-EBI)
Published: 2019-02-11
关键字: 新肠道细菌, 肠道细菌种类, 肠道菌群功能, 方法学
本研究从 European Molecular Biology Laboratory(EMBL)数据库的 75 个研究项目中收集到 11,850 个人类肠道菌群宏基因组的数据,并从中鉴别出 1,952 种潜在的、尚未被培养的肠道细菌。
文章详细介绍了鉴别尚未被培养的肠道细菌的方法,并阐述了目前尚未被培养的肠道微生物的多样性;描述了其与已知肠道微生物物种进化关系和在各大洲样品中分布情况;概述其功能特征。
结果表明,这些尚未被培养潜在的细菌使得已知肠道细菌的总种类数量增加了 281%;虽然在欧美人群中丰度比较低,但是在非洲、南美人群肠道这两个特定的肠道生态中缺失普遍却高丰度存在的;此外,这些潜在细菌缺失碳元素代谢、抗氧化和氧化还原功能相关的基因,富含铁 - 硫和离子结合的相关编码基因,意味着它们更加适合低氧和高铁的胃肠特殊的生态位。
这些结果在一定程度上揭示了潜在细菌难以捉摸的特征,也提高对已知培养的物种的了解。
1
研究背景
已知人肠道微生物与人体的健康联系紧密;得益于技术发展,鸟枪法宏基因组的研究能揭示肠道微生物的分类组成及其功能。目前大部分的研究都是基于数据集完成的,例如 Human Microbiome Project (HMP) 和 Human Gastrointestinal Bacteria Genome Collection (HGG),虽然也已经有培养组学研究收集了大量可培养的肠道微生物的基因组,但是仍有大量的未知的不可培养却具有潜在功能的微生物尚未系统研究。因此,构建一个比较完善的基因集势在必行。
2
研究思路
3
研究结果
鉴别出大量的尚未培养潜在的物种
作者整合了 EMBL 数据库收录的 75 个研究项目,收集到 13,133 个宏基因组数据,覆盖了北美洲(n= 6,869,52%)、欧洲(n= 4,716, 36%)、亚洲、南美洲、大洋洲和非洲;年龄段覆盖了成人(n = 3,053, 23%)、婴儿、老人和青少年(图1)。经过基础质控之后,剩余 11,850 个样品用于后续分析。
鉴别尚未被培养的潜在的物种的分析思路:
① SPAdes 组装;
② MetaBAT 分箱:得到 242,836 bins;
③ CheckM 评估,bins 评估质量分等级;一共获得了 40,029 个 “near-complete” metagenome-assembles genomes(MAGs,下文统称精细 MAGs),52,347 个quality score(QS*)值大于 50 的中等质量 MAGs(图2);
④ MAGs 重现:分别用 2 种方法(MetaWRAP 和 co-assembly)重现上述得到的 MAGs,98% 的 MAGs 均得到重现(图3),说明本研究得到的 MAGs 具有稳定性和可重现性;
⑤ 去除非原核生物的 bins,最后获得 39,891 个精细 MAGs;
⑥ 比对数据库,确定 unclassified MAGs :分别比对到 human-specific reference (HR*)数据库和NCBI Reference Sequence Database(RefSeq*)数据库。其中 11,888 个 MAGs 在两个数据库中均没有找到同源相似的基因组,故定义为 unclassified MAGs (图4)。
⑦ unclassified MAGs 去复制,重构得到 1,175 个 metagenomic species(MGS);
⑧ 扩充 MGS :将精细 MAGs 和中等质量 MAGs 比对回 1,175 个 MGS,把仍然未分配到任何一个 MGS 的 MAGs 再次重构,又识别鉴定出 893 个细菌。
⑨ 将 1,175 个 MGS 加上扩充的 893 个细菌最后确定为尚未被培养潜在的物种合计 2,068 个;这些 MGS 代表了人类特异的但高质量参考数据库中缺乏的优质细菌基因组。
QS*:QS= completeness−5×contamination
HR*:HR 数据库是由 HMP 和 HGG 基因集分离2,468 个基因组,囊括了 956 个物种(其中 553 个分离培养于胃肠环境)组成的数据库。
RefSeq*:囊括了 8,778 个细菌完成图。
图1. 本研究收集的 13,133 个样品的地域、健康状况、年龄统计
图2. CheckM 评估 bins 的统计
图3. MAGs 技术重现评估比对情况
图4. 39,891 个 MAGs 与 HR 和 RefSeq 数据库比对情况
尚未被培养潜在的 MGS 物种表征和分布
为了鉴定这 2,068 MGS 的分类,作者将它们和 UniProtKB 数据库比对,结果 94% 的 MGS(n = 1,952)没有匹配到 UniProtKB 收录的分离单菌基因组,意味着它们代表着尚未培养候选物种,于是将它们定义为unclassified MGS(UMGS),后续的分析都是基于这些 1,952 UMGS 进行的。此外,虽然这些 UMGS 不能确定物种水平,但能不同程度地精确分类到门(98%)、纲(94%)、目(91%)、科(74%)和属(60%)水平。这说明了这些 UMGS 的大量蛋白是属于新的科或属,其中,注释结果中前三的科是 Coriobacteriaceae (20.6%),Ruminococcaceae (9.9%)和Peptostreptococcaceae (7.4%);前三的属是 Collinsella (17.7%), Clostridium (7.3%) 和 Prevotella (4.4%) (图5. a)。
随后,作者将原始 13,133 个宏基因组数据集的原始 reads 与 UMGS 比对,评估 UMGS 的普遍度和丰富度。结果发现,一半的 UMGS 至少能在 12个样品中找到,这些 UMGS 大部分属于梭菌纲下的 Ruminococcaeae 科和 Faecalibacterium 属(图5. b)。
图5. UMGS 的物种分布。a) 1,952 个 UMGS 的门、纲、目、科、属比例前5的分布;b) 在 13,133 个宏基因组样品中普遍度前 20 的 UMGS
接着,作者将 1,952 UMGS 与 HR 数据库中 553 个分离于胃肠道的单菌(human gut reference,HGB)进行进化树构建,以研究 UMGS 与已知胃肠细菌的进化亲缘关系。结果表明,这些 UMGS 使得人肠道细菌菌系(lineage)多样性增加了 281% ,厚壁菌门增幅最大。几个 UMGS 和放线菌高度相似,特别是 Collinsella 属(图6. a)。值得注意的是一些 UMGS 基因组属于 Cyanobacteria (Gastranaerophilales), Saccharibacteria, Spirochaetes 和 Verrucomicrobia(图6. b),这些可能对应着来自人类肠道的更罕见或更难以培养物种的进化枝,因为在 HGR 数据库中没有一个它们具有代表性的分离基因组。
图6. UMGS 与HGB 的进化关系
随后,作者统计了本研究样品中 6 个大洲的样品中 UMGS 和 HGB 基因组的流行率和丰度,以推断这些 UMGS 与地域的关联。结果显示,UMGS 在大部分大洲的样品中比率偏低(图7. a),这个现象也解释了为什么先前的研究并没有发现它们;但在非西方化的非洲和南美洲样品中 UMGS 更加普遍,尤其是在丰度大于 0.01% ,至少存在 20% 样品的 UMGS 更加明显(图7. b)。
作者进一步评估 UMGS 的补充对宏基因组数据分类的改进,统计了分配给 HR、RefSeq 和 UMGS 三个数据集的读长百分比。在三个数据集联用的情况下,注释率为 72.8%,相比只用 HR 数据库提高了 23% ,相比 HR 和 RefSeq 联合提高了 17%。虽然 UMGS 收录物种数量比 HR 数据库的数量超过三倍,但增幅并不大,恰好说明了大多数的 UMGS 在大多数样品中以较低的丰度存在(图7. c)。但非洲(n = 21)和南美洲(n = 36) 读长利用率分别提高了 215% 和 278% 也进一步说明了这些UMGS 在这两个特定的肠道生态中是高丰度存在的。此外,为了推测还有多少未知的物种未被发现, UMGS 累积曲线的结果表明了欧洲和北美洲人群已有很好的覆盖度并趋向饱和;相反,在北美和欧洲以外的样本中,仍然以一致的速率检测到新的未培养物种(图7. d)。上述结果均强调了补充代表性不足的地区的样品对揭示人类肠道微生物群的全球多样性的重要性。
图7. UMGS 在五大洲的分布
UMGS 的功能特征
为了评估 UMGS 的功能特征和与 HGB 功能的差异,作者对 1,952 UMGS 和 553 HGR 先后进行了 antiSMASH、 InterProScan 和 KEGG 数据库的注释。首先,antiSMASH 数据库的注释结果发现,在 UMGS 和 HGB 分别找到的 85% 和 70 % 的 secondary metabolite biosynthetic gene clusters(BGCs)是新的代谢簇,意味着肠道微生物产生的天然代谢产物尚有大量并未被发现。
接着,InterProScan 注释结果中,找到了 1,199 Genome Properties(GPs)和 115 metagenomics Gene Ontology(GO),这些 GPs 能在门水平上很好区分 UMGS 和 HGB(图8. a)(ANOSM R = 0.42, P < 0.001),尤其是 Bacteroidetes 和 Proteobacteria。同时,Actinobacteria、Firmicutes、Proteobacteria 和 Tenericutes 也有显著的区分(ANOSIM R ≥ 0.30),也分别找到了182、207、115 和 68 差异富集的 GPs。
KEGG 注释结果显示,Bacteroidetes 只有 8 个功能富集,Actinobacteria、Firmicutes、Proteobacteria 和 Tenericutes 富集了涉及铁运输的 21 个功能特征(图8. b)。
HGR 和 UMGS 功能组成数量的差异统计结果表明了 UMGS 碳元素代谢、抗氧化和氧化还原功能相关的基因数都比较少,但是富含铁 - 硫和离子结合的相关编码基因,意味着 UMGS 更加适合低氧和高铁的胃肠特殊的生态位。结果在一定程度上揭示了 UMGS 难以捉摸的功能特征,也提高对已知培养的物种的功能的了解。
图8. UMGS 有一个清晰的功能特征。a) 基于 GPs 的主成分分析;b) UMGS 和 HGB 中 Actinobacteria,Firmicutes,Proteobacteria 和 Tenericutes的 GO 注释分类的差异
4
讨论与总结
本研究鉴别出了 1,952 个尚未被培养潜在细菌物种,这些 UMGS 中几乎有一半不能归类到属水平,表明大量细菌多样性仍未被培养;这部分资源将助力该领域的研究。本研究尚存在一些问题有待解决:
① 虽然本研究用的是 92,143 个 MAGs 重构得到 MGS,73% reads 能进行分类,但是这和纯培养一样,算法本质还是偏向高丰度的物种,这意味着还有一些极低丰度的物种仍会被错过。
② 非洲和南美洲的样品数严重不足,所以将这种研究扩展到覆盖全球的大队列是获得人类肠道微生物群景观的完整概述的必要条件。
③ 本研究只关注于细菌,肠道微生物中古菌、真核生物和病毒,需要进行更彻底的调查。
5
M 菌说
本研究的亮点在于如何从宏基因组数据中确定出尚未被培养潜在的肠道微生物。
参考文献
Almeida A, Mitchell A L, Boland M, et al. A new genomic blueprint of the human gut microbiota[J]. Nature, 2019: 1.
撰稿 | 三明治
责编 | Yanni
参考基因(组)集相关文章
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”