查看原文
其他

NBT | 800 个肠道微生物菌株基因组又上新

XueFeng Xie 多维组学 2022-07-05

17

文章速递


本研究发布了人体胃肠道细菌培养集(Human Gastrointestinal Bacteria Culture Collection,HBC),该集合包括 737 个全基因组测序的菌株,代表了在人体胃肠道微生物中发现的 31 个科, 273 个物种(105 个 novel 物种)。HBC 使已有的人体胃肠道细菌基因组数量增加了37%。

作者合并了 HBC 基因组和来自 NCBI 的 619 个公共的、高质量的与人胃肠道细菌相关的基因组数据,产生了人体胃肠道细菌基因组集(Human Gastrointestinal Bacteria Genome Collection,HGG),与人类微生物组计划(Human Microbiome Project,HMP)基因组集相比,HGG 将系统分类效率提高了 61%,近 50% 的序列可被归类到亚种级。


关键字: Bacterial genome, Bacteria Culture Collection and Bacterial isolates

Title: A human gut bacterial genome and culture collection for improved metagenomic analyses

DOI: 10.1038 / s41587-018-0009-7

Journal: Nature Biotechnology [IF 35.724]

First Authors: Samuel Forster and Nitin Kumar

Correspondence: Samuel Forster and Trevor D Lawley

Affiliation: Host-MicrobiotaInteractions Laboratory, Wellcome Sanger

Published: 2019-02-04

1

研究背景

人类胃肠道内存在多种多样的、动态的微生物群落,它们直接影响着人类的生物学和健康。这个复杂的生态系统由细菌主导,但也包括病毒、古生菌、真菌和其他真核生物。宏基因组测序是研究自然和人工环境中胃肠道微生物和其他微生物的主要方法。16S ribosomal RNA(rRAN)扩增子测序,能够描述细菌和古细菌组成成分分类水平的特征,并能检测微生物群落的结构变化。然而, 那些高度相关甚至是同一物种的菌株,生物学相关表型也可能存在差异,这些菌株的差异通常不能通过扩增子测序来区分。而鸟枪法宏基因组测序可对微生物整个基因组的内容进行评价,也可实现微生物的精确的分类和准确的功能配置,但除非宏基因组序列可以解释和去揭示目前所有的物种和菌株。

目前的计算方法可实现从宏基因组样本中提取物种甚至亚种级信息。然而,这些方法从根本上拘泥于对序列覆盖度的要求,并有着不能区分近缘细菌类的限制。此外,相比来自于纯培养的高质量参考基因组,从 de novo 组装中获得的基因组可能是不完整的,也可能代表嵌合体物种。这些因素降低了高分辨率分类学分类的准确性并限制了宏基因组衍生的基因组的功能分析。有表明,许多人的胃肠道菌群中存在着多种相同细菌物种。这意味着目前迫切需要提高宏基因组分析的准确性和精确性,以开发基于微生物的治疗用于功能验证。

大量的工作已投入到从不同环境中组装细菌参考基因组,包括 HMP 已经测序了人体 18 个部位的细菌。然而,由于个体间的多样性和以往培养方法的局限性,大多数物种仍然不能被分离,归档和基因组测序。随着细菌培养方法的改进,目前在实验室里培养和纯化大多数细菌已经成为可能。

2

研究结果

人体胃肠道细菌培养集的组装

为了组装完整的人体胃肠道细菌分离物,作者培养和纯化了来自 20 个成年人粪便样本的细菌菌株,其中 8 个来自 United Kingdom,12 个来自 North America。作者合计挑选了超过 10,000 个细菌分离物,然后使用 16S rRNA 测序方法进行分类学分类。合并之前报道的 234 个人胃肠道分离物,HBC 中共包含了 737 个纯化和归档的分离物。该集合包含 4 个门、31 个科和 273 个种,其中 4 个门分别是放线菌门、拟杆菌门、厚壁菌门和变形菌门。

作者合并了 HBC 基因组和来自 NCBI 的 619 个公共的、高质量的与人胃肠道细菌相关的基因组数据,产生了 HGG 集。很明显,在 HGG 集中 53% 的代表物种可以归档到 HBC 中。剩余的物种存在于 HGG 中,但未归档 HBC 中,这些物种包括梭杆菌门、变形菌门和互养菌门成员,他们是未在发达国家的健康人肠道中被发现的较有代表性菌。这表明,需要从多样化的健康和病患供体中进一步定向培养,以便详尽地归档人类胃肠道微生物群的细菌构成。

在 HGG 中的 1,354 个基因组数据中,包含 6 个门、57 个科和 530 个种,6 个门分别是放线菌门、拟杆菌门、厚壁菌门、梭杆菌门、变形菌门和互养菌门。为了了解这些分类单元的系统发育关系,本研究从每个基因组中提取 40 个通用核基因,并进行了系统发育分析(图 1)。总的来说,系统发育多样性最大的是厚壁菌门,特别是梭菌纲、丹毒纲和阴性纲;然而,在所有的门中都有种类繁多的物种和系统发育群(图 1)。

 

图 1.  Phylogeneticdiversity of the human gastrointestinal microbiota genome collection

HGG 改善胃肠道宏基因组分析

在没有参考基因组的情况下,对于宏基因组测序数据最先进的分析方法是基于原始测序数据的 denovo 组装,然后用 contigbinning 产生宏基因组组装基因组序列(metagenome-assembled genome sequences,MAGs)。为了比较 de novo 组装和分箱到 reference-based metagenomic analysis(RBMA)的效率,作者采用了 13,490 个来自粪便的、开源的鸟枪法测序宏基因组样本数据,这些数据有足够的覆盖度,可以满足 de novo 组装要求。De novo 组装和 contigbinning 识别了 11,892 个样本,这些样本的质量足以产生长度大于或等于 2,000 bp 的 contigs。在 9,548 个组装结果中,满足完整性 > 90% 并且污染 < 5% 的 bins 合计 39,913 个(简称 MAGs)。这些 MAGs,至少有 15 个 tRANs 的占 81%,进一步强调其高水平的完整性,然而,这些 MAGs 的 read bases 只占总数的 61%(图 2. a)

为了比较单独的 HBC 基因组集和完整的 HGG 分别与现有 HMP 基因组的差异,作者将三个独立的数据集作为参考基因组集,比较识别到的 MAGs 的差异。HGG 能识别 25,085 个 MAGs,与 HBC 基因组集识别的 20,772 个 MAGs 一致。同时,来自身体 18 个部位的 HMP 数据集能识别 16,476 个 MAGs,而当 HMP 分离物数据仅包含胃肠道数据集时(HMP-GI),能识别 15,156 个 MAGs。与完整的 HMP 相比,使用 HGG 作为参考集时,识别 MAGs 的能力改进了 52.3%(图 2. b)。由于 HGG 的基因组比 HBC、HMP 和 HMP-GI 的基因组大得多,接下来,本文对每个基因组数据库进行 bootstrapped subsampling,并通过平均核苷酸标识将所选基因组识别的 MAGs 与之前识别的 MAGs 进行比较。考虑到 subsample 400 个基因组,HGG 有 19,545 个匹配,HBC 有 19,036 个匹配,HMP-GI 有 14,906 个匹配以及 HMP 有 9,655 个匹配(图 2. c)。由于 HMP  数据集包含了非肠道物种的基因组,故其分类受阻。明显地,使用 HGG 和 HBC 基因组能实现更多的匹配,表明这些数据集中包含更具有代表性的系统发育多样性。因此,我们的分析说明了 HGG 与现有的基因组数据相比,将系统分类效率提高了 61.1%。

图 2. Comparisonof high-quality reference genomes from de novo assembly and HGG

宏基因组数据中基于系统发生学的基因组覆盖度估计

尽管可以使用 de novo 组装和分箱的方法产生 MAGs,对于本研究的 13,490 个鸟枪法宏基因测序样本的数据来说,该方法仍然有 83.9% 的 reads 不能分配。为了解决这个限制,本文将所有 de novo 组装的 contigs 与 HGG 进行比较,以确定当使用更大比例输入数据时的分类能力。应用该方法,74.5% 的 contigs map 大概接近属水平,而 67.3% 的 contigs 可分配至物种水平上(图 3. a)。显而易见的是,40.8% 的 contigs 可归为种及以下水平,尽管在  HGG  中不包括从这些样品中培养的任何分离物(图 3. a)。

考虑到 HGG 提供的分类改进方法,接下来,本研究采用最低共同祖先 RBMA 数据来评估总体分类效率。较于宏基因组 de novo 组装和分箱方法,RBMA 将序列分配给参考基因组时,需要的测序深度低,故 RBMA 对低覆盖度样本数据的适应性更强。对于这些数据集,大规模鸟枪法宏基因组数据集的RBMA 要求处理每个样本的时间中位数为 7.3 分钟,同等的 de novo 组装则需要 12.19 小时。这为处理更多样本提供了一种所需计算性能大幅降低的方法,克服了阻碍宏基因组研究的统计 power 限制。

因为错误的 reads 分配,细菌群体和群落中可移动原件的水平基因转移会限制我们识别真实物种组成的能力,为解决与水平基因转移相关的混淆因素,并提供一个更精确的分类覆盖估计,本研究生成了一个更全面的移动元件列表,其包括在欧洲核苷酸档案中发现的插入序列和质粒,结合了在 HGG 中预测的移动元件在人类胃肠道微生物群中发现的已知移动元件,其代表了最全面的移动元件数据库。当我们应用最低共同祖先 RBMA ,使用移动元素过滤 HGG 时,原始 reads 在属水平上的平均分类为 82.9%,种水平上的平均分类为 78.7%。总的来说,这些分析表明,即使在考虑不同地理种群的样本时,使用 HGG 也可以对来自人类胃肠道微生物群的大部分宏基因组数据进行高分辨率分类(图 3. b)

图 3. Classificationefficiency using the HGG

人类胃肠道的细菌多样性

作者力图通过 HGG 了解哪些物种在人类胃肠道微生物群中是最为普遍的。作者推断,那些在许多个体样本中高度流行的物种可能在人类生物学中发挥重要作用,应该进一步深入研究。本研究识别了 165 个在任一个样本中比例大于 0.01%,且同时存在大于 2 个无关样本中的物种。这些优势物种包括拟杆菌、厚壁菌门、变形菌门和放线菌门。考虑到每个门的流行度背景,发现拟杆菌门的物种数量比例过高,而厚壁菌门的物种数量比例过低。

考虑以上背景水平,被检测到的所有物种中优势物种的大多数仍然是拟杆菌门的成员。总计,前 20 个普通的物种中有 8 个是拟杆菌属的成员。当校正每个系统发育群内的物种数量时,通常是拟杆菌比例显著过高( 图 4. )。尽管在厚壁菌门中有三个种超过 346 个物种 ,仅有 6 个远亲的厚壁菌物种在许多个体中比例过高( 图 4. )。总的来说,所有在厚壁菌门中检测到的属在其发生率中均为统计学上的过低。有意思的是,在考虑检测水平上,梭菌(Fusobacteria)或增效菌(Synergistetes)的成员不是普遍存在的,表明他们在一定条件下或特定的生活阶段才能被检测到,故没有被包含在本次分析结果中。

这些数据表明,在人类胃肠道内的拟杆菌的特定成员可能是一个潜在的关键角色。相反,在厚壁菌门中观测到明显更大的多样性,潜在的功能冗余组与之前报道的孢子介导的动态传播和周期一致。尽管基于实验室的表型分析检测到许多关键的物种,然而,通过该方法鉴定物种仍然有限,现在可以通过访问在 HBC 中的分离物文件的存档来解决这个问题。

考虑到 HGG 中包含的 novel 基因组的多样性阵列,本文接下来关注这些物种在种群中的流行度。值得一提的是,这些可用的基因组数据首次用于评估这些物种在宏基因组数据中的流行度。173 个 novel 基因组中有 106 个,在 13,490 个公开的宏基因组样本中至少在一个样本中相对丰度大于 0.001%。很显然,几乎一半物种出现在 > 100 个样本中,但是少于 1 / 4 物种出现在 > 1000 个样本中。有趣的是,在梭菌目中的 3 个 novel 物种在近一半的样本中都有发现。2 个 novel 毛螺菌科分别在 7,797 和 7,074 个样本中被发现,一个新的疣微菌科物种在 6,777 个样本中被发现。总体来说,这些数据表明,通过这项工作发现的许多 novel 物种和基因组经常出现在人类群体中,它们可能代表了人类胃肠道微生物群的组成部分,值得进一步研究。

图 4. Dominant bacterial species within the humangastrointestinal microbiota

人体胃肠道细菌的功能

这种基因组测序细菌分离物的广泛收集,能高度解析功能和分类分析。我们首先对蛋白序列使用蛋白 clusters of orthologous group(COG)注释,进而识别普遍存在于 HGG 细菌中的蛋白特征。该分析识别了 4,696 个至少存在于一个分离物的不同直系同源组。

为了了解胃肠道微生物四种主要细菌门的成员在功能上的差异(Bacteroidetes、 Firmicutes、 Actinobacteria and Proteobacteria),本文比较了使用 discriminant analysis of principle components(DAPC)方法,用 COG 分析识别得到的 4,696 个直系同源组。比较结果表明,人类胃肠道微生物的关键门之间存在着明显的功能差异(图5)。接着进行了富集分析,识别相对存在于 HGG 中但在门水平中被过度表达的功能。该分析在放线菌门、拟杆菌门、厚壁菌门和变形菌门中分别识别出 8、122、152 和 389 个有统计学意义的富集功能。放线菌门的富集功能是受限的,这些被鉴定的富集功能主要与脂质和碳水化合物代谢有关。拟杆菌门特异功能的 Equivalent 分析确定了许多关键功能,包括铁和硫转运体功能和特异性钠转运 NADH 泛素氧化还原酶。厚壁菌门是由未做特异性标注的功能占主导,孢子形成,硫胺素和核黄素转运在厚壁菌门中是高度富集的。最后,变形菌门富集功能由果糖二磷酸酶,葡糖激酶和铁簇形成的调节器主导。这些结果表明,在人类胃肠道微生物的关键门所提供的独特的功能方面存在着明显的差异。同时,未做特异性标注的功能的流行度进一步表明,我们需要更好的基因组注释和功能基因组学来了解这些细菌。

HGG 数据集包含了之前没有从人体胃肠道中分离出来的 173 个物种基因组。这些基因组来自包含在 HBC 中的 105 个 novel 物种基因组和 68 个来自人体胃肠道基因组测序分离出来的已知物种基因组。为了探究这 173 个物种在之前报道的基因组测序物种中没有被发现的功能是什么,本文进行了功能分析。在 45 个新描述的功能中,有 41 个在厚壁菌门中被识别。这些功能由没有特征的蛋白主导,novel 功能包括与四氢甲基转移酶相关的功能,前蛋白移位酶和甲烷生成所必需的甲醛活化酶。另外,根据之前基因组标签的定义,83.2% 的新测序分离菌株和 85.8% 的 novel 新物种被预测形成孢子。

图 5. Bacterialfunctions in the human gastrointestinal tract

3

讨论与总结

本文提供了一个胃肠道细菌基因组和培养集,大大增加了在发达国家宏基因组样本中发现的物种比例。鸟枪法宏基因组测序方法还没有在世界上许多人口进行,因此,目前还无法准确评估培养菌在整个人类种群中的比例。文章强调扩大、协调全球培养工作,特别注重从发展中国家和发达国家分离的多样化的社区样本和细菌分离物。

尽管微生物学的病原和模式生物的特征研究在过去 100 年占主导地位,但与人类健康相关的共生菌研究已经远远滞后。共生菌的培养,基因组测序和分离存档,对基于微生物的人胃肠道分析有极大的提高。传统的微生物学方法可以使我们持续地获得细菌分离物,以进行实验表征和验证,并增强我们对重要的人类相关微生物群落的理解。

4

M 菌说

①  发布人体胃肠道细菌培养集(HBC)数据,HBC 包含了来自 4 个门、31 个科、273 个种的 737 个菌株的全基因组数据;

②  HGG 中的 1354 个基因组数据包含 6 个门、57 个科和 530 个物种;

③  HBC 使已有的人体胃肠道细菌基因组数量增加了 37%;

④  HGG 将系统分类效率提高了 61%,近 50% 的序列可被归类到亚种级。


参考文献

Forster S C, Kumar N, Anonye B O, et al. A human gut bacterial genome and culture collection for improved metagenomic analyses[J]. Nature biotechnology,2019, 37(2): 186.

撰稿 | Xuefeng Xie

责编 | Shiqi


本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics

菌探Momics

一起探索微生物的奥秘


点击“阅读原文”,阅读英文原文


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存