Cell | 基因集上新,覆盖9千个人体宏基因组,15万个微生物基因组
16
文章速递
作者收集了共 47 个数据集,9,428 份人类宏基因组测序样本,经过组装、分箱、注释物种等分析,最终得到了 154,723 份高质量的基因组结果。这些基因组与 80,990 个已知基因组合并分析得到 16,332 个 SGBs(species-level genome bins),其中 4,930 个 SGBs 与人相关,而其中 3,796 个 SGBs 都是未知的物种基因组,这极大丰富了人类的微生物基因组参考序列。
对比之前缺乏研究的非西方化人群,利用新的微生物组参考序列,增大了宏基因组数据的可比对性,并鉴定出了未被分离培养的菌株,与非西方化人群的饮食生活习惯密切相关。
关键字: Reference genomes database
Title: Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle
DOI: https://doi.org/10.1016/j.cell.2019.01.001
Journal: Cell [IF 31.398]
First Authors: EdoardoPasolli
Correspondence: Nicola Segata
Affiliation: CIBIO Department, University of Trento, Trento, Italy
Published: 2019-1-24
1
研究背景
缺乏可靠的参考基因组一直是宏基因组分析中的巨大挑战,本文通过细致的生物信息学方法,配合实验验证,得到了一个适合人类宏基因组分析的参考基因组。
2
研究思路
样本来源于 32 个国家,在人体 4 个不同的部位取样,共得到 47 个数据集,9,428 份宏基因组样本。
整体分析流程(图2):
① 组装得到 contigs;
② 分箱得到初步基因组结果;
③ 通过完整性、污染比例、杂合度对基因组进行质量筛选;
④ 筛选的高质量和低质量基因组与参考序列合并进行聚类分组得到 SGBs;
⑤ 对 SGBs 进行物种注释;
⑥ 得到最终的参考基因组数据集。
图1. 文章的样本来源情况介绍,以及对应的人体取样部位。文章主要结论:本研究一共有 9,428 个宏基因组样本,得到了 154,723 个基因组,这些基因组可以分为 uSGB(未知物种基因组分箱)和 kSGB(已知物种基因组分箱)
图2. 文章整体的分析流程
3
研究结果
新参考数据集增大了人类微生物组的多样性和可比对性
将样本比对到新参考数据集,与比对到原参考序列(来源于 NCBI、UniProt 和已发表文章的 80,990 个基因组)的结果进行比较。平均而言,粪便样本的可比对性 (mappability) 增加了 29.14%,可达到 87.51%(图3A),而口腔样本的可比对性增加了 26.40%,达到82.34%(图3A)。特别对于非西方化人群,可比对性的增加更为显著(图3B)。
将马达加斯加人群样本作为非西方化人群的代表进行了更细致的分析。马达加斯加队列丰度较高的 kSGB 大多数都不是可分离培养的细菌基因组,而是先前宏基因组项目组装的序列(图3C)。并且这些缺乏研究的 kSGB 和 uSGB 可以明确区分非西方化 / 西方化生活方式人群的肠道微生物组(图3D)。在非西化人群中能得到更多 uSGB 的原因可能是对这些人群及其肠道微生物的多样化的研究相对较少。
图3. A)9,428 个宏基因组和 389 个未用于构建 SGB 的样本,比对到 154,723 个重建基因组和 80,990 个原参考基因组的可比对性的变化情况。B)非西方化人群比西方化人群的肠道微生物组的宏基因组可比对性增加更多(7,059 个西方化样本平均增加 26.50%,454 个非西方化样本增加 96.56%)。C)马达加斯加样本中的高丰度基因组比对率结果。D)所有样本的 Bray-Curtis 距离的多维缩放结果。展现了不同身体部位、年龄和西方化、非西方化人群之间微生物群落的显著差异。
与非西方化人群密切相关的uSGB 及其亚种
马达加斯加人群与西方人群相比,有 49 个 SGB 高度富集,8 个 SGB 缺乏。缺乏的都是 kSGB。而在非西方人群中最富集的 Succinatimonas 暂时没有可分离培养的菌株;该物种是 2010 年才被鉴定出来,被认为是农村人群富含的特征微生物。在非西方人群中富集的还有不常见的 Elusimicrobia(通常是从白蚁或其他昆虫中发现),与它进化距离最近的可分离培养的菌株有之间依然有 22% 的基因组差异,其在非西方人群中有高达 15.4% 流行率,平均 0.73% 的丰度,而在西方人群中只有 0.31% 的流行率。
不同生活方式之间的微生物组织差异也反映在功能水平上,硫能量代谢(ko00920),维生素 B12 补充(ko00860)和钠离子特异性 ATP 合酶操纵子 NTP(ko00190)是西方化微生物组中显著富集 KEGG 功能模块。有些功能在两人群中由不同的酶和通路实现。例如,两人群中都存在广泛的抗生素合成基因(图4E),但西方化人群的 SGBs 富含编码青霉素和头孢菌素的合成通路(ko00311),而非西方化的人群中富集大环内酯类抗生素合成通路(ko00523)。微生物的功能潜力与人群的饮食、代谢、遗传都有关系,并且肠道微生物组有多种方式适应人类宿主的多样性。
图4. A)112 个马达加斯加肠道宏基因组中,共有 49 个 SGB 显著富集, 20 个 SGB 相对于西方肠道微生物组显著降低。B)非西方化人群中显著差异的 232 个 SGB 中最显著的 40 个 SGB 的丰度情况。C)与非西化生活方式最相关的 Succinatimonas SGB 内的基因组遗传距离分析。西方化样本组装得到的少数基因组紧密地聚集在一起,而来自非西方化种群的菌株则对于每个地区人群都是独特的,并且没有很好的可代表全部菌株的组装结果。D)马达加斯加群组中富集的两个属于Elusimicrobia 门的 uSGB(ID 19692和ID 19694)。 E)西方化和非西方化人群之间功能显著差异的 25 个 SGB。
一个在非西方化人群中高丰度的未分类梭菌在进化距离上介于瘤胃球菌属(Ruminococcus)和粪杆菌属(Faecalibacterium)之间
在全部样本中 1,153 个 uSGB 总共含有超过 13,000 个基因组,其中, uSGB(ID 15286)包含1,813个基因组,本文将其命名为“Candidatus Cibiobacter qucibialis”,是流行率最高的 uSGB 。该物种在系统发育上位于粪杆菌属(Faecalibacterium)和瘤胃球菌属(Ruminococcus)之间(图5A),肠道微生物组的关键成员通常以相对较低的丰度存在(1.84% 粪肠球菌 kSGB,1.29% Ruminococcus kSBG,和 2.47% Ca.Cibiobacter qucibialis) 。另外还有六种高流行率的 SGB 进化上处于 faecalibacteria 和 ruminococci 之间(图5A)。 这7种 SGB 中只有一种有对应的可分离培养的细菌基因组。这种普遍存在的 7-SGBs 进化枝包含 3,370 个重建的基因组,这些基因组丰度在某些样本中非常高(在超过 200 个样品中相对丰度 > 5%)因此在人微生物组中非常重要,但迄今为止都被忽略。
在 Ca. Cibiobacter qucibialis 的 1,813 个基因组构建的最大似然全基因组系统发育树中(图5C),非西方化群体的基因组处于在单一子树中。该子树包括来自马达加斯加微生物组的 26 个菌株,以及来自其他三个非西方化生活方式相同但地理位置不同的群体的菌株(图5D)。虽然非西方化子树只包括很少的基因组(占总数的 2%),但这是由于取样的限制导致的。西方化样本没有明显的内部聚类(图5C)。这表明肠道微生态生态建立过程中,宿主生活方式和生物地理差异也发挥了巨大的作用。
SGB 的功能分析可以区分每个进化枝和 Ca. Cibiobacter qucibialis 的代谢特征。在非西方化人群中,例如前驱蛋白-2 的维生素 B12 的生物合成途径,缺少一些西方化菌株,是使用其他途径产生维生素 B12。这与生活方式的差异显著相关,表征了 Ca. Cibiobacter qucibialis 是非西方化人群中富集的菌株。
图5. A)所有 SGB 的系统发育树结果。 B)6个 uSGBs 和由 Gemmiger arcicilis 组装的 kSGB 存在属水平以上的遗传差异(平均 16.6% 的核苷酸距离)。C) Ca. Cibiobacter qucibialis中 1,806 个基因组的全基因组系统发育。 D)Ca. Cibiobacter qucibialis 的基因组之间遗传距离的 MDS 分析。E)马达加斯加相关的 Ca. Cibiobacter qucibialis 菌株。
4
讨论与总结
① 本文构建了 15w 重建基因组数据库,提高了宏基因组数据比对率。数据库在验证数据中也能得到很好的比对率结果。
② 非西方人群的欠采样,导致其基因组信息和功能还需发掘。
③ 按目前的结果依然有 ~10% 的 reads 无法比对,可能来自病毒和真菌。
5
M 菌说
在构建参考基因组序列时,除了常用的生物信息学方法,本文通过实验验证了部分常见的可培养菌株。
分离培养了 8 个物种的 18 株菌株,将 36 个组装结果进行比较。计算两两间的 ANI,除了一株,其他的都非常相似。对于不同的一株,使用 MLST 分型和 StrainPhlAn 发现菌株发生从 ST45 替换成了 ST273(即分离培养和鉴定出来的 genome 不是同一株)。综上证明了重建的基因组的可靠性。
图6. 来自分离培养的的基因组(I)与五种从宏基因组中重建的双歧杆菌基因组(M)之间的相似性百分比情况。大圆圈标记来自相同样本的基因组,小圆圈标记来自相同受试者的样本。在所有情况下,这些基因组几乎与预期的分离菌株的基因组相同。
参考文献
Moeller A H, Suzuki T A, Phifer-Rixey M, et al. Transmission modes of the mammalian gut microbiota[J]. Science, 2018, 362(6413): 453-457.
撰稿 | yiqi
责编 | Bing
本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics。
菌探Momics
一起探索微生物的奥秘
点击“阅读原文”,阅读英文原文