查看原文
其他

NM | 跨越人群的结直肠癌肠道菌群特征和诊断标志物

J 多维组学 2022-07-05

26

文献速递

已经有很多研究确定了结直肠癌(CRC)与肠道微生态之间的关系,但是对于找到的生物标记物是否能在不同人群具有重复性依然存疑。文章对 5 个已发表的和 2 个新增人群的 CRC 宏基因组数据集进行了荟萃分析,并再 2 个额外的验证人群中验证了研究发现。本研究总计有 969 个样本参与了分析。

不像消化系统的其他综合征,CRC 的样本比健康对照含有更高的微生物丰富度,一部分可能的原因是由于口腔中微生物向肠道的扩展。

微生态功能的分析结果显示,糖类合成、腐败和代谢通路都与 CRC 相关;同时水苏糖和淀粉的降解通路与健康对照相关。

从多个数据集训练得到的 CRC 特征(signatures),在训练数据和验证数据上都展现了很高的准确性(平均 AUC 0.84)。

胆碱三甲胺裂解酶基因在 CRC 中高度富集,表明了 CRC 与胆碱代谢通路之间有一定关联。


Keywords: CRC, biomarker

Title: Metagenomic analysis of colorectal cancer datasets identifies cross-cohort microbial diagnostic signatures and a link with choline degradation

DOI: 10.1038/s41591-019-0405-7

JournalNature Medicine [IF 32.621]

First Authors: Andrew Maltez Thomas, Paolo Manghi

Correspondence: Levi Waldron, Alessio Naccarati & Nicola Segata

Affiliation: Department CIBIO, University of Trento, Trento, Italy.

Published: 2019-04-01



研究背景


CRC 作为全世界第二大癌症,遗传只能解释 CRC 发病中很小一部分原因。除了已知的风险因素,例如体重、酗酒等,与 CRC 特异相关的环境因素依然不明确。

之前对 CRC 进行的宏基因组研究(包括 16s 和全基因组测序)分析,指出了肠道微生态与 CRC 之间有强相关性。但多个研究中,只有一个研究使用了荟萃分析确定超重与 CRC 之间的关系。因此,大范围、跨人群的分析对得到没有偏好性、肠道微生态与 CRC 之间强的关联非常重要。

本文中重新测序了来自两个不同人群的 140 个样本,并整合了全部已发表的 CRC 项目中的数据,评定了跨人群数据集以及不同状况下 CRC 与肠道微生态的联系。


研究思路


文章中使用的数据集情况:

 

研究结果


1CRC 样品中微生物物种丰富度较高

除一个数据集以外,其余的数据集中 CRC 样本的微生物物种丰富度要高于健康对照,且在其中 4 个数据集中为显著增加。

通过随机效应模型对微生物数量标准化平均差异的荟萃分析证实,与对照相比,CRC 中的物种数量更高。文章进一步检测了之前文章的结论: CRC 相关的微生物组是否更多的是来自口腔相关的物种。结果显示,一共鉴定出161种口腔典型定殖菌,除了一个数据集以外,其他数据集中 CRC 样本的口腔物种的丰富度均增加,且在荟萃分析中显示 CRC 中的口腔物种丰富度显著增加,同时 CRC 中口腔物种的丰度也更高。

总而言之,更大的物种丰富度和丰度可能是 CRC 中肠道微生物组改变的标志,并且可能是由于来自口腔的细菌物种的流入。


2得到一组可在不同 CRC 人群中重现的微生物生物标志物


通过独立的单变量统计(univariate statistics),得到了一些在主要的数据集中都存在的 CRC 的微生物生物标志物: F. nucleatum, Solobacterium moorei, Porphyromonas asaccharolytica, Parvimonas micra, Peptostreptococcus stomatis 和 Parvimonas spp.  和部分仅在小数据集中存在的生物标志物(图1a)。

接下来,通过随机效应荟萃分析,在丰度显著差异的 26 个物种中,确定与 CRC 相关效应最高的物种为 F. nucleatum, S. moorei, P. asac- charolytica, P. micra 和 P. stomatis. 与对照相关的效应最高的物种 Gordonibacter pamelae Bifidobacterium catenulatum (图1b),它们通常被认为是有益的微生物并且已被用作益生菌。


3微生物组的功能潜力也与 CRC 显著相关

比对到 Uniref 的数据库后,重构了相关的微生物功能通路,其中 136 个与 CRC 相关,只有 37 个与对照相关。在CRC和健康对照间差异最大的数个通路中(图1c),分析潜在混杂因素对结果的影响,发现在最差的情况下潜在混杂因素对差异结果也只会造成很小的影响(图1e)

文章发现淀粉,水苏糖和半乳糖降解与对照相关。这些关联可以指示微生物组功能中与饮食相关的变化如何影响宿主。

与 CRC 相关的通路显示出与糖类合成和从发酵途径摄取、代谢氨基酸的能力相关。这些包括负责将不同氨基酸转化为肿瘤促进化合物的途径,肿瘤促进化合物包括多胺(L-精氨酸和L-鸟氨酸降解为腐胺的通路)和氨(L-组氨酸和1-精氨酸降解通路,将L-赖氨酸和L-丙氨酸发酵成乙酸盐,丁酸盐和丙酸盐的通路)。

这些通路(图1c)和上述物种组(图1a,b)构成了一组可在各组群中重现的微生物生物标志物。


图 1. 可重复的跨人群的 CRC 与健康对照间的物种和功能微生物生物标记物A)利用 Lefse 在 MetaPhlAn2 的种水平结果中找的物种生物标记物在不同研究中的情况;B)C)最显著的 20 个特征的合并effect size; D)E)原始数据与年龄、性别、 BMI 之间的线性模型结果。(B)D)基于 MetaPhlAn2 的物种丰度结果;C)E)基于 HUMANn2 的通路丰度结果)。



4利用单一数据集数据在独立数据集中预测 CRC 会降低准确性,合并训练人群从基本上增加了跨人群的准确率


为了验证粪便微生物组可用作可重复的 CRC 预筛选工具的假设,文章使用随机森林对 621 个 CRC 和对照样品进行了组内,交叉组和联合组群内构建分类器,并检验预测准确性。使用种水平的相对丰度数据构建分类器时,AUC 范围为 0.92~0.58,平均为 0.81(图2a)。使用通路数据时,除了文章的人群 1(cohort 1),在大部分数据集中交叉验证的 AUC 降低。使用 Uniref90 基因家族丰度数据时,人群 2(cohort 2)中平均 AUC 为 0.77(图2b)。这些结果表明,虽然交叉验证 AUC 对于某些数据集中的 CRC 预测可能很高,但这些 AUC 在高度可变且与数据集相关。

文章利用 leave-one-data-set-out (LODO)分析的方法,每次从全部人群中剔除一个作为训练数据,被剔除的人群数据作为验证数据,构建合并的数据集分类器。基于种的相对丰度数据得到的分类器结果,在 6 个数据集中都得到了超过 0.8 的 AUC。这种 LODO 方法比单一数据集交叉验证和独立调查具有更大的信息量。基于 LODO 使用不同的宏基因组分析方法和机器学习工具发现了类似的高性能。

为了评估培训数据中的人口多样性与预测效果之间的关系,文章考虑训练数据包含不同数量子集时的预测效果变化。训练数据从含有一个数据集到两个数据集时,AUC 值急剧增加,在进一步添加数据集时,AUC 值得到明显改善(图2c,d)。因此,大量的、异质性的训练数据可改进宏基因组数据集中的 CRC 预测准确性

图 2. A)B)跨人群间的预测模型AUC结果;C)D)训练数据中包含不同的数据集数量导致不同的AUC结果;(A)C)基于 MetaPhlAn2 的物种丰度结果;B)D)基于 HUMANn2 的通路丰度结果)。


5进行精准预测所需的最小微生物特征数量

上文鉴定的用于预测 CRC 的相关微生物组特征包括了所有观察到的物种和基因功能,但对于没有宏基因组测序的临床应用是不切实际的。

因此,文章试图通过利用随机森林分类器的内部特征优先级来确定一组可以满足精准预测所需的最小的微生物特征集合。P. stomatis 是平均等级最高的物种,其他 CRC 相关物种包括 F. nucleatum, Parvimonas spp., P. asaccharolytica, G. morbillorum, C. symbiosumP. micra 对预测准确性也至关重要(图3a)。

为了确定最少需要多少的物种或基因家族数量可以得到与利用全部特征类似的效果,本文计算了随着特征数量变化,得到的分类器的 AUC 变化。在所有数据集中应用该方法(图3b,c),发现最少使用 16 个种的信息就可以在跨人群中得到平均大于 0.8 的 AUC 结果。对于基因家族,只需要 64 个基因家族即可达到平均大于 0.8 的 AUC 结果,剩下的 8,192 个基因家族只起到了很小的影响。

但目前的数据,在腺瘤和健康对照、腺瘤和 CRC 样本中都无法得到有效的分类器。

图 3. A)在交叉验证中,每个物种的重要性情况,只有至少在一个数据集中为重要性最高的 5 个物种之一的结果会在此展示;在利用不同的特征数量的情况下,AUC 的在不同数据集中的变化情况;B)交叉验证的随机森林模型;C)LODO 设置下的结果。



6CRC 中胆碱三甲胺裂解酶编码基因的丰度增加


微生物组织衍生的代谢产物,特别是多胺,已经被证实在动物模型和人类中都与致癌有关。文章选择专注于三甲胺(TMA)相关通路,一种由胆碱和肉碱产生的胺,因为它已被证明在动脉粥样硬化和原发性硬化性胆管炎等复杂疾病中发挥作用。由于膳食成分与 CRC 风险相关,文章假设人肠道微生物组的 TMA 产生潜力也可能与 CRC 相关。

为了验证这一假设,文章考虑了属于 TMA 主要合成途径相关的基因,以量化这些基因在 CRC 宏基因组数据中的存在情况。与 TMA 合成相关的主要基因是编码胆碱 TMA-裂解酶(cutC),左旋肉碱双加氧酶(yeaW)和左旋肉碱/γ-丁基甜菜碱反向转运蛋白(caiT),分别在 923、5,185 和 5,709 个细菌基因组中鉴定出了这些基因。

对 7 个 CRC 数据集的分析结果表示,只有一个数据集中 caiT 基因丰度显著增加;而 yeaW 没有检测到增加; cutC 在五个数据集中都在 CRC 中显著增加,且荟萃分析表示 cutC 丰度与 CRC 状况强相关。

文章进一步分析了编码胆碱 TMA-裂解酶激活酶(cutD)的基因的丰度,也发现了在 CRC 样本中的显著增加。这些证据表明 TMA 的产生优先通过胆碱降解而不是通过肉毒碱发生,并且可能显著影响个体中存在的 TMA 和三甲基氧化胺(TMAO)的量。

腺瘤中的 cutC 基因丰度(图4a)更进一步揭示了 TMA 参与了腺瘤-癌的过程。在人群 1 中利用测序剩余的样本进行 qPCR 确定了 cutC 基因的丰度(图4d),证实了宏基因组数据中展示的结果。同时采样的 RNA 数据中,也揭示了 CRC 样本中 cutC 基因在转录水平的过表达。(图4e)

通过一种参考序列辅助的组装方式,文章得到了样本特异性的 cutC 基因序列,用来分析 cutC 在肠道微生态中行使什么样的功能。按先验的知识,这个基因在基因组中为单拷贝,但是在分析中发现该基因序列发生了很大的分离,最终文章得到了 4 种最主要的基因序列(图4c)。其中最流行的 cutC 序列(占46.5%)来自与一个未知物种。当前的序列信息只能确定其属于 Lachnospiraceae 科,这个序列与非 CRC 样本强烈相关。与 CRC 相关的基因序列一条主要来自 Hungatella hathewayiClostridium asparagiforme,另一条主要来自于 Klebsiella oxytocaEscherichia coli。这个结果展示 cutC 的基因序列与 CRC 的状态也有强烈的关联。

图4. cutC 在不同数据集不同样本中的 RPKM 值情况;B)通过荟萃分析,得到 cutC 在不同数据集中和通过随机效应模型合并的 effect size 结果;C)cutC 的基因序列分型进化树结果,和四个主流的基因序列类型;D)qPCR 验证的 cutC 的基因丰度;E)qPCR 验证的 cutC 的转录本丰度。



7CRC 微生物组预测模型的普适性和特异性检测


在额外的来自德国(验证群组1)和日本(验证群组2)的 100 个 CRC 样本和 105 个对照的患者中,证实了宏基因组预测模型是高度准确的(图5a),当使用种水平丰度模型时,德国和日本队列的 AUC 为 0.90 和 0.81。同时,还验证了在 CRC 样本中多样性和丰富度更高(图5b)。

通过添加其他与肠道微生态相关的疾病样本(克罗恩病、二型糖尿病等)到训练集的对照数据集,观测到 AUC 结果并不会显著改变,说明了目前得到的预测模型对 CRC 特异性,并不会受其他疾病风险的影响。



8与现有的非入侵式鉴定 CRC 的方法比较

通过 ZellerG_2014 队列的 110 个样本的粪便潜血试验(FOBT)和 Wif-1 甲基化试验结果,比较 FOBT,Wif-1 甲基化试验结果与 LODO 得到的微生物预测模型的效果。比较不同方法之间互相结合的 AUC 结果,发现 LODO 的预测模型略微优于 FOBT 的结果,与 Wif-1 甲基化试验的结果持平(图5d)。将多个方法之间互相结果则可以提高模型的特异性。


图 5. A)微生物预测模型在额外的数据集中的预测效果;B)在额外数据集中验证的 CRC 与对照间的丰富度差异、口腔定殖细菌丰度的差异、cutC 基因的 RPKM 差异;C)在添加了其他疾病的数据到训练模型中的对照组后,得到的预测模型在两验证人群中得到的AUC变化;D)LODO 得到的预测模型、FOBT、Wif-1 甲基化试验的方法单独或互相结合对同一数据的预测的真阳性和假阳性变化情况。




M菌 · 笔记


  • 一定程度上确立了使用 LODO 得到跨人群间生物标志物的分析方法;

  • 实验验证了宏基因组中通路的结果:qPRC+RNA 数据验证了 cutC 基因的存在情况;

  • 即使是同一个基因,序列在所有样本中也并不相同,同时可能在不同组别中具有一定特征。



参考文献

Valles-Colomer M, Falony G, Darzi Y, et al. The neuroactive potential of the human gut microbiota in quality of life and depression[J]. Nature Microbiology, 2019: 1.


推荐阅读

1. 知否,知否,结直肠癌的真菌组研究

2. Nature Reviews | 胃肠道中的炎症小体:感染,癌症和肠道微生物群稳态(完整版)

3. Nature Reviews Microbiology | 口腔微生物群:动态群落和宿主的相互作用(完整版)


撰稿 | J    责编 | NSC


本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics


封面图片来源

Thomas A M, Manghi P, Asnicar F, et al. Metagenomic analysis of colorectal cancer datasets identifies cross-cohort microbial diagnostic signatures and a link with choline degradation[J]. Nature medicine, 2019: 1.


END



菌探Momics

    微信号:Momics

 一起探索微生物的奥秘


点击“阅读原文”,阅读英文原文


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存