线性还是非线性，用 GRaMM 便知一二

Original Yanni 多维组学 2022-07-05

文献速递

目前有多种相关分析方法被应用于确定 microbe–metabolite 关系。今天分享一个能考虑不同组学数据的特点，适用于 metabolome （代谢组）和 microbiome （微生物组）的分析策略— GraMM (Generalized coRrelation analysis for Metabolome and Microbiome)。GRaMM 通过整合多种方法可以处理两类组学数据，消除混杂因子的影响，获得线性和非线性的关系。GRaMM 包括 4 个步骤：代谢组和微生物组数据的预处理；线性或非线性关系的识别；数据矫正和相关性计算；p 值矫正。在多个模拟和真实数据集中，与其他三种方法比较，评估 GRaMM 的性能：准确性，敏感性，特异性，假阳性率，适用性以及数据预处理和混杂调整步骤步骤的效果。GRaMM 是为代谢组和微生物组的相关性分析设计的策略。Matlab 函数和 R 包免费提供，供学术研究使用。

Keywords: GRaMM, MIC, MECC, preprocessing, confounder adjustment

Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome

DOI: 10.1021/acs.analchem.9b02948

Journal: Analytical Chemistry [IF 6.35]

First Authors: Dandan Liang, Mengci Li

Correspondence: Wei Jia, Tianlu Chen

Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine, Shanghai Jiao Tong University Affiliated Sixth People's Hospital, Shanghai, China.

Published: 2019-10-22

研究背景

在组学研究领域，Pearson, Spearman, LR, SparCC, CCLasso 被用于确定微生物组的相关性。maximum information coefficient （MIC）可以捕获线性和非线性相关性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被应用于微生物组和代谢组的相关性分析。

代谢组和微生物组数由于获取方式的不同，数据特征不同。代谢组数据是连续谱数据，微生物组是基于序列的“计数”方法。此外，代谢组数据是高度稀疏的，通常用相对丰度表示。因此，数预处理（如：归一化，log转换）对下游分析有益。混杂因子（如：年龄，性别，饮食等）可能导致结果偏差。计算相关性时，可以用少量方法（如：LR 和净相关）调整混杂因子。真实数据集中中存在多种类型相关性（线性，非线性和无相关性）。除了MIC，其他现存分析方法都只能捕获线性或单调相关性。

GRaMM 综合考虑上述挑战和现存方法的特征，并系统地评估 GRaMM 的效果：（1）在模拟数据集中，与其他三种方法（LR, Spearman 和 MIC）比较，评估基本性能（如：准确率，敏感性，特异性和假阳性率）。（2）在真实数据集中，用 GRaMM 数据重分析，比较结果。（3）用 4 个真实数据集，基于不同样本来源（mice, rats 和 human）以及不同数据类型（脑组织，肠内容物，盲肠内容物和粪便），测试 GRaMM 的适用性和重复性。

研究思路

GraMM 流程图：（1）预处理：代谢-- log 转换和总强度归一化；微生物-- 总强度归一化，稀释和居中对数比变化。（2）确定相关类型：线性：p<0.05 或 r > 用户设定的值；非线性：不满足上述条件。（3）混杂因子：线性（无）-- LR；线性（有）-- mLR（微生物数据和混淆因子做自变量，代谢数据是因变量）；非线性（无）-- MIC；非线性（有）-- MCEE 移除特定混杂因子的影响，不需要额外实验，不丢失样本/变量。

研究结果

1模拟数据比较四种方法

作者首先模拟两个没有混杂因子的模拟数据集（SDatabase1，SDatabase2），随之进行数据预处理：微生物组数据用总强度归一化。

SDatabase1：240 组线性对和 120 组非线性的微生物-代谢物对
SDatabase2：240 组随机产生的无相关性的微生物-代谢物对

使用 SDatabase1 数据集的 240 对线性相关数据，比较 4 种方法的效果。结果发现：与 spearman LR 相比，GRaMM 的 r 值离散程度小（图 1a）；GRaMM，LR 和 Spearman 的 RMSE 值(root means square error，准确性评估指标) 低于 MIC （图 1b）。表明：MIC 适用于非线性关系。

使用SDatabase2 数据集，发现：GRaMM 的 FPR (false positive ratio，假阳性率) 高于其余三种方法（图 1c）。因为 GRaMM 综合利用 LR，MIC 以及其他方法，尽可能多的找相关的配对。p 值矫正减少假阳率。

使用 SDatabase1 和 SDatabase2 数据集，ROC 分析计算 4 种方法的 p 值。GRaMM 有最高的AUC值 (0.971)，最低的 SE值（0.006）（图 1d）。GRaMM 优于其他的线性分析方法(LR 和 Spearman)。

使用 SDatabase1 中的 120 对非线性的microbe–metabolite。发现：相较于 LR 和 Spearman，MIC 和 GRaMM 可以确定更多的相关对（图 1e）。MIC 和 GRaMM 的 RMSE 值低于 LR 和 Spearman（图 1f）。基于F1函数得到的非线性对，GRaMM 的结果和Spearman 和 LR 更接近，关系更接近线性（图 1g）；基于 F2-F6 函数得到的非线性数据对，GRaMM 的结果和 MIC 更接近，关系更接近非线性（图 1h-1l）。

总之：GRaMM 在准确率，敏感性，特异性和识别线性以及非线性关系的能力方面优于其他方法。

图 1. 基于模拟数据集，比较 4 种方法的性能

2数据预处理的效果

代谢数据做 log 转换；微生物组数据做总丰度归一化和 log-ratio (CLR) 转换。

基于 SDatabase1 和 SDatabase2 数据集，比较数据预处理的效果。发现：代谢数据（图2a）和微生物组数据（图 2b）处理后更接近正态分布。此外，还发现：数据预处理之后，GRaMM，LR 和Spearman 方法的 AUC 值增加；MIC方法没有变化（图 2c）。可能是由于 MIC 受数据分布和结构影响较小。

GRaMM 的数据预处理几乎对所有的该方法都是有益的。

图 2. 基于模拟数据集，有效的数据预处理

3Real Dataset 的评估结果

使用的2个真实数据集：

RDatabase1：42 只小鼠的 17 个门水平的微生物和 14 个代谢物
RDatabase2：42 只小鼠的 18 种胆汁酸和42 个 Firmicutes 下的 genu/species

基于不同的距离方法（Unweighted Unifrac, weight Unifrac, Hellinger, JSD, Spearman,

使用 RDatabse1 ，评估 GRaMM 的性能和数据预处理的效果。发现：GRaMM 可以确定更多的相关对，数据预处理后，MIC 的相关对减少的较少（图 3a）。GRaMM 联合LR 和MIC 方法，捕获线性和非线性关系。更多的线性关系确定，GRaMM 与 LR 和 Spearman 结果更相近。混杂因子调整之后，GRaMM 和 LR 的相关对数目较少（|r| > 0.5 或 |r| >0.3）（图 3b）。这证明了 GRaMM 可以确定更多的关系对，数据预处理和混杂因子调整对结果重要。

使用 RDatabase2，Spearman 和 GRaMM 分析发现：基于 |r|>0.5 和 p<0.05 标准，确定 38 个相关对，14个为共有相关对（图 3c）；GRaMM 的 R 值高于 Spearman（图 3d）；10 个 Spearman 特有的关系对可能是由混杂因子导致的；14 个 GRaMM 特有的关系对可能是由非线性关系导致的（图 3e）；两种方法得到的TDCA~ Staphylococcus spp. 关系对结果的不同可能是由于 3 个异常值，GRaMM 混杂因子矫正之后，数据更分散以及相关性不同导致的（图 3f-g）；两种方法得到的 GCA~ Bacillus cereus 关系对结果的不同可能是混杂因子导致的（图 3h-i）；两种方法得到的 alpha-MCA ~ Clostridium colinum 关系对结果的不同可能由于非线性关系导致（图 3j-k）。

图 3. RDataset1（a-b）和 RDataset2（c-k）的结果

4GRaMM 的适用性

使用的4个真实数据集：

RDatabase2：42只小鼠的 18 种胆汁酸和 Firmicutes 门下的 42 个genus/species
RDatabase3：12只小鼠的 20 种胆汁酸和 Firmicutes 门下的 100 个genus/species
RDatabase4：10 只小鼠的 39 种胆汁酸和 Firmicutes 门下的 65 个 genus/species
RDatabase5：37 个人的 22 种胆汁酸和 Firmicutes 门下的 100 个 genus/species。

首先对代谢组数据做 log 转换，微生物组数据做归一化和 CLR 转换。使用 4 个真实数据集，GRaMM 分析确定最相关的对（图 4）。在所有数据集中，GRaMM 发现了3 个一致的 microbe–metabolite：Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA)，Ruminococcus gnavus ~ chenodeoxycholic acid （CDCA）和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中，先前研究中已经发现前两个相关对，第三个相关对是新发现的。先前研究中发现：SMB53.spp 在T2D 小鼠中高丰度；高脂饮食小鼠中丰度降低。GDCA 是结合次级胆汁酸，营养吸收和各种细胞信号通路的调控分子，促进多囊性人胆管细胞的增殖，减少法尼醇X受体（FXR）的表达。FXR 是配体激活的核受体，调节肝胆汁酸的合成，转运和分泌。这些证据支持这一关联，但是需要大量实验来验证这种关联以及确定这个关联的调节方向。

图 4. 使用真实数据集，4 种方法确定显著相关对的比率（p<0.05 和 FDR<0.05）

结论与讨论

GRaMM 能比较集成地处理代谢组和微生物组关联分析，能处理数据预处理，相关模型选择，矫正混杂因子，p 值矫正等，以确保得到可信的结果。但是，GRaMM 的结果仍需要进一步的数据和实验验证。

M菌 · 笔记

源代码和数据集存放路径：https://github.com/chentianlu

参考文献

Liang, D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91, 14424-14432 (2019).

推荐阅读

1. 粪便代谢 or 血液代谢，这是一个问题

2. NC | 预测代谢组新工具 MelonnPan

撰稿 | Yanni 责编 | NSC

本文系菌探Momics（ID：Momics）原创，欢迎个人转发分享。其他任何媒体、网站如需转载，须在正文前注明来源菌探Momics。

END

菌探Momics

微信号：Momics

探索 · 分享 · 合作

点击“阅读原文”，阅读英文原文

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

线性还是非线性，用 GRaMM 便知一二

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

线性还是非线性，用 GRaMM 便知一二

您可能也对以下帖子感兴趣