查看原文
其他

线性还是非线性,用 GRaMM 便知一二

Yanni 多维组学 2022-07-05



48






文献速递




目前有多种相关分析方法被应用于确定 microbe–metabolite 关系。今天分享一个能考虑不同组学数据的特点,适用于 metabolome (代谢组)和 microbiome (微生物组)的分析策略— GraMM (Generalized coRrelation analysis for Metabolome and Microbiome)。GRaMM 通过整合多种方法可以处理两类组学数据,消除混杂因子的影响,获得线性和非线性的关系。GRaMM 包括 4 个步骤:代谢组和微生物组数据的预处理;线性或非线性关系的识别;数据矫正和相关性计算;p 值矫正。在多个模拟和真实数据集中,与其他三种方法比较,评估 GRaMM 的性能:准确性,敏感性,特异性,假阳性率,适用性以及数据预处理和混杂调整步骤步骤的效果。GRaMM 是为代谢组和微生物组的相关性分析设计的策略。Matlab 函数和 R 包免费提供,供学术研究使用。

Keywords: GRaMM, MIC, MECC, preprocessing, confounder adjustment

Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome

DOI: 10.1021/acs.analchem.9b02948

Journal: Analytical Chemistry [IF 6.35]

First Authors: Dandan Liang, Mengci Li

Correspondence: Wei Jia, Tianlu Chen

Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine, Shanghai Jiao Tong University Affiliated Sixth People's Hospital, Shanghai, China.

Published: 2019-10-22





研究背景




在组学研究领域,Pearson, Spearman, LR, SparCC, CCLasso 被用于确定微生物组的相关性。maximum information coefficient (MIC) 可以捕获线性和非线性相关性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被应用于微生物组和代谢组的相关性分析。

代谢组和微生物组数由于获取方式的不同,数据特征不同。代谢组数据是连续谱数据,微生物组是基于序列的“计数”方法。此外,代谢组数据是高度稀疏的,通常用相对丰度表示。因此,数预处理(如:归一化,log转换)对下游分析有益。混杂因子(如:年龄,性别,饮食等)可能导致结果偏差。计算相关性时,可以用少量方法(如:LR 和净相关)调整混杂因子。真实数据集中中存在多种类型相关性(线性,非线性和无相关性)。除了MIC,其他现存分析方法都只能捕获线性或单调相关性。

GRaMM 综合考虑上述挑战和现存方法的特征,并系统地评估 GRaMM 的效果:(1)在模拟数据集中,与其他三种方法(LR, Spearman 和 MIC)比较,评估基本性能(如:准确率,敏感性,特异性和假阳性率)。(2)在真实数据集中,用 GRaMM 数据重分析,比较结果。(3)用 4 个真实数据集,基于不同样本来源(mice, rats 和 human)以及不同数据类型(脑组织,肠内容物,盲肠内容物和粪便),测试 GRaMM 的适用性和重复性。




研究思路




GraMM 流程图:(1)预处理:代谢-- log 转换和总强度归一化;微生物-- 总强度归一化,稀释和居中对数比变化。(2)确定相关类型:线性:p<0.05 或 r > 用户设定的值;非线性:不满足上述条件。(3)混杂因子:线性(无)-- LR;线性(有)-- mLR(微生物数据和混淆因子做自变量,代谢数据是因变量);非线性(无)-- MIC;非线性(有)-- MCEE 移除特定混杂因子的影响,不需要额外实验,不丢失样本/变量。




研究结果




1模拟数据比较四种方法


作者首先模拟两个没有混杂因子的模拟数据集(SDatabase1,SDatabase2),随之进行数据预处理:微生物组数据用总强度归一化。

  • SDatabase1:240 组线性对和 120 组非线性的微生物-代谢物对

  • SDatabase2:240 组随机产生的无相关性的微生物-代谢物对

使用 SDatabase1 数据集的 240 对线性相关数据,比较 4 种方法的效果。结果发现:与 spearman LR 相比,GRaMM 的 r 值离散程度小(图 1a);GRaMM,LR 和 Spearman 的 RMSE 值(root means square error,准确性评估指标) 低于 MIC (图 1b)。表明:MIC 适用于非线性关系。

使用SDatabase2 数据集,发现:GRaMM 的 FPR (false positive ratio,假阳性率) 高于其余三种方法(图 1c)。因为 GRaMM 综合利用 LR,MIC 以及其他方法,尽可能多的找相关的配对。p 值矫正减少假阳率。

使用 SDatabase1 和 SDatabase2 数据集,ROC 分析计算 4 种方法的 p 值。GRaMM  有最高的AUC值 (0.971),最低的 SE值(0.006)(图 1d)。GRaMM 优于其他的线性分析方法(LR 和 Spearman)。

使用 SDatabase1 中的 120 对非线性的microbe–metabolite。发现:相较于 LR 和 Spearman,MIC 和 GRaMM 可以确定更多的相关对(图 1e)。MIC 和 GRaMM 的 RMSE 值低于 LR 和 Spearman(图 1f)。基于F1函数得到的非线性对,GRaMM 的结果和Spearman 和 LR 更接近,关系更接近线性(图 1g);基于 F2-F6 函数得到的非线性数据对,GRaMM 的结果和 MIC 更接近,关系更接近非线性(图 1h-1l)。

总之:GRaMM 在准确率,敏感性,特异性和识别线性以及非线性关系的能力方面优于其他方法。

图 1. 基于模拟数据集,比较 4 种方法的性能


2数据预处理的效果


代谢数据做 log 转换;微生物组数据做总丰度归一化 和 log-ratio (CLR) 转换 。

基于 SDatabase1 和 SDatabase2 数据集,比较数据预处理的效果。发现:代谢数据(图2a)和微生物组数据(图 2b)处理后更接近正态分布。此外,还发现:数据预处理之后,GRaMM,LR 和Spearman 方法的 AUC 值增加;MIC方法没有变化(图 2c)。可能是由于 MIC 受数据分布和结构影响较小。

GRaMM 的数据预处理几乎对所有的该方法都是有益的。

图 2. 基于模拟数据集,有效的数据预处理


3Real Dataset 的评估结果


使用的2个真实数据集:

  • RDatabase1:42 只小鼠的 17 个门水平的微生物和 14 个代谢物

  • RDatabase2:42 只小鼠的 18 种胆汁酸和42 个 Firmicutes 下的 genu/species

基于不同的距离方法(Unweighted Unifrac, weight Unifrac, Hellinger, JSD, Spearman, 

使用 RDatabse1 ,评估 GRaMM 的性能和数据预处理的效果。发现:GRaMM 可以确定更多的相关对,数据预处理后,MIC 的相关对减少的较少(图 3a)。GRaMM 联合LR 和MIC 方法,捕获线性和非线性关系。更多的线性关系确定,GRaMM 与 LR 和 Spearman 结果更相近。混杂因子调整之后,GRaMM 和 LR 的相关对数目较少(|r| > 0.5 或 |r| >0.3)(图 3b)。这证明了 GRaMM 可以确定更多的关系对,数据预处理和混杂因子调整对结果重要。

使用 RDatabase2,Spearman 和 GRaMM 分析发现:基于 |r|>0.5 和 p<0.05 标准,确定 38 个相关对,14个为共有相关对(图 3c);GRaMM 的 R 值高于 Spearman(图 3d);10 个 Spearman 特有的关系对可能是由混杂因子导致的;14 个 GRaMM 特有的关系对可能是由非线性关系导致的(图 3e);两种方法得到的TDCA~ Staphylococcus spp. 关系对结果的不同可能是由于 3 个异常值,GRaMM 混杂因子矫正之后,数据更分散以及相关性不同导致的(图 3f-g); 两种方法得到的 GCA~ Bacillus cereus 关系对结果的不同可能是混杂因子导致的(图 3h-i); 两种方法得到的 alpha-MCA ~ Clostridium colinum 关系对结果的不同可能由于非线性关系导致(图 3j-k)。

图 3.  RDataset1(a-b)和 RDataset2(c-k)的结果


4GRaMM 的适用性


使用的4个真实数据集:

  • RDatabase2:42只小鼠的 18 种胆汁酸和 Firmicutes 门下的 42 个genus/species

  • RDatabase3:12只小鼠的 20 种胆汁酸和 Firmicutes 门下的 100 个genus/species

  • RDatabase4:10 只小鼠的 39 种胆汁酸和 Firmicutes 门下的 65 个 genus/species

  • RDatabase5:37 个人的 22 种胆汁酸和 Firmicutes 门下的 100 个 genus/species。

首先对代谢组数据做 log 转换,微生物组数据做归一化和 CLR 转换。使用 4 个真实数据集,GRaMM 分析确定最相关的对(图 4)。在所有数据集中,GRaMM 发现了3 个一致的 microbe–metabolite:Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA),Ruminococcus gnavus ~ chenodeoxycholic acid (CDCA)和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中,先前研究中已经发现前两个相关对,第三个相关对是新发现的。先前研究中发现:SMB53.spp 在T2D 小鼠中高丰度;高脂饮食小鼠中丰度降低。GDCA 是结合次级胆汁酸,营养吸收和各种细胞信号通路的调控分子,促进多囊性人胆管细胞的增殖,减少法尼醇X受体(FXR)的表达。FXR 是配体激活的核受体,调节肝胆汁酸的合成,转运和分泌。这些证据支持这一关联,但是需要大量实验来验证这种关联以及确定这个关联的调节方向。

图 4. 使用真实数据集,4 种方法确定显著相关对的比率(p<0.05 和 FDR<0.05)





结论与讨论




GRaMM 能比较集成地处理代谢组和微生物组关联分析,能处理 数据预处理,相关模型选择,矫正混杂因子,p 值矫正等,以确保得到可信的结果。但是,GRaMM 的结果仍需要进一步的数据和实验验证。




M菌 · 笔记




源代码和数据集存放路径:https://github.com/chentianlu

参考文献

Liang, D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91, 14424-14432 (2019).



推荐阅读



1. 粪便代谢 or 血液代谢,这是一个问题

2. NC | 预测代谢组新工具 MelonnPan


撰稿 | Yanni    责编 | NSC


本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics



END



菌探Momics

    微信号:Momics

 探索 · 分享 · 合作


点击“阅读原文”,阅读英文原文



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存