线性还是非线性,用 GRaMM 便知一二
48
文献速递
Keywords: GRaMM, MIC, MECC, preprocessing, confounder adjustment
Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome
DOI: 10.1021/acs.analchem.9b02948
Journal: Analytical Chemistry [IF 6.35]
First Authors: Dandan Liang, Mengci Li
Correspondence: Wei Jia, Tianlu Chen
Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine, Shanghai Jiao Tong University Affiliated Sixth People's Hospital, Shanghai, China.
Published: 2019-10-22
研究背景
在组学研究领域,Pearson, Spearman, LR, SparCC, CCLasso 被用于确定微生物组的相关性。maximum information coefficient (MIC) 可以捕获线性和非线性相关性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被应用于微生物组和代谢组的相关性分析。
代谢组和微生物组数由于获取方式的不同,数据特征不同。代谢组数据是连续谱数据,微生物组是基于序列的“计数”方法。此外,代谢组数据是高度稀疏的,通常用相对丰度表示。因此,数预处理(如:归一化,log转换)对下游分析有益。混杂因子(如:年龄,性别,饮食等)可能导致结果偏差。计算相关性时,可以用少量方法(如:LR 和净相关)调整混杂因子。真实数据集中中存在多种类型相关性(线性,非线性和无相关性)。除了MIC,其他现存分析方法都只能捕获线性或单调相关性。
GRaMM 综合考虑上述挑战和现存方法的特征,并系统地评估 GRaMM 的效果:(1)在模拟数据集中,与其他三种方法(LR, Spearman 和 MIC)比较,评估基本性能(如:准确率,敏感性,特异性和假阳性率)。(2)在真实数据集中,用 GRaMM 数据重分析,比较结果。(3)用 4 个真实数据集,基于不同样本来源(mice, rats 和 human)以及不同数据类型(脑组织,肠内容物,盲肠内容物和粪便),测试 GRaMM 的适用性和重复性。
研究思路
研究结果
作者首先模拟两个没有混杂因子的模拟数据集(SDatabase1,SDatabase2),随之进行数据预处理:微生物组数据用总强度归一化。
SDatabase1:240 组线性对和 120 组非线性的微生物-代谢物对
SDatabase2:240 组随机产生的无相关性的微生物-代谢物对
使用 SDatabase1 数据集的 240 对线性相关数据,比较 4 种方法的效果。结果发现:与 spearman LR 相比,GRaMM 的 r 值离散程度小(图 1a);GRaMM,LR 和 Spearman 的 RMSE 值(root means square error,准确性评估指标) 低于 MIC (图 1b)。表明:MIC 适用于非线性关系。
使用SDatabase2 数据集,发现:GRaMM 的 FPR (false positive ratio,假阳性率) 高于其余三种方法(图 1c)。因为 GRaMM 综合利用 LR,MIC 以及其他方法,尽可能多的找相关的配对。p 值矫正减少假阳率。
使用 SDatabase1 和 SDatabase2 数据集,ROC 分析计算 4 种方法的 p 值。GRaMM 有最高的AUC值 (0.971),最低的 SE值(0.006)(图 1d)。GRaMM 优于其他的线性分析方法(LR 和 Spearman)。
使用 SDatabase1 中的 120 对非线性的microbe–metabolite。发现:相较于 LR 和 Spearman,MIC 和 GRaMM 可以确定更多的相关对(图 1e)。MIC 和 GRaMM 的 RMSE 值低于 LR 和 Spearman(图 1f)。基于F1函数得到的非线性对,GRaMM 的结果和Spearman 和 LR 更接近,关系更接近线性(图 1g);基于 F2-F6 函数得到的非线性数据对,GRaMM 的结果和 MIC 更接近,关系更接近非线性(图 1h-1l)。
总之:GRaMM 在准确率,敏感性,特异性和识别线性以及非线性关系的能力方面优于其他方法。
图 1. 基于模拟数据集,比较 4 种方法的性能
代谢数据做 log 转换;微生物组数据做总丰度归一化 和 log-ratio (CLR) 转换 。
基于 SDatabase1 和 SDatabase2 数据集,比较数据预处理的效果。发现:代谢数据(图2a)和微生物组数据(图 2b)处理后更接近正态分布。此外,还发现:数据预处理之后,GRaMM,LR 和Spearman 方法的 AUC 值增加;MIC方法没有变化(图 2c)。可能是由于 MIC 受数据分布和结构影响较小。
GRaMM 的数据预处理几乎对所有的该方法都是有益的。
图 2. 基于模拟数据集,有效的数据预处理
使用的2个真实数据集:
RDatabase1:42 只小鼠的 17 个门水平的微生物和 14 个代谢物
RDatabase2:42 只小鼠的 18 种胆汁酸和42 个 Firmicutes 下的 genu/species
基于不同的距离方法(Unweighted Unifrac, weight Unifrac, Hellinger, JSD, Spearman,
使用 RDatabse1 ,评估 GRaMM 的性能和数据预处理的效果。发现:GRaMM 可以确定更多的相关对,数据预处理后,MIC 的相关对减少的较少(图 3a)。GRaMM 联合LR 和MIC 方法,捕获线性和非线性关系。更多的线性关系确定,GRaMM 与 LR 和 Spearman 结果更相近。混杂因子调整之后,GRaMM 和 LR 的相关对数目较少(|r| > 0.5 或 |r| >0.3)(图 3b)。这证明了 GRaMM 可以确定更多的关系对,数据预处理和混杂因子调整对结果重要。
使用 RDatabase2,Spearman 和 GRaMM 分析发现:基于 |r|>0.5 和 p<0.05 标准,确定 38 个相关对,14个为共有相关对(图 3c);GRaMM 的 R 值高于 Spearman(图 3d);10 个 Spearman 特有的关系对可能是由混杂因子导致的;14 个 GRaMM 特有的关系对可能是由非线性关系导致的(图 3e);两种方法得到的TDCA~ Staphylococcus spp. 关系对结果的不同可能是由于 3 个异常值,GRaMM 混杂因子矫正之后,数据更分散以及相关性不同导致的(图 3f-g); 两种方法得到的 GCA~ Bacillus cereus 关系对结果的不同可能是混杂因子导致的(图 3h-i); 两种方法得到的 alpha-MCA ~ Clostridium colinum 关系对结果的不同可能由于非线性关系导致(图 3j-k)。
图 3. RDataset1(a-b)和 RDataset2(c-k)的结果
使用的4个真实数据集:
RDatabase2:42只小鼠的 18 种胆汁酸和 Firmicutes 门下的 42 个genus/species
RDatabase3:12只小鼠的 20 种胆汁酸和 Firmicutes 门下的 100 个genus/species
RDatabase4:10 只小鼠的 39 种胆汁酸和 Firmicutes 门下的 65 个 genus/species
RDatabase5:37 个人的 22 种胆汁酸和 Firmicutes 门下的 100 个 genus/species。
首先对代谢组数据做 log 转换,微生物组数据做归一化和 CLR 转换。使用 4 个真实数据集,GRaMM 分析确定最相关的对(图 4)。在所有数据集中,GRaMM 发现了3 个一致的 microbe–metabolite:Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA),Ruminococcus gnavus ~ chenodeoxycholic acid (CDCA)和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中,先前研究中已经发现前两个相关对,第三个相关对是新发现的。先前研究中发现:SMB53.spp 在T2D 小鼠中高丰度;高脂饮食小鼠中丰度降低。GDCA 是结合次级胆汁酸,营养吸收和各种细胞信号通路的调控分子,促进多囊性人胆管细胞的增殖,减少法尼醇X受体(FXR)的表达。FXR 是配体激活的核受体,调节肝胆汁酸的合成,转运和分泌。这些证据支持这一关联,但是需要大量实验来验证这种关联以及确定这个关联的调节方向。
图 4. 使用真实数据集,4 种方法确定显著相关对的比率(p<0.05 和 FDR<0.05)
结论与讨论
GRaMM 能比较集成地处理代谢组和微生物组关联分析,能处理 数据预处理,相关模型选择,矫正混杂因子,p 值矫正等,以确保得到可信的结果。但是,GRaMM 的结果仍需要进一步的数据和实验验证。
M菌 · 笔记
源代码和数据集存放路径:https://github.com/chentianlu
参考文献
Liang, D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91, 14424-14432 (2019).
推荐阅读
撰稿 | Yanni 责编 | NSC
本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics。
END
菌探Momics
微信号:Momics
探索 · 分享 · 合作
点击“阅读原文”,阅读英文原文