查看原文
其他

NC | 预测代谢组新工具 MelonnPan

J 多维组学 2022-07-05



39



文献速递


相比于扩增子或者鸟枪法的宏基因组测序数据,代谢组的数据较为昂贵且难以获得。本文给出了一个模型(MelonnPan),通过训练了配对的宏基因组和代谢组数据,可以预测新测序的微生物群落中的代谢物情况。

在两个独立的人群中的验证说明了该软件可以恢复 50% 以上的代谢物的群体代谢趋势。

在珊瑚、人类阴道、鼠肠道中的扩增子数据上的应用,展示了该模型在扩增子数据中也能良好应用。

同时还提供了预期性能分数以指导模型在新样本中的应用。

Keywords: metabolomics
Title
: Predictive metabolomic profiling of microbial communities using amplicon or metagenomic sequences

DOI: 10.1038/s41467-019-10927-1

Journal: Nature Communication [IF 12.124]

First Authors: Himel Mallick

Correspondence: Curtis Huttenhower

Affiliation: Infectious Disease and Microbiome Program, Broad Institute of MIT and Harvard, Cambridge, MA, USA.

Published: 2019-07-17



研究背景


对于当前代谢组数据较为难获得且昂贵的现状,开发了一套模型可以从宏基因组数据中得到预测的代谢组结果。



研究思路


构建模型
  • 输入:宏基因组测序的特征(通路丰度数据或者扩增子物种丰度数据)与对应的代谢组数据
  • 构建模型:用 elastic net regularization 拟合模型  
  • 选择模型:最大化全部代谢物的交叉验证准确度
  • 标记 well-predicted 代谢物:计算测量值与预测值之间的相关系数,大于 0.3 的代谢物标记为 well-predicted 的代谢物
  • 结果:得到所有用于预测的丰度数据与预测的代谢物的 weight matrix
使用模型
  • 输入:新的宏基因组数据
  • 预处理:测序数据通过 HUMANn2 得到功能丰度数据
  • 结果:MelonPann 筛选其中的用于预测的丰度数据与之前得到的 weight matrix 相乘,得到最终的预测的代谢物数据和每个样本对应的预期性能分数

图1. A)模型构建的过程,从输入的 X 丰度数据和 Y 代谢物数据,经过模型构建与选择,最终得到 W weight matrix 和预测的结果 Y;B)得到的模型应用到新数据的过程,在得到预测的代谢物数据 Y 之后可以进行下游的统计分析


研究结果


1通过 IBD 数据构建的模型,超过 50% 的代谢物在预测和测量数据中趋势保持一致


训练数据:IBD 数据库,共 155 样本 (68 CD, 53 UC, 34 健康人)
  • 通过 HUMANn2 比对到 uniref90 数据库得到通路丰度结果
  • 4 种独立的 LC-MS 的方法鉴定代谢物,得到了 8869 个聚类的代谢物结果
  • 按照在 >10% 的样本中丰度小于 0.01% 筛除特征,最终留下了 2818 中代谢物和 814 个基因家族(gene family)
最终有 59.6%(n = 1679)的代谢物都在结果中为 well predicted(Spearman相关系数> 0.3)。这些 well predicted 的代谢物覆盖不同的类别,例如神经鞘脂类、脂肪酸、维生素、胆固醇和脂肪酸等。

图 2. A)所有代谢物中根据相关性系数排名最高的50个代谢物;B)在单一样本中,预测出来的 107 个代谢物与测量数据整体呈正相关线性关系;C)胆甾烯酮;D)泛酸的代表性统计结果,即预测值和检测值的线性关系检验


2MelonnPan 揭示了具有生物学意义的功能关系


对能够预测代谢物的基因家族,后续进行了两个方面的注释,并通过 GSEA 进行了富集分析:
  • 物种注释

  • Pfam 蛋白质数据库注释

在物种中,得到了 8 个显著富集的物种,这些物种与代谢物可能存在某些关联。Pfam 的注释结果中没有显著的蛋白功能,但未确定功能(uncharacterized)的基因都在不能用于预测代谢物的 MelonnPan 的基因列表中富集,说明大部分能用于目前代谢物预测的都是已经被较好预测的基因,虽然依然还有很多待确认的基因功能,以及他们与代谢物之间的关系需要探究。

图 3. A)显著富集的物种,括号中为包含的基因数量;B)MelonnPan的基因列表中未确定功能的基因的富集情况


3预测的结果保持了与原测量结果相似的结构


在两个独立的验证数据中验证了上述 IBD 数据库中得到的模型:

  • 22 个非 IBD 健康人 

  • 43 个 IBD 病人(UC = 23, CD = 20)   

按照 Spearman 相关系数,对排名前 50 的 well predicted 的代谢物进行 PcoA 分析,能观察到预测的代谢物丰度与真实测量的代谢物丰度保持了相似的整体结构,说明了 MelonnPan 可以在不测量代谢数据的情况下进行代谢组预测。

图 4. 圆点代表测量值,三角形代表预测值,连线为同一种代谢物,颜色按不同大类的代谢物进行区分


4在扩增子数据中的应用


在三个不同的 16s 项目中,重新构建模型,并分别进行交叉验证:

  • 珊瑚礁

  • 阴道微生物组

  • 鼠肠道

第一个项目代谢组测量方法:质子 - 核磁共振(1H-NMR)光谱;后两个项目:靶向LC-MS和非靶向LC-MS和气相色谱(GC)-MS

在不同的 16s 项目中,分别得到各自的物种丰度结果,与对应的不同的代谢组测量方法的结果,一样实现了比之前的软件更好的结果。与 MIMOSA 的比较中,MelonPann 都能比 MIMOSA 得到更多的 well predicted 代谢物结果。

图 5. 在三种不同的非人源微生物环境中的数据分析中,MelonPann 和 MIMOSA 的结果的比较



结论与讨论


代谢组和宏基因组的联合分析已经成为一种常见分析模式,但粪便的代谢组价格高昂且比宏基因组有更高的不确定性使得同时测量两种数据的方案还没有成为宏基因组项目分析中的常态。但已经有越来越多的研究者关注到了代谢组的重要性,Huttenhower 实验室开发的这一新模型 MelonPann,承接他们之前开发的 Metaphlan2 和 HUMANn2 流程,可以方便地使用并拓展之前的分析结果,值得一试。


M菌 · 笔记


软件地址:https://bitbucket.org/biobakery/melonnpan/



参考文献

Mallick H, Franzosa E A, Mclver L J, et al. Predictive metabolomic profiling of microbial communities using amplicon or metagenomic sequences[J]. Nature communications, 2019, 10(1): 3136.


推荐阅读

1. iHMP 2019 research 全文详解汇集

2. Science | T细胞介导的菌群调控抵御肥胖


撰稿 | J    责编 | NSC


本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics



END



菌探Momics

    微信号:Momics

 探索 · 分享 · 合作


点击“阅读原文”,阅读英文原文


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存