Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架

Original 宏基因组宏基因组 2022-03-28

整合高通量组学数据集鉴定潜在机制联系的计算框架

A computational framework to integrate high-throughput ‘-omics’ datasets for the identification of potential mechanistic links

Nature Protocols, [12.423]， Article, 2018-10-31

原文链接: http://dx.doi.org/10.1038/s41596-018-0064-z

第一作者：Helle Krogh Pedersen

通讯作者：Oluf Pedersen, Henrik Bjørn Nielsen

主要单位：加州大学洛杉机分校，医学院

其它作者：Sofia K Forslund, Valborg Guðmundsdóttir, Anders Østergaard Petersen, Falk Hildebrand, Tuulia Hyötyläinen, Trine Nielsen, Torben Hansen, Peer Bork, S Dusko Ehrlich, Søren Brunak, Matej Oresic

导读

微生物组和代谢组等高维数据和表型关联分析复杂、解读困难；

分析的核心思想是降维：代谢组和微生物组物种通过数据驱动的聚类或分箱法降维；微生物组功能组成基于知识驱动如KEGG层级分类法降维；再筛选与表型显著相关的数据特征关联分析；

研究人员可以整理多组学和表型数据，获得出版级关联分析结果图表，快速建立宿主和微生物组与疾病严重程度和治疗结果间的潜在联系；

本计算框架由R脚本编写，可在个人电脑上1小时完成分析。

摘要

背景：我们最近发表了三管齐下的关联分析，整合宏基因组测序的人类肠道微生物组数据、非靶向的血清代谢组数据和宿主的生理指标。代谢组和微生物组数据是高维的，对于数据的整合提出了挑战。

结果：我们提出了逐步的计算方法，详细讨论了降维技术的使用，以及解析异质类型数据整合的方法。降维的方法主要结合数据标准化和共丰度基因和代谢物的分箱，以及整理已知的生物学知识。使用先验知识克服微生物组物种功能冗余是我们方法的核心。使用此框架，其它研究人员可以整理多组学和表型数据(如队列中建立宿主和微生物组与疾病严重程度和治疗结果间的联系)，建立三管齐下的联系，用于实验设置。

结论：此框架最初是用于人类代谢组和微生物组研究，同样适用于其它物种和环境样本，同样适合整合其它组学如宏转录组、宏蛋白组。提供的R脚本在个人电脑上运行1小时左右。

关键点

知识点1. 原始数据的序列处理和和输出文件

在整合分析前，数据必须进行处理。对于微生物组数据，包括：(i) 序列预处理，包括质控、过滤宿主序列；(ii) 构建参考基因集，或选择己发表的基因集作为参考；(iii) 比对参考序列定量；(iv) 样本标准化，以便于下游可比；(v) 对基因分箱为物种组，降低维度。

对于代谢组数据，典型的处理流程包括：(i) 原始文件导入； (ii) 峰检测；(iii) 过滤和平滑；(iv) 峰列表去同位素；(v) 比对；(vi) 填补空白；(vii) 峰整合；(viii) 标准化；(ix) 最终峰或特征的鉴定

尽管这些步骤不在本方法的范畴内，我们引用我们之前的文章，或补充方法来进一步描述微生物组和代谢组数据的预处理，以便产生本方法的输入文件。

可用的示例数据保存于Git仓库 https://bitbucket.org/hellekp/clinical-micro-meta-integration 。它包括预处理微生物组、代谢组数据，以及397个体的表型信息，以及一系列功能微生物注释，宏基因组物种组和相应的微生物注释，以及手动注释的代谢物簇，详细描述在材料部分。

这些文件经历了上面数不尽的预处理过程。对于新数据，必须按具体的实验方法、实验过程和分析平台来进行详细的预处理。

图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图

在微生物组和代谢组预处理后，代谢物聚类为共丰度簇(5-7)，微生物组数据整理为物种组成和KEGG模块丰度矩阵。下一步，表型过滤阶段，只保留与表型统计显著的features(8-12)，这些features将用于跨领域的相关或关联分析(13-15)。最终，使用leave-one-MGS-out分析鉴定KEGG模块和对应驱动物种与HOMA-IR关联(17-19)。FDR代表错误发现率，IR代表胰岛素抗性，IS代表胰岛素敏感，Mod模块，neg负相关，pos正相关。本图修改自Pdersen等出版书籍中图片，己获授权。

表1. 基于数据和知识的降维方法

微生物组数据驱动的方法主要有Binning，而知识驱动的方法主要是各功能注释数据库的层级分类。

知识点2. 驱动物种分析背后的原理

图2. leave-one-MGS-out方法鉴定驱动物种的原理

为了简化说明原理，我们以一个KEGG模块为例，它包括三个KOs(KO1，KO2，KO3)，并且只有一个KEGG模块与HOMA-IR表型用于关联分析

a. 计算Spearman相关系数(SCC）这三个KO与HOMA-IR相关，b. 这三个KO相关的中位数使用代表KEGG信号。

c, 重复a,b方法于所有基因，组成假定的MGS，移除MGSi

d, 计算移除前后的的信号变化。最后c,d步来计算每个MGS。可以鉴定物种驱动的KEGG模块。

图3. 微生物组功能与表型和代谢物簇的关联

流程15步产生的样本图。表型组、肠道菌群和代谢组的关联图谱。

左侧面板为KEGG模块相关的表型，颜色为关联的方向，红为负相关，蓝为正相关，灰为不显著。右则为KEGG与代谢模块间相关，颜色代表Spearman相关系数，并标注FDR显著性统计。

结果的解释，我们看到KEGG模块和代谢簇分为两组：代谢偏好和不偏好两类由胰岛素抗性决定，发现广泛的、正或负相关的、跨组学的关联；跨领域的关联分析，经常可以看到规律。但前提是，在一方向特征在相同的维度上参与，如健康或疾病在相关稳定时，可以预测一些相关的行为。

图4. 以BCAA生物合成模块为例显示评估相关细节

leave-one-MGS-out第19步产生的结果样本图展示整合的BCAA生物合成模块(包括M00019, M00570, M00535和M00432共13个KOs)。

a. 模块中KOs的SCC分布和背景(蓝)比较；

b. 关键模块在总体中去除，去关联中位数的影响；

c. 基于背景校正的相关系数原理。

表2. 常见问题和解决方案

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外2400+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架

整合高通量组学数据集鉴定潜在机制联系的计算框架

导读

摘要

关键点

知识点1. 原始数据的序列处理和和输出文件

图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图

表1. 基于数据和知识的降维方法

知识点2. 驱动物种分析背后的原理

图2. leave-one-MGS-out方法鉴定驱动物种的原理

图3. 微生物组功能与表型和代谢物簇的关联

图4. 以BCAA生物合成模块为例显示评估相关细节

表2. 常见问题和解决方案

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

生成图片，分享到微信朋友圈

Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架

整合高通量组学数据集鉴定潜在机制联系的计算框架

导读

摘要

关键点

知识点1. 原始数据的序列处理和和输出文件

图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图

表1. 基于数据和知识的降维方法

知识点2. 驱动物种分析背后的原理

图2. leave-one-MGS-out方法鉴定驱动物种的原理

图3. 微生物组功能与表型和代谢物簇的关联

图4. 以BCAA生物合成模块为例显示评估相关细节

表2. 常见问题和解决方案

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡