查看原文
其他

Nature Microbiology: 微生物数据的系统发育分析方法

宏基因组 2022-03-28

The following article is from 美格基因 Author 李昱娴

本文转载自美格基因,己获授权。

佳作推荐

推荐指数:★★★★★

阅读时间:4 分钟

文本字数:1800字

推荐理由:

这篇文章总结了对微生物组数据的系统发育进行分析的几种方法,举例说明不同方法适用的数据、采用的算法以及目前还存在的不足与挑战,并且提供了线上教学,对于想要了解和学习如何进行微生物系统发育分析的同学非常有帮助。


微生物数据的系统发育分析方法

Methods for phylogenetic analysis of microbiome data


作者:Alex D. Washburne, James T. Morton, et al.

期刊:Nature Microbiology

时间:2018.3

IF: 14.174

DOI: 10.1038/s41564-018-0156-0


摘 要

怎样了解微生物的进化历史对分析微生物数据有何影响?基于研究问题,微生物的共同祖先可能是混杂变异的来源,或是用于推断的工具。例如,当对性状进行回归时,共同祖先是观察结果之间相关性的来源,而当搜索具有相关丰度的进化枝时,共同祖先就是用于推断的工具。

微生物的共同祖先及其基因被有序排列在树上,即系统发育,可以并且应该纳入微生物数据集的分析。虽然最近系统发育学分析工具得到扩展,但对于哪种方法能最好地回答哪些生物学问题几乎没有指导意见。

本综述回顾了微生物组数据集的系统发育分析的方法,如何选择适当的方法以及这些方法固有的挑战。本文介绍这些工具概念上的排序方法,将它们分解为系统发育比较方法、祖先状态重构和系统发育变量和距离分析,并提供补充在线教程中的示例。仔细考虑研究问题以及生态学和进化假设,将有助于研究人员选择系统发育和适当的方法来产生准确的、生物信息丰富的以及目前仍未报导的见解。


主要内容

在数据分析中使用不同类型的系统发育学方法处理不同的研究问题(如表1)


使用Distances and phylogenetic comparative methods (PCMs)对生物体之间多种性状进行对比(如图1)

 

图1.  对1000种微生物的16S拷贝数(性状)以及其对pH的偏好(生存环境)做相关性统计。

(a)为一个被过估的具有两枝远缘分枝的系统发育树,假设性状进化在系统发育树上是随机的,远缘分枝的两枝会产生性状间的协方差。当错误估计随机性状进化的影响时,就会产生很高的假阳性率。Phylogenetic generalized least squares (PGLS)方法则可以矫正残差期望值,并提供更加准确的相关性检验。(b)假设PGLS用来模拟检验16S拷贝数和环境数据的回归系数(例如分布频率β),当检验涉及到多个性状之间时就应该使用PGLS,包括像丰度与metadata相关性的回归系数这类有关性状的数量。使用PGLS时,需要先假定一个性状进化的模型。作者估计Blomberg’s K 来检验系统发育的信号,当K>1时,表明跟另一枝的关系比Brownian motion模型下预计的更加相近。接着使用R包中的corBlomberg控制残余协方差结构。并且无论使用的性状是已知的还是通过祖先状态重建推断的都可使用PGLS。在F检验中的P值表示了相关的显著性取决于能否解释在性状随机进化下预计的协方差结构。 


祖先状态重建

在微生物学中,祖先状态重建常用一些参考基因组来对现存的群落遗传和代谢特征进行估计。在微生物组的研究中,一般用PICRUSt来实现上述目的。PICRUSt用祖先重建来推断一些类群中未知性状的特征值,例如糖苷水解酶活性基因。而祖先状态重建的方法学与PCMs是有关联的,它们都需要进化的模型。用于推断的三种主要算法为:maximum parsimony, maximum likelihood and Bayesian inference。


系统发育变量分析(如图2)

 

图2. 系统发育描绘了种群生态数据的几何外形,就像一个球体描绘了GPS数据的几何外形。

(a)改变变量能够得到更多复杂拓扑结构的自然描述,球形的地球标示球形的坐标,系统发育变量用树来构建与系统发育特征相关的坐标。系统发育因子分解构建不同组别(G1、G2)的坐标,将它们沿界限分开,而在界限处产生了不同的性状,例如飞行。(b)两点之间的默认路径是一条直线,但在球面上更有意义的路径是曲面几何的,也即,在球体上沿球面最短的路径。同样的,系统发育的距离,例如UniFrac,界定某一种群与另一个进化的路径以及它们之间的距离。(c)PhILR构建了不同的姐妹枝之间的坐标。(d)可能的系统发育变量以及距离所占的空间非常大,在远缘枝系间的比例是可行的但目前没使用过的系统发育变量,如图所示。研究者应该考虑新的变量和距离的生物解释性,以及它们对未来研究具有启发的可能性。


使用phylogeny-aware distances进行数据分析(如图3)


图3 (a)物种丰度的热图,在不同的环境下红色表示高丰度,黄色表示低丰度。进化历史用这棵系统发育树表示,并且在环境A和B之间主要的区别是由枝系A和枝系B的丰度导致的。(b)当变量包含每一个样品的信息时,发育距离将两个样品联系起来。方格是样品间的成对UniFrac距离,在环境A样品与环境B样品之间的距离大于环境A之间样品或者环境B之间样品的距离。(c)环境A中的样品到与其他各样品的UniFrac距离表明了一个高程度的新的系统发育,或者在两个群落间系统发育代表的主要变化。


微生物组数据系统发育分析的挑战,主要有水平基因转移、系统发育推断、祖先状态重建、大量的物种数以及微生物进化模型这几方面的挑战。(如表2)

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1800+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存