查看原文
其他

凌波微课|扩增子研究第十二讲:扩增子测序中的beta多样性分析

The following article is from 凌波微课 Author Bonnie

学生信,做分析,就上凌波微课

扩增子测序中的beta多样性分析 

同学们,大家好!学生信,做分析,就上凌波微课!欢迎大家扫描下方的二维码关注“凌波微课”,加入凌波微课交流群,参与我们的课程和课下交流。

▼更多精彩,请关注我们▼

把时间交给阅读
我是主讲人Bonnie,今天我们给大家分享的内容来自公众号“红皇后学术”,主题为:

扩增子测序结果中的beta多样性分析

上一讲我们讲解了alpha多样性相关的分析内容,alpha多样性主要在一维水平分析微生物群落,有一维水平就有二维水平,在二维水平比较微生物群落的差异所使用的就是beta多样性。这一节我们来了解一下beta多样性分析的内容。

 



Beta多样性分析

Beta多样性是通过计算微生物群落整体的距离来评估不同样本微生物群落的差异程度。

在扩增子结题报告中,这一部分内容主要表现为beta多样性指数,以及基于beta多样性指数的一系列统计学分析方法,包括PCAPCoANMDSUPGMA等等。




基于beta多样性的统计分析
1、Bray-Crutis距离和Unifrac距离

用来评估物种群落距离的beta多样性指数有很多种,目前,在微生物群落研究中最常用的是Bray-Crutis距离和Unifrac距离。值得注意的是,单独的样本没有beta多样性距离的概念,beta多样性指数是指两个微生物群落间的差异程度。

Bray-Crutis距离在计算是同时考虑了物种在群落中是否存在以及物种在群落中的丰度,这一点类似于alpha多样性中的Shannon指数。Bray-Crutis的结果范围在0-1之间,0表示两个样本微生物群落完全一致,1表示两个样本微生物群落完全不同。也就是说数值越大,两个样本间微生物群落的差异也就越大。
Unifrac距离可以简单的理解为在普通beta多样性距离的基础上引入了OTU的进化距离,因此在计算的时候除了OTU的丰度信息之外还需要OTU的系统发育树。

Unifrac距离分为加权和不加权两种,Unweighted Unifrac在计算时只考虑物种在样本中是否存在,Weighted Unifrac在计算时同时考虑物种的存在及其丰度,类似于alpha多样性指数中的丰富度和多样性的区别。直观来讲就是计算了仅被一个群落占据的进化历史的相对大小,这个量越大说明两个群落中独立的进化过程越多也就说明这两个群落的差别越大。当unifrac值为0,说明两个群落完全相同,没有各自独立的进化过程UniFrac值为1时,说明两个群落在进化树中完全分开是完全独立的两个进化过程。 

2、Beta多样性距离聚类
在得到beta多样性距离之后,一般会通过热图的形式根据beta多样性距离对样品进行聚类,热图不同颜色表示的值是样品两两之间的差异系数,差异系数越小的两个样品,物种多样性的差异越小。同样,将不同分类或环境的多组样本的距离进行四分位计算,比较不同样本组的组内和组间的距离分布差异,结果一般使用箱线图展示。
beta多样聚类热图
组内组间距离箱线图

根据样本的距离规律,我们可以大体评估研究过程中是什么因素影响了微生物群落。比如说不同样本正好按照季节聚类或者实验组和对照组分别聚类,那么可以基本判断一下实验因素是否对微生物群落有影响,但是并不推荐在文章中使用,因为有更好的展示方式,稍后会讲到。

除此之外,基于beta多样性的样本聚类热图另一个主要的用途是用来评估生物学重复样品是否真的重复,理论上来说组内的生物学重复微生物群落的相似性通常是更高的,但是有一定的波动或者出现部分样品的离群也是正常的。

但如果出现个别样品与其它生物学重复差距非常的大,就要考虑是不是这个样本有可能被污染了。 

3、PCAPCoA分析

接下来让我们来看看基于beta多样性距离的一系列统计分析结果。首先来说说PCAPCoAPCA是主成分分析,PCoA是主坐标分析,这两种分析都是通过方差分析对多维数据进行降维,最后在二维坐标系中展示样本微生物群落差异的方法。

通常结果图中的每一个点代表一个样本,不同的颜色代表样本的分组,点与点间的距离代表样本微生物群落的差异程度,距离越大,样本间微生物群落差异越大。

图中的两个轴代表的是不断降维之后得到的对样本群落影响最大的原始变量的组合,每个轴标题中的数字代表的是这个轴对整体微生物群落变化的解释程度。
PCAPCoA的结果看起来很像,说的也是同一个问题,区别是PCA是根据运用方差分解,将多组数据的差异反映在二维坐标图上,而PCoA是基于距离矩阵,得到的坐标轴是变量的复杂函数组合,整体来说PCoA的适应性更广一些

对于结果的解释其实也比较简单,如果不同组的样本在图中分别处于不同的位置,比如说AB两组分别位于横坐标轴的两端,那么我们就可以说某某因素会影响样品微生物群落的组成结构,不同组样本分别聚在一起,并且被PC1轴分开,PC1解释了整体微生物群落变化的百分之多少,等等诸如此类的话,当然在文章中最好还要同时结合组间微生物群落的差异检验结果。 

4、ANOSIMAdonis检验

常用的微生物群落整体结构差异检验方法主要有ANOSIMAdonis这两种统计学方法都是用来检验不同组样本的微生物群落整体结构是否具有显著差异。

ANOSIM:一种非参数检验,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义。侧重于比较组间差异与组内差异的区别,如果结果的p值小于0.05,则表明组间差异大于组内差异。

 

Adonis利用半度量(如Bray-Curtis) 或度量距离矩阵(如Euclidean)对总方差进行分解,分析不同分组因素对样品差异的解释度,并使用置换检验对划分的统计学意义进行显著性分析侧重于评估分组因素对于样本微生物群落差异的解释程度,如果p值小于0.05,则表示不同组样本的微生物群落具有显著的差异。

一般在写文章的时候给出其中一个检验的结果即可,使用最多的是Adonis 

5、NMDS分析
除了PCAPCoA,常见的降维分析方法还有NMDS,也就是非度量多维尺度分析,不同颜色或形状的点代表不同环境或条件下的样本组,点之间的距离表示差异程度,横纵坐标表示相对距离,无实际意义,结果的解释和PCA/PCoA差不太多。NMDS结果的可靠性通过stress来检验,有点类似于统计学检验中的p值,当stress小于0.2时,NMDS结果可以使用,小于0.05,则NMDS的结果比较好,如果小于0.01,则认为NMDS的结果非常可靠。

NMDS分析 

6、UPGMA聚类分析

除了刚刚介绍的这两种基于降维的整体微生物群落比较方法之外,通常的结果中还有一种基于群落距离进行聚类的方法,就是UPGMA,是利用距离聚类树的方式展示不同样本间微生物群落的差异情况,可以直观显示不同环境样本中微生物进化上的相似性及差异性,同属于一条分枝的样本微生物群落更为相似

UPGMA聚类分析

样品的聚类结果主要使用AUBP两种方法评估可靠性,其中AU更接近无偏向性的。一般认为当结果大于95时,说明样本的聚类十分可靠。

以上介绍的几种分析都是用来评估样品间微生物群落的整体差异,虽然方法不同,但其实说的都是同一个问题,在写文章的时候根据具体结果以及不同方法的适用情况,选择一个最能够解释研究目的的结果即可。

有时候也会出现所有分析方法结果都不太好,聚类混乱的情况出现,这时候可以使用一些非常规的方法来尝试解决问题。

7、样本比较分析

首先介绍的是PLS-DA,这种方法在代谢组研究中适用的非常多,但是微生物群落研究中还并不是特别的认可,PLS-DA是一种与PCA相对应的有监督的分析方法,使用这种方法会使得原本并不明显的组间差距变得非常明显。

如果Adonis检验到组间具有显著差异,但是之前介绍的几种方法对分组聚类的表现都不是很好,可以考虑使用PLS-DA

对于一些非常庞大的项目,由于样本特别多分组也很多,有时候就算组间有显著差异,在图上也很难看出来,比如说这幅图,由于样本过于庞大,很难区分出明显的组间差异,这时候我们可以PCoA结果的基础上整合一些统计的图形来辅助组间差异的解释

带统计的PCoA

比如这幅图中,上方的箱须图是不同组样本根据样本所处地点不同进行分组,不同组样本在PC1轴上的分布统计。

左侧的箱线图是根据样本年龄进行分组,不同组样本在PC2轴上的分布统计。
下方的密度图为主要的微生物在PC1轴不同位置对应的样品种的平均丰度。

通过结合这些统计的结果,就可以看出不同分类的样本还是具有比较明显的区分的,同时还能够评估造成这些差异的主要微生物是什么。




补充知识说明 

本节的最后再来介绍另外一种结果不好时的变通处理方式,当PCAPCoA对样本的分组展示不明显的时候,可以将样品对应的PC1PC2值提出来分别进行组间差异检验,以评估PC1PC2轴对样本分组的区分能力

样本比较分析

同时在图中应用箭头的方式展示主要物种对群落差异的贡献,类似于CCA/RDA的方式,这个在后面环境因子的章节会详细讲解。

举个例子,比如现在一套数据的PCoA结果分组并不明显,而提取PC1的值后发现不同组样本PC1的值具有显著差异,那么就可以说PC1轴对样本的区分比较好,进一步分析发现变形菌门在图像中的箭头与PC1轴基本平行,并且箭头很长,那么就可以说变形菌门的丰度对不同组样本微生物群落的差异贡献比较大。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。玩转科研就来凌波微课,我们下期见!


往期精彩

凌波微课|扩增子研究第11讲:扩增子测序中的alpha多样性分析
凌波微课|扩增子研究第10讲:扩增子测序中的物种组成分析
凌波微课|扩增子研究第9讲:扩增子测序结果中的基本信息统计
凌波微课|扩增子研究第8讲:微生物多样性物种分类注释凌波微课|扩增子研究第7讲:高通量下机数据质控标准凌波微课|扩增子研究第6讲:高通量下机数据评估标准凌波微课|扩增子研究第5讲:微生物群落研究建库测序流程凌波微课|扩增子研究第4讲:微生物群落研究策略凌波微课|扩增子研究第3讲:微生物群落研究的目的凌波微课|扩增子研究第2讲:测序技术发展史及应用凌波微课|扩增子研究第1讲:分子钟学说和现代应用凌波微课|微生态群落中单个物种的绝对定量凌波微课|藻类与陆生植物起源凌波微课|读播:如何回复审稿意见凌波微课|如何消除数据的批次效应?选对工具很重要凌波微课|生物学重复,你有必要知道的那些事儿!凌波微课|生物学重复,值得你拥有!凌波微课|微生物组多样性研究新热门——16s rDNA全长扩增子测序 




END



扩展阅读

加群、交流和投稿

加群、投稿、转载、交流、合作等一切事宜!!



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存