查看原文
其他

凌波微课|扩增子研究第十三讲:扩增子测序结果中的统计差异检验

The following article is from 凌波微课 Author Bonnie

学生信,做分析,就上凌波微课

扩增子测序结果中的统计差异检验 


同学们,大家好!学生信,做分析,就上凌波微课!欢迎大家扫描下方的二维码关注“凌波微课”,加入凌波微课交流群,参与我们的课程和课下交流。
▼更多精彩,请关注我们▼

把时间交给阅读
我是主讲人Bonnie,今天我们给大家分享的内容来自公众号“红皇后学术”,主题为:

扩增子测序结果中的统计差异检验

前几节内容,我们为大家介绍了扩增子测序结果中的基本信息统计和基本分析结果。接下来的四节内容应该说是整个微生物群落研究的最核心内容了,首先我们来介绍一下统计差异检验相关的结果,顾名思义,这部分结果主要是给出微生物在不同样本的差异情况。

 

常见差异检验方

先前我们在介绍alpha多样性的时候,提到在不同样本间比较的过程中,不能单纯的比较数值的大小,必须要有差异显著性检验的结果作为基础。只有两组样本的alpha多样性指数统计学上具有显著差异的时候,才能说这两组样本的alpha多样性有所不同。不同情况下,我们比较组间差异所使用的统计学方法也是不一样的。下面来介绍一些常见的差异检验方法,Welch's t-test、t-test和One-way ANOVA是最常见的组间物种丰度差异检验方法,用来检验不同组间哪些物种的丰度具有显著的差异。Welch’s t-test和t-test用于比较两组样本的物种差异,One-way ANOVA用来比较3组及以上样本的物种差异

不同的统计学方法有不同的使用条件,主要是通过数据是否符合正态分布以及方差是否齐性来判断使用哪种差异检验方法。

这三种差异检验在微生物群落研究的结果中通常会使用STAMP软件实现,结果就是这张图,通过条形展示物种在不同组样本中的丰度,带误差棒的散点图展示物种在不同组样本中的丰度变化倍数,结果中只会展示P值小于0.05的,也就是在组间丰度具有显著差异的物种。

STAMP软件输出的差异检验结果图,只能显示两组样本的差异,因此虽然其提供了ANOVA检验的方法,但是在多组样本的结果中依然是只能显示组间两两比较的差异结果,这样在结果展示的时候就很不方便,所以通常来说3组及以上的数据在文章中使用该结果的频率较低。

除了STAMP提供的3种差异检验方法之外,还有一种Wilcoxon秩和检验用来检验两组样本间微生物丰度的差异,其适用于数据不符合正态分布的情况。

所有差异检验的结果均依赖于P值,P小于0.05表明物种的丰度在不同组间具有显著差异。

 

选择适合的统计方法

看到这里想必大家都有一个疑问:该怎么选择适合自己研究的统计学方法呢?这里提供了一个统计学方法选择的标准,大家可以根据自身数据的实际情况选择合适的统计学差异检验方法:
  • Kolmogorov-Smirnov test:检验样本是否复合正态分布。

  • F-test:检验不同组样本方差是否存在显著差异。

  • T-test:样本量小于30、两组样本符合正态分布、两组样本总体方差相等,比较两组样本均值差异性。

  • One-way ANOVA:与t-test使用条件一致,一种分组因素,检验多组样品的均值差异性。

  • Wilcoxon秩和检验:两组样本不符合正态分布,检验均值差异性。

  • Kruskal-Wallis test:多组样本不符合正态分布,一种分组因素,检验均值差异性。

  • Two-way ANOVA:多组样本,两个分组因素,样本符合正态分布,并且样本总体方差相等,比较样本均值差异性。

  • Fridman test:多组样本,两个分组因素,样本不符合正态分布,比较样本均值差异性。

 

除了使用STAMP实现的物种丰度差异检验结果,在常规的分析结果中还会包含使用Metastat得到的物种丰度差异检验。
同样都是差异检验,所使用的方法差别不大,Metastat的特点是对差异检验的结果使用FDR进行校正,从而降低了检验结果的假阳性率,得到的物种丰度差异结果更为准确。由于篇幅的限制关于检验结果校正的有关内容会在下一节“环境因子关联”中进行讲解。

因为进行了校正,所以最后得到的差异物种数目会有明显的下降,就我个人而言,如果STAMP得到的差异物种数目非常多,我会使用Metastat的结果在文章中进行表述

与STAMP一样,Metastat同样只适用于两组样本比较的结果展示,对于3组及以上的数据,视觉效果并不是很好。
那么对于3组及3组以上的数据,我们用什么来展示差异物种呢就是大名鼎鼎的LEfSe。LEfSe是LDA effect size分析,是一种用于发现和解释高维度数据生物标识的工具,能够在多组样本中识别到属于每个组的biomarker物种,也就是说在这个组中特异性富集的物种。
LEfSe的结果包含3种不同的图:首先是条形图,通过不同的颜色展示结果中属于不同组的biomarker物种,条形的长度为根据该物种丰度计算得到的LDA统计值,一般认为LDA得分大于3的物种可以用于区分不同组的样本,也就是说LDA大于3的物种是在某一分组样本中特异性富集的。当然有时候我们也可能得到非常多的biomarker,这时候通常会通过提升LDA的阈值,以去除假阳性,提高差异检验的准确性。

LEfSe的第二个结果是进化分支树,图中由内向外辐射的圆圈代表由门至属的分类级别,不同分类级别上每个小圆圈代表了该水平下的一个分类,圆圈直径代表相对丰度大小。图中使用不同的颜色标注出属于不同组样本的biomarker物种。黄色代表无显著差异的物种,红色代表在红色组别中起重要作用的微生物类群,蓝色代表在蓝色组别中起重要作用的微生物类群,未在图中显示的biomarker物种名会展示在右侧。

第三个结果是识别到的biomarker物种在不同组样本中的丰度分布情况,图中条形代表该物种在不同样本中的丰度,实线为该物种组内丰度的平均值,虚线为中位数。

当然LEfSe同样能够表示两组样本的物种丰度差异检验结果,只不过我个人觉得如果只有两组样本,使用STAMP或者Metastat的结果图可能会更为直观和清晰。

在展示组间物种丰度差异的结果中,还有一个比较特殊的分析,就是三元相图,这个分析通过三角形的图形展示物种在三组样本间的丰度分布情况

说这个图比较特殊是因为这个图只能展示3组样本的差异,2组或4组都不行。图中三角形的每一个顶点代表一个或一组样本,图中的点表示物种,点的大小代表物种在所有样本中的平均丰度,点的颜色代表物种所属的高级分类学水平,点的位置表示物种在三组样品中的丰度差异。点越靠近某一顶点,表明该物种在这一组样本中丰度越高、而在其它组样本中丰度越低。

听完了这一节课程,大家对于差异检验分析是不是有了更清楚的了解呢?下一讲的课程主要围绕微生物群落和环境因子的关联展开,感兴趣的小伙伴千万不要错过哦!

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。玩转科研就来凌波微课,我们下期见!

往期精彩




END



扩展阅读

加群、交流和投稿

加群、投稿、转载、交流、合作等一切事宜!!



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存