宏基因组笔记 | 统计学方法(一)
差异分析方法
在微生物组分析中,除了常见的卡方检验、Student t检验、Wilcoxon秩和检验等等,还常常使用基于矩阵的检验方法,例如 Anosim,Adonis 以及 MRPP等。这些方法不仅可以输出检验显著性结果(p值),还有程度结果(R值),R值可以用来判断分组因素贡献度的大小。
Adonis 多元方差分析
Adonis 又称置换多元方差分析(PERMANOVA)或非参数多元方差分析(NPMANOVA)。它利用半度量(如Bray-Curtis)或度量的距离矩阵(如Euclidean)对总方差进行分解,分析不同分组因素对样品差异的解释度,并使用置换检验对其统计学意义进行显著性分析。
以上图的 PCoA 图为例,不同的颜色代表了两组不同的样本,那么这两组样品之间的群落差异是否显著呢?检验组间群落差异本质上是检验距离矩阵之间的差异,而普通的 ANOVA 分析无能为力。
Anosim
ANOSIM 相似性分析是一种非参数检验,用来检验组间(两组或多组)差异是否显著大于组内差异,从而判断分组是否有意义。首先利用Bray-Curtis算法计算两两样品间的距离,然后将所有距离从小到大进行排序,并计算R和P值。
这个检验有两个重要的数值,一个是p值,可以判断这种组间与组内的比较是否显著;一个是R值,可以得出组间与组内比较的差异程度。
R值范围实际范围是(-1,1),但一般介于(0,1)之间,R>0,说明组间存在差异,一般R>0.75:大差异;R>0.5:中等差异,R>0.25:小差异。 R等于0或在0附近,说明组间没有差异。R偶尔也会<0,这种情况是组内差异显著大于组间差异,这就说明我们的采样或者分组出现了问题。
微生物群落与环境因子关联分析
冗余分析(redundancy analysis, RDA)或者典范对应分析(canonical correspondence analysis, CCA)是基于对应分析(correspondence analysis, CA)发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。
CCA/RDA分析主要用来反映环境因子、样品、菌群三者之间的关系或者两两之间的关系,,这一类使用物种和相关环境因子组成数据的排序也叫作限制性排序(constrained ordination / PCoA)。
上图即为典型的 CCA 分析结果图,图中箭头代表不同的环境因子,红色的代表不同的微生物,绿色的代表不同的样本。
环境因子的箭头的长度代表相应的环境因子与研究对象(样品,微生物)相关程度的大小,越长代表其对所研究对象(样品,微生物)的分布影响越大。箭头连线之间的夹角的代表其相关性,为锐角是说明2个环境因子之间是正相关,钝角是负相关。
决定排序的模型:单峰还是线性?
那么 RDA 和 CCA 我们应该如何选择呢? 其实两种分析方式的区别在于对应的数据模型不一样,CCA 基于单峰模型,而 RDA 基于线性模型。线形模型的含义表示菌群随着某一环境因子的变化而呈线性变化或叫线性响应(linear response)。单峰模型的含义是菌群的个体数随某个环境因子值的增加而增加。为了简化单峰模型,我们经常假设单峰曲线以峰值为中心,两边是对称的。
为了选择更合适的模型,你可以尽可能将各种模型都尝试一下,选择一个你最想要的分析结果及排序图。当然,如果你不知道到底是用线性、还好单峰模型好,有一个比较简单方法可以帮助你来选择。可以用 OTU 表做DCA分析(decorana(sp)),根据分析结果中 Axis Lengths 的第一轴的大小,如果大于4.0,就应选CCA(基于单峰模型);如果在3.0-4.0之间,选RDA和CCA均可;如果小于3.0,RDA的结果会更合理(基于线性模型)。
大部分情况下,两者的分析结果并差别并不大。其实,CCA非线性模型其实可以容纳线性模型,线性关系可以算是非线性模型的特例。所有用RDA可以做的,CCA也可以做,只不过在如果梯度比较短的话RDA要精确一点。但是,如果是非线性关系,用线性的RDA来分析,那个准确度就大大打折扣了。因为,本来点就不在同一条直线上,现在非得用直线去拟合,肯定不合适。这也是为什么SD小于3也可以用CCA,但是SD大于4,就不能用RDA的原因。
CCA图里面的微生物是该分类水平下丰度在前10的微生物(默认是前10种):在特定的分类水平下(比如目水平)。首先,我们将用于作图的所有样本中的同种微生物的丰度值相加计算出各个微生物的总丰度,然后对这个总丰度值进行排序,结果取丰度排名前10的微生物来做CCA分析
Reference
美吉生物 | Adonis和ANOSIM,安能辨我是雄雌
基迪奥生物 | 微生物群落差异分析方法大揭秘
基迪奥生物 | 我应该选择CCA还是RDA分析?
基于CANOCO的生态学数据的多元统计分析
猜你喜欢
phyloseq | 用 R 分析微生物组数据及可视化(一)
phyloseq | 用 R 分析微生物组数据及可视化(二)
phyloseq | 用 R 分析微生物组数据及可视化(三)
生信菜鸟团-专题学习目录(6)
生信菜鸟团-专题学习目录(7)
还有更多文章,请移步公众号阅读
▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。