方差分析中的“元”和“因素”是什么?
试验中要考察的指标称为试验指标
,影响试验指标
的条件称为因素
,因素所处的状态称为水平
(通常用于3个或更多水平时;如果只有2个水平考虑T-test
);若试验中只有一个因素
改变则称为单因素试验
,若有两
个因素改变则称为双
因素试验,若有多
个因素改变则称为多
因素试验。
方差分析
就是对试验数据进行分析,检验方差相等的多个正态总体 均值是否相等
,进而判断各因素对试验指标的影响是否显著;根据影响试验指标条件的个数可以区分为单因素方差分析、双因素方差分析和多因素方差分析。(来源于:百度百科)
方差分析中的因素
方差分析中的因素
通常是人为选定或可控的影响条件,如对样品的人为处理、样品自身的标记属性等。不可控因素如病人的心情、试验操作人的心情等一般不视为因素或不作为关注的因素;(还有一些不可控因素或通常认为不会带来很多影响的因素,如不同的取样时间、不同的RNA提取时间、提取人、细胞所处的分裂周期等;在某些情况下,如果我们记录了这些因素并且关心这些因素时,也会变为方差分析中的因素)。
举个例子,比如病人服用不同浓度药物后基因表达变化试验中:
基因表达
是试验指标
;药物浓度
是因素,假设有3
个水平低浓度
、中浓度
和高浓度
。
这就是单因素方差分析 (one-way ANOVA
),比较病人服用不同浓度药物后基因表达的均值是否相等;
如果同时考虑病人的年龄的影响,则
年龄
也是因素
,有多个水平比如幼年
、青年
、成年
、老年
等。
这就是两因素方差分析 (two-way ANOVA
),比较用药浓度和年龄对基因表达变化的影响,称为“主效应”影响;有时还需要同时比较浓度+年龄
组成的新变量对基因表达变化的影响,称为“交互效应”影响。(如果只是比较浓度+年龄
组成的新变量对基因表达变化的影响,就又是单因素方差分析了)
如果再考虑病人的籍贯、药物种类、吃药时间、病人Marker突变等的影响,就是多因素方差分析了。
方差分析中的试验指标
试验中要考察的指标称为试验指标
。在上面的例子中基因表达
是一个试验指标,不过很笼统,默认为是单
个基因的表达,称为一元方差分析
。
那如果是关注两
个基因或所有
基因的表达变化整体是否有差异呢?
这就是多元方差分析
,每组样本不是只包含一个试验指标
而是多个试验指标
。
表现在数据形式上:
(一元)方差分析是比较多组向量的均值是否存在显著差异。
多元方差分析是比较多组矩阵的均值是否存在显著差异。
因此,比较多组样本整体基因表达的差异、多组样本整体菌群构成的差异,就需要多元方差分析
了。
多元方差分析
在统计学中,多元方差分析 (MANOVA
, multivariate analysis of variance
) 是一种对多个分组中检测了多个指标变量 (这里的变量
等同于上面的指标
;如每个样本中每个物种的丰度信息、每个样本中每个基因的表达信息)的样本整体均值的检验方法 。作为一个多变量过程,它在有两个或多个因变量
时使用,并且通常会分别涉及各个因变量
的显着性检验。它有助于回答:
自变量 (
因素
)的变化是否对因变量 (试验指标
)有显着影响?因变量之间有什么关系?
自变量之间有什么关系?
注: 对应上面 -
所有的因素
都是自变量
(independent variable
),而试验指标
是因变量
(dependent variable
)。这在看英文文献或不同教程时需要注意描述差异。
多元方差分析 (MANOVA
, multivariate analysis of variance
)的前提假设可类比于一元方差分析
(观测指标值的独立性、正态性、方差齐性)
数据独立性。
每个分组内的检测指标符合多元正态分布。
每个分组内的检测指标的协方差矩阵一致。
但在很多生物、生态和环境数据集中,多元方差分析的前提假设通常难以满足。
一些鲁棒性更强、对数据分布依赖更少的检验方法被提出来并且获得广泛应用,如ANOSIM
(analysis of similarities), PERMANOVA
(permutational multivariate analysis of variance) (也称为NPMANOVA
, non-parametric MNOAVA), 和Mantel test
。这些方法都通过一个样本间的距离矩阵或相似性矩阵构建ANOVA
分析类似的统计量,然后对每组的观测结果进行随机置换来计算显著性P-value
。对于单因素分析,对数据唯一的假设条件就是观察指标数据存在可置换性 (exchangeability
)。
下面我们再介绍如何应用PERMANOVA来检验PcOA等的结果的显著性。
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集