数据不满足正态分布,到底能不能用t检验?
T检验是我们医学科研工作中使用频率非常高的一种进行均值比较的统计方法。但是对于T检验的适用条件却似乎存在着争议。
有人说,应用T检验的前提是数据来自于正态分布的总体,因此在进行T检验前均需进行正态性检验,也有人说,在样本量比较大时,可不必在意数据是否来源于正态分布总体,因为中心极限定理告诉我们样本均数在样本量较大时可以近似为正态分布。
那么到底哪种说法正确呢?样本量较大时是否还要求数据服从正态分布呢?其实这个问题在统计学专业的教材中有非常明确的数学证明,数据不满足正态分布时,也是可以使用T检验的,但不完全是因为中心极限定理。(本文附录将介绍统计学教材中对该问题的数学证明,建议先看文末的附录再看结论)
1. 原始数据为非正态数据时
使用T检验的条件
从文末附录的证明过程我们不难看出,样本量较大时,任意分布的随机样本均数比较,可以使用T检验,但足够大的样本量是关键条件。那么多大的样本量才算是足够大呢?实际上并没有唯一答案,这取决于原始分布本身偏离正态分布的程度,以及我们对近似性标准要求到底有多高。
经验来看,若只是稍稍偏离正态分布,可能大于30的样本量就够了(相信大家对这个说法有所耳闻),但若偏离比较大,则会需要更多,比如50以上,甚至100以上。这种近似是可以接受的,因为即便是我们通过正态性检验发现不拒绝正态性假设时才进行T检验,也无法保证原始数据一定就是完美的正态分布,正态性检验本身也是个近似。
2. 选择T检验还是非参数检验?
通常我们获得的建议是,如果通过正态性检验发现不拒绝正态性假设就用T检验,如果拒绝了就用非参数检验,例如对于两样本,通常是wilcoxon rank-sum检验。那么T检验与非参数检验之间该如何选择呢?
答案是,若原始数据比较符合正态分布,推荐用T检验,若偏离较大,建议用非参数检验。若样本量非常大,那么这两种检验都是可以的。
这是因为两种检验方法在不同条件下的power不同。当数据近似符合正态分布时,T检验几乎利用了所有的数据信息,因此最有能力发现差异,非参数检验利用的是数据间的次序关系,本身造成了一定的信息损失。
但是当数据明显偏离正态分布时,由于T检验依赖于较大的样本量才可以获得较好的近似,其power可能下降明显,不如非参数检验power高。
例如,理论上,对于两组正态分布数据,wilcoxon rank-sum 检验的渐近检验效率是T检验的95.5%,但若数据明显偏离正态分布,同等样本量下wilcoxon rank-sum 检验的power要更高一些。所以当你无法确定原始数据是否大致符合正态分布,而又需要提前确定分析方法时,用非参数检验会相对保险。
我们常常也会看到支持用非参数检验另外一些说法:非参数检验对原始分布类型没有要求,不需要额外假设,对于非对称数据检验中位数比检验均数更好。这其实也是误解。
就拿wilcoxon rank-sum检验来说,虽然其不要求数据来自于哪个具体的分布,但是要求两个样本的分布形状要大体相同,在这样的情况下,检验两组样本均值存在差异还是中位数存在差异,其实是等价的,都可以说明两组数据分布位置存在差异,因此不存在检验均数不正确的问题。
对于非对称数据用中位数进行描述,只是因为中位数能更好地代表数据的中心位置,但不代表中位数是唯一可以用来说明组间存在差异的统计量。而且非参数检验大多检验的是位置参数,中位数和均数同属于位置参数,因此也不能说非参数检验方法检验的就一定是中位数(当然某些非参数检验确实针对的是中位数),或者用了非参数检验就一定只能报告中位数。
3. 模拟验证
本部分将针对几个不同类型的分布,构造样本的t统计量,以验证该统计量是否近似为标准正态分布(或T分布)。
① 首先假设数据总体来自正态分布。(总体均数为2,标准差为5,样本量50,重复抽样1000次)
② 指数分布(总体均数为2,标准差为2,样本量分别为50/100,重复抽样1000次)
③ 两点分布(p=0.2,样本量为50/100/200/500,重复抽样1000次)
两点分布只有0和1两个取值,与正态分布差异巨大,但样本量到200以上时,样本t统计量也比较接近标准正态分布了。
附录
为了使读者对该问题有全面的理解,本文的附录将首先证明为什么原始数据符合正态分布时,样本均值的比较要用T检验;然后证明为什么原始数据不符合正态分布时,样本均值可以近似使用T检验,以及近似的条件。
原始数据符合正态分布,
样本均值比较时需要用T检验的证明
数据用什么样的检验方法进行分析,实际上取决于我们构造的统计量服从什么样的分布,只有服从这个分布,才可以利用这个分布的相关函数计算P值,如果实际上不服从这个分布,那么计算出的P值自然是不准确的。因此要证明以上问题,实际上是要证明原始数据符合正态分布时,我们构造的检验统计量符合T分布。
在开始证明前,我们需要先了解以下三个分布及其特征:
正态分布
正态分布大家应该都很熟悉了,它有两个重要的参数,一个是均值 μ,另一个是方差 σ2。正态分布一个非常重要的特征是:如果有多个变量服从正态分布,且互相独立,那么它们的线性组合也服从正态分布,例如,若
X1 ~ N(μ1,σ12),
X2 ~ N(μ2,σ22),那么
aX1 + bX2 ~ N(aμ1+bμ2,a2σ12+b2σ22),
aX1 - bX2 ~ N(aμ1 - bμ2,a2σ12+b2σ22)。
χ2 分布
如果一个变量X服从标准正态分布,即 N(0,1),那么变量 X2服从自由度为1的 χ2 分布。χ2 分布的一个重要特征是:n个相互独立的 χ2 分布的和也服从 χ2 分布,且自由度为n。
T分布
如果变量 X 服从标准正态分布 N(0,1),Y服从自由度为 n 的 χ2 分布,且X 和 Y 相互独立,则以下统计量服从自由度为n 的T分布:
我们称以上为T分布的标准形式。
因此一个统计量要服从T分布需满足以下三个条件:
变量X为标准正态分布变量
变量Y为卡方分布变量
变量X与变量Y独立
换句话说,如果我们构造了一个统计量,并且这个统计量满足以上三个条件,那么就可以证明这个统计量服从 T 分布。
现在,我们从正态分布 N(μ,σ2)的总体中抽取了一个样本,并计算该样本的均数(例如若中国60岁居民收缩压是符合正态分布的,我们随机抽取了1000人计算了平均收缩压用于研究),即,
利用前面介绍的正态分布的重要特征,我们很容易知道样本均数
期望(即均数)为
方差为:
我们把样本均数
我们知道进行均数 T 检验时 T 统计量的计算公式是
我们把T统计量的计算公式进行一下变形:
对比一下前面介绍的T分布的标准形式:
显然,Z 统计量
对于我们样本中抽取的每个 Xi 都来自于N(μ,σ2)的总体。将 Xi 进行标准化:
那么,根据 χ2 分布的性质,可知:
对于n个独立样本值,可知:
我们知道,样本方差 S2 的计算公式为:
那么T分布标准型中的Y为:
将 ③ 和 ⑤ 仔细对比,我们发现,二者非常相似,唯一区别在于,③ 中与样本值相减的是总体均数 μ,而 ⑤ 中为样本均数
至此,我们证明了条件B。
而对于正态分布的数据,其样本方差与样本均数独立,即条件C(证明见参考资料1),因此T分布成立的三个条件全部满足。
故 T 统计量服从T分布,即,
以上我们证明了数据来源于正态分布总体时样本均数和样本方差构造的统计量服从T分布。
原始数据不符合正态分布,
样本均值比较时可以用T检验的证明
首先,中心极限定理告诉我们,当样本足够大时,无论总体服从何种分布,它的样本均数都近似服从正态分布。因此 ⑧ 式中分子( 即Z统计量:
第二,要使⑧式T分布成立,还需要分母中
第三,总体服从正态分布时可以证明样本均数与样本方差独立,当总体不服从正态分布时独立性无法保证,因此条件C也可能不满足。
这样看来,原始数据不符合正态分布时样本均值比较好像不应该使用T检验,为什么本文说可以使用呢?其实本文在一开始就提到过,这个证明不完全取决于中心极限定理,因为还需要用到另外两个统计学中非常重要的定理。
定理1(又称Slutsky定理):
设 {Zn} 和 {Un} 是两个随机变量序列,若
Zn 依分布收敛于分布 Z,Un 依概率收敛于常数 C,则有,
Zn+Un 依分布收敛于 Z+C
Un*Zn 依分布收敛于 C*Z
Zn / Un 依分布收敛于Z/c (c不等于0)
注:依分布收敛可以简单理解随着样本量增大,变量的分布越来越接近一个特定的分布;依概率收敛可以简单理解为随着样本量增加,变量的取值越来越可能接近一个固定的常数。
定理2:
设 {Zn} 为一随机变量序列,且 Zn 依概率收敛于常数C,又函数 g(.) 在C处连续,则g(Zn) 依概率收敛到 g(C)。(即如果一个变量收敛到一个常数,那么这个变量经过某种运算后的值收敛到该常数接受同样运算后的值)
下面我们利用以上几个定理完成第二个证明。
设 X1, X2, … , Xn,是来自相同任意分布的独立样本,该分布均值为 μ ,方差为
首先由大数定理可知:
依概率收敛到总体方差 σ2(当样本量接近总体时,该公式即是计算总体方差的公式)
依概率收敛到总体均值 μ(当样本量接近总体时,该公式即是计算总体均数的公式)
由定理1可知:
由定理2可知,S 依概率收敛到 σ(即样本标准差依概率收敛到总体标准差)。对t进行变形:
由中心极限定理,上式中分子服从标准正态分布 N(0,1);上式分母依概率收敛到常数1;由定理1,上式 t 依分布收敛到标准正态分布 N(0,1)。
到此,我们证明了任意分布下样本构造的 t 统计量趋向于标准正态分布(确实不一定符合 T 分布),那为什么说可以用 T 检验呢?因为:在样本量比较大时,T 分布是近似于标准正态分布的,因此 t 统计量对应的P值可由 T 分布近似计算。也就是说,样本量较大时,任意分布的随机样本均数比较可以使用T检验。
以上证明来自于参考资料2(P38-P42),有兴趣的读者可以查阅验证。
参考资料:
1. http://jekyll.math.byuh.edu/courses/m321/handouts/mean_var_indep.pdf
2.茆诗松,王静龙,濮晓龙. 高等数理统计第二版. 北京:高等教育出版社,2006
更多阅读
医咖会微信:medieco-ykh
关注医咖会,提高临床研究水平!
快加小咖个人微信(xys2018ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看70种SPSS教程。