数据不是正态分布还能做t检验吗? | 统计小食
统计小食系列
数据的正态性始终是困扰我们的一个重要问题。到底偏态的数据怎么处理?估计10个人有9个束手无策。对于定量资料而言,几乎所有方法的选择都跟正态性有关。很多人都很崩溃:我想直接用t检验行不行啊?可惜,正态性检验就像一个绕不过去的门槛,你恨或愤怒,它都在那里,不声不响,不悲不喜。
1.数据分析误区
对于两组均数比较,一般情况下存在三种误区:
第一种,无论偏态、正态分布,均数比较直接用t检验;
第二种,严格按照数据SPSS正态性检验结果来看,如果至少一组正态分布不要用t检验了,应该用秩和;
第三种,一般很多教材,特别是《卫生统计学》教材带来了很大的误解。一般卫生统计学教材说,大样本 (>30)的时候,根据中心极限理论,样本均数也近似正态分布,是可以做t检验的!
你的思路符合哪一种呢?
首先,第一种思路肯定是不对的!
第二种思路呢?SPSS软件一般可通过统计学检验法进行正态性检验。常见的统计学检验有Kolmogorov-Smirnov检验(KS检验)和Shapiro-Wilk检验(SW检验),当检验结果的P值小于0.05,则认为数据不满足正态性;反之,则认为数据满足正态性。
但需要注意的是,上述检验方法存在一定局限性。因为这两种方法都毕竟敏感。比如下图:
你觉得这个是正态分布吗?非常接近,遗憾的是,正态性检验结果显示,不能认为是正态分布(P=0.015)。为什么会这样?一般情况下,样本量增加,P值就越来越小,即便是数据非常非常接近于正态分布。那么此时,t检验就不好用了?
第三种思路,你说人卫出版社的《卫生统计学》教材错了吗? 它讲的没有错,但是却是比较误导人的。虽说样本量大于30,样本均数分布呈现正态分布。但是,这不代表总体也是呈现正态分布呀。比如两组大样本偏态分布数据,我们用均数来比较,来进行t检验。虽然,t检验方法用的是没有错,但本身样本均数没法代表其数据的集中度。均数没有代表性,还拿出去比较?这不是笑掉牙的事情吗?t检验结果,不能反映数据的实际情况。比如说,两个医院开展外科临床比赛,代表出赛都是内科的医生们。他们的胜负能反映两家医院的水平高低么! 你还别说,我们的《卫生统计学》教材也没有好好理清这里面的道道。
二、什么时候用t检验
那么怎么办,简直太混乱了!
我的建议是返璞归真,不要过分依赖正态性检验结果,要凭着肉眼观察。
我们常建议研究者通过绘制直方图、QQ图等来判断数据的正态性。在直方图中数据呈现钟型分布,中间高,两端逐渐下降左右两侧呈现对称或近似对称,或者在QQ图中的数据点和理论直线基本重合,则可认为数据满足正态性。此外,这种方法还可以发现极端值,异常值。极端值和异常值情况下,也要舍弃t检验的方法。
所以,如果数据正态分布或者近似正态分布者,无论单组偏态甚至双组偏态,均可采用t检验,严重偏态分布则则采用秩和检验。
相信我没有错!我是郑老师,我为自己带盐!
“如何分析真实世界临床研究数据”系列文章
1.“如何分析真实世界临床研究数据”系列文章开启!敬请关注。