查看原文
其他

数据不是正态分布还能做t检验吗? | 统计小食

老郑 医学论文与统计分析 2022-10-07


统计小食系列


数据的正态性始终是困扰我们的一个重要问题。到底偏态的数据怎么处理?估计10个人有9个束手无策。对于定量资料而言,几乎所有方法的选择都跟正态性有关。很多人都很崩溃:我想直接用t检验行不行啊?可惜,正态性检验就像一个绕不过去的门槛,你恨或愤怒,它都在那里,不声不响,不悲不喜。


1.数据分析误区


对于两组均数比较,一般情况下存在三种误区: 

第一种,无论偏态、正态分布,均数比较直接用t检验;

第二种,严格按照数据SPSS正态性检验结果来看,如果至少一组正态分布不要用t检验了,应该用秩和;

第三种,一般很多教材,特别是《卫生统计学》教材带来了很大的误解。一般卫生统计学教材说,大样本 (>30)的时候,根据中心极限理论,样本均数也近似正态分布,是可以做t检验的!


你的思路符合哪一种呢?


首先,第一种思路肯定是不对的!

第二种思路呢?SPSS软件一般可通过统计学检验法进行正态性检验。常见的统计学检验有Kolmogorov-Smirnov检验(KS检验)和Shapiro-Wilk检验(SW检验),当检验结果的P值小于0.05,则认为数据不满足正态性;反之,则认为数据满足正态性。

但需要注意的是,上述检验方法存在一定局限性。因为这两种方法都毕竟敏感。比如下图:

你觉得这个是正态分布吗?非常接近,遗憾的是,正态性检验结果显示,不能认为是正态分布(P=0.015)。为什么会这样?一般情况下,样本量增加,P值就越来越小,即便是数据非常非常接近于正态分布。那么此时,t检验就不好用了?


第三种思路,你说人卫出版社的《卫生统计学》教材错了吗? 它讲的没有错,但是却是比较误导人的。虽说样本量大于30,样本均数分布呈现正态分布。但是,这不代表总体也是呈现正态分布呀。比如两组大样本偏态分布数据,我们用均数来比较,来进行t检验。虽然,t检验方法用的是没有错,但本身样本均数没法代表其数据的集中度。均数没有代表性,还拿出去比较?这不是笑掉牙的事情吗?t检验结果,不能反映数据的实际情况。比如说,两个医院开展外科临床比赛,代表出赛都是内科的医生们。他们的胜负能反映两家医院的水平高低么! 你还别说,我们的《卫生统计学》教材也没有好好理清这里面的道道。


二、什么时候用t检验


那么怎么办,简直太混乱了!

我的建议是返璞归真,不要过分依赖正态性检验结果,要凭着肉眼观察。


我们常建议研究者通过绘制直方图、QQ图等来判断数据的正态性在直方图中数据呈现钟型分布,中间高,两端逐渐下降左右两侧呈现对称或近似对称,或者在QQ图中的数据点和理论直线基本重合,则可认为数据满足正态性。此外,这种方法还可以发现极端值,异常值。极端值和异常值情况下,也要舍弃t检验的方法。


所以,如果数据正态分布或者近似正态分布者,无论单组偏态甚至双组偏态,均可采用t检验,严重偏态分布则则采用秩和检验。


相信我没有错!我是郑老师,我为自己带盐!


“如何分析真实世界临床研究数据”系列文章

1.“如何分析真实世界临床研究数据”系列文章开启!敬请关注。

2.真实世界数据分析(1): 为什么是回归方法

3.困扰多年的问题:如何筛选自变量建立多因素回归模型



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存