再论“数据不是偏态时,是否可以采用t检验?”| 统计小食
统计小食系列
(2)当正态、偏态、率的数据狭路相逢,如何绘制规范医学论文表格
统计小食(5)
在统计小食第一篇,本人已经陈述过,当变量是偏态分布时,应该采用的方法。
本篇小食再论数据的偏态性问题,主要针对两种情况,第一种,当存在异常值时,第二种当两组开展比较,其中有一组为偏态分布的情况
1.当数据存在着极端值时,统计分析策略
案例:以下案例中,低蛋白组存在着一个187的异常值:
正态性检验结果如下
看起来虽然是正态数据,但是187数据已经严重偏离均数。对于低蛋白组,除去异常值之外,其它的值算出均数为102,标准差为16。均数加上三倍标准差结果为150。所以187远远超过三倍标准差,是一个异常值。
对于这样的异常值,如果我们采用t检验,则P值为0.201:
如果采用两样本wilcoxn秩和检验,P为0.057,P值小于t检验结果
对于上述的情况,推荐使用非参数秩和检验,而不是t检验;
因此,当存在着样本存在着异常值,特别是小样本的时候,秩和检验效果不一定比t检验要差。
所以在这里建议,如果存在着一个高于或低于均数3倍标准差以上的,建议采用秩和检验方法;如果存在着更为离谱的异常值,则需要考虑是否剔除异常值(可能数据采集的结果不正确)
2. 当数据开展正态性检验,其中一组是偏态分布,一组不是,如何处理?
这一现象较为常见,因为t检验需要比较的2组均符合正态性的要求,如果出现其中一组正态性检验P<0.05,如何是好?
我的答案是:回归本源,看结局指标的总体特征!
1)如果指标总体上应该是正态分布,应该采用t检验
比如:我基于一个社区人群,调查其糖尿病,那么其血糖一般来说是正态分布,但也有个别样本会得到近似偏态分布;如果我们比较男性与女性血糖有无差别,正态性检验时会可能出现,一组是正态,另外一组是偏态的情况,这个时候仍然可以采用t检验比较两组人群的血糖。
2)如果数据总体上是偏态分布,应该采用秩和
比如:某研究者观察局部加热治疗小鼠移植肿瘤的疗效,以生存日数作为观察指标,实验结果见下表,试检验两组小鼠生存日数有无差别?
尽管下图正态性检验仍然有一组是正态的,我仍然推荐的是秩和检验方法,因为生存时间理论上就是偏态分布的!
3) 如果存在着极端值或者异常值造成偏态性不符合的,推荐使用秩和检验。
本公众号大量资源全部免费下载:
1. 医学统计学习全套视频,妙趣+高级+SPSS+测试题,让你从入门到精通!
2. 重磅资源:100本“临床试验与统计学方法”英文书籍大放送!
3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!
5. 不做实验如何利用临床数据库发表论文?精选临床预测模型视频合集
6. 重磅推荐:全网最全的医学统计相关软件,免费下载,均已破解。
8. 教你如何撰写临床研究论文:临床研究统计分析思路与统计图表绘制方法
诸位,本公众号现在已经形成包括“样本量估算方法”、“ Meta", “论文的统计表达方法”、“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。