查看原文
其他

再论“数据不是偏态时,是否可以采用t检验?”| 统计小食

郑卫军 医学论文与统计分析 2022-10-07



统计小食系列

(1)数据不是正态分布还能做t检验吗? | 统计小食

(2)当正态、偏态、率的数据狭路相逢,如何绘制规范医学论文表格

(3)基本统计研究七宗罪,你犯了几条?来投个票吧

(4)方差分析后两两比较,究竟应该用哪种方法?|  统计小食

统计小食(5)

在统计小食第一篇,本人已经陈述过,当变量是偏态分布时,应该采用的方法。

 

本篇小食再论数据的偏态性问题,主要针对两种情况,第一种,当存在异常值时,第二种当两组开展比较,其中有一组为偏态分布的情况


1.当数据存在着极端值时,统计分析策略

案例:以下案例中,低蛋白组存在着一个187的异常值:


正态性检验结果如下

看起来虽然是正态数据,但是187数据已经严重偏离均数。对于低蛋白组,除去异常值之外,其它的值算出均数为102,标准差为16。均数加上三倍标准差结果为150。所以187远远超过三倍标准差,是一个异常值。


对于这样的异常值,如果我们采用t检验,则P值为0.201:


如果采用两样本wilcoxn秩和检验,P为0.057,P值小于t检验结果


对于上述的情况,推荐使用非参数秩和检验,而不是t检验;


因此,当存在着样本存在着异常值,特别是小样本的时候,秩和检验效果不一定比t检验要差。


所以在这里建议,如果存在着一个高于或低于均数3倍标准差以上的,建议采用秩和检验方法;如果存在着更为离谱的异常值,则需要考虑是否剔除异常值(可能数据采集的结果不正确)


2. 当数据开展正态性检验,其中一组是偏态分布,一组不是,如何处理?

这一现象较为常见,因为t检验需要比较的2组均符合正态性的要求,如果出现其中一组正态性检验P<0.05,如何是好?


我的答案是:回归本源,看结局指标的总体特征!


1)如果指标总体上应该是正态分布,应该采用t检验


比如:我基于一个社区人群,调查其糖尿病,那么其血糖一般来说是正态分布,但也有个别样本会得到近似偏态分布;如果我们比较男性与女性血糖有无差别,正态性检验时会可能出现,一组是正态,另外一组是偏态的情况,这个时候仍然可以采用t检验比较两组人群的血糖。


2)如果数据总体上是偏态分布,应该采用秩和

比如:某研究者观察局部加热治疗小鼠移植肿瘤的疗效,以生存日数作为观察指标,实验结果见下表,试检验两组小鼠生存日数有无差别?

尽管下图正态性检验仍然有一组是正态的,我仍然推荐的是秩和检验方法,因为生存时间理论上就是偏态分布的!


3) 如果存在着极端值或者异常值造成偏态性不符合的,推荐使用秩和检验。


本公众号大量资源全部免费下载:

1.  医学统计学习全套视频,妙趣+高级+SPSS+测试题,让你从入门到精通!

2.  重磅资源:100本“临床试验与统计学方法”英文书籍大放送!

3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!

4.  2006-2018中国卫生统计年鉴合集

5.  不做实验如何利用临床数据库发表论文?精选临床预测模型视频合集

6.  重磅推荐:全网最全的医学统计相关软件,免费下载,均已破解

7.  如何制作与分析量表?中英文权威书籍来帮忙。

8. 教你如何撰写临床研究论文:临床研究统计分析思路与统计图表绘制方法


诸位,本公众号现在已经形成包括“样本量估算方法”“ Meta", “论文的统计表达方法”“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存