查看原文
其他

是时候为非参数检验平反了,它不是备胎!

郑卫军 医学论文与统计分析 2022-10-07


统计小食系列(11)


话说杭州G20后,有一对夫妇,老公是华为杭研所的,码农,每年工资、奖金和分红是100万,但加班很辛苦。这一天,他家里那位美貌的全职太太说:前年我买的杭州G20前买的房子增值了200万了!全职太太撑起了家里财富的半边天,她不再是带孩子的保姆!


这就是今天我要说的故事,主角是我们的统计方法--非参数检验。因为最近很多朋友问“郑老师,数据偏态能用t检验吗?”,“你看我这数据能进行方差分析吗”。人人爱雷蒙德!t检验和方差分析是统计分析最喜欢用,他们根正苗红,因为它们被称之为参数检验。


我说,你不妨试试非参数检验,但是他们会说“什么是非参数检验”。可怜的非参数检验。


什么是参数和非参数检验?

参数检验是基于特定数据分布,比如正态分布,对其总体参数进行假设检验的方法;


非参数检验对数据的分布没有要求,无论何种数据分布,无论正态偏态,无论定量定性;一般不探讨总体参数,而用于探讨总体分布轮廓或者位置的一种方法。


非参数检验,它就是一个备胎。凡是教材都如此说,凡是教统计学的老师如此说,郑老师我也这么说!否则学生会觉得迷茫,困惑,他们会觉得,郑老师和教材讲的不一样。


总结来说,如果小样本数据是正态分布或者大样本采用参数检验,比如t检验,F检验,如果是小样本严重偏态分布的采用非参数检验。


在这里,我要说下关于非参数检验的几个误区,并建议大家如何使用非参数检验。

非参数检验的误区

1. 非参数检验常见方法包括哪些方法?

一般来说,医学统计学会介绍一类非参数检验方法,那就是秩和检验,秩和检验又分为三种具体方法,一种是wilcoxon符合秩和检验,用于配对样本的假设检验,一种wilcoxon两独立样本秩和检验,还有一种是Kruskal Wallis 多样本秩和检验。


还有吗? 其实,非参数检验方法还是很多的!


第一种,更加耳熟能详的方法:卡方检验!没有错!用于分类数据比较的卡方检验就是非参数检验的一种。它不探讨总体参数,而是对总体分布轮廓开展的假设检验!


第二种,McNemar检验。这种方法俗称配对卡方检验,用于比较配对设计的二分类数据总体分布有无差异性。


第三种,秩相关分析方法。它是相关分析的方法。相关分析方法常见的是线性相关,但是线性相关要求双变量是正态分布。如果是非正态分布的话,就不好用了,因此一般用秩相关分析,又称为Spearman相关。类似的方法还有Kendall秩相关分析方法,用于等级变量和等级变量的相关性


第四种,CMH方法。简单来说,我们可以称之为分层卡方分析,用来干嘛呢?用于进行分层分析,进行定性结局亚组分析、控制混杂偏倚的一种非常重要的统计学方法。

第五种方法,LogRank检验。这种方法在生存分析非常之主流,用于探讨生存时间分布有无统计学差异。


还有更多,比如诺贝尔经济学家发明的friedman配对等级变量的等等。


总结来说,非参数检验方法比参数检验方法更多。它主流吗?非常之主流!远比我们想象地主流!


2. 非参数检验的检验效果如何?

一般来说,如果完全正态分布情况下,以两组定量数据比较为例,非参数检验的检验效能一般是t检验的95%。


什么意思呢?也就说如果正态分布数据100个t检验做出了具有统计学差异(P<0.05),如果做只秩和检验,大概有95次能做出统计学差异的效果(P<0.05)。这效果怎么样?我感觉非参数已经非常棒了!


而实际上,我们现实中的数据,完全正态分布有多少?几乎不太可能!总是带有一点偏态,而且更大的麻烦是,往往存在着异常大或异常小的极端值。很显然,这个时候,参数探讨总体均数有无差异,是不合适的?为什么?因为这个时候样本均数没有代表性!


我认为,现实场景下,绝大多数的数据,非参数检验效果优于参数检验。


3. 国际上非参数检验方法用得多不多?

2005年,NEJM发表了一篇文章《Statistical Methods in the Journal》[1],可以看到1978-1979,1989以及2004-2005年期间,NEJM发表的原始研究使用的统计方法总结。2017年,NEJM对此进行了更新,统计了2015年发表的论文所用的统计学方法。


我们可以从一下的折线图看出40年来统计方法使用的频率! 红框标志的是非参数检验方法!你会发现,非参数检验比参数检验显然用得更加广泛!

非参数检验方法使用频率快速增加,而参数检验,特别是t检验下降明显。


t检验在1978-1979期间是最为常用的统计学方法(44%),但是其使用频率有下降的趋势,1989、2004-2005、2015年的文章中,分别有39%,26%和31%使用了t检验。

如何使用非参数检验

一句话:鼓励使用非参数检验。


具体而言,

1.遇到正态分布数据的时候,建议使用均数(标准差)描述数据,用t或者F检验来开展分析。可以用非参数检验吗?没有任何问题!


2.遇到近似正态分布,参数法或者非参数法(主要是国内外的人都喜欢均数来描述数据)都可以。


3.遇到异常值、极端值或者严重偏态分布,必须使用中位数(四分位数间距)来描述,必须使用非参数检验!被担心本方法不主流!


最后,关于开头的故事,我还有后续要说的。其实,我就是华为员工的家庭男保姆,但你说郑老师是备胎吗?显然不是!没有我,就没有公众号的精彩推文了!


统计小食系列推文

(1)数据不是正态分布还能做t检验吗? 
(2)当正态、偏态、率的数据狭路相逢,如何绘制规范医学论文表格
(3)基本统计研究七宗罪,你犯了几条?来投个票吧
(4)方差分析后两两比较,究竟应该用哪种方法?
(5)再论“数据不是正态时,是否可以采用t检验?”
(6)“我的研究是基于量表的调查,如何计算样本量?”
(7)两组均数比较,可以用方差分析吗?谈谈结果一样的那些统计方法。
(8)趋势性检验还不会做?来看看最基本的趋势性检验方法
(9)临床研究基线均衡性比较除了用P值大小来反映,还可以用这种方法!
(10)多因素回归不能用逐步回归法?那么我该怎么办?


本公众号有更多的临床研究相关资料免费下载

1.医学研究论文写作必备:医学论文报告规范大全!报告规范中文版文献可打包下载了

2.教你如何撰写临床研究论文:临床研究统计分析思路与统计图表绘制方法

3.重磅资源:100本“临床试验与统计学方法”英文书籍大放送!

4.【资源下载】如何开展高质量药物临床试验,精品GCP培训视频下载

5.推荐几本临床研究方法的经典书籍


诸位,本公众号现在已经形成包括“样本量估算方法”“医学研究进展”“论文的统计表达方法”“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存