P<0.05就够了?还要校正!校正!3个方法献上
特别福利:关注 "解螺旋" 微信公众号,回复关键词"12月"可索取2016年12月资源包:Cell信号通路图。
作者:解螺旋.麦子
如需转载请注明来源:解螺旋·医生科研助手
当有多组数据要比较时,不管是ANOVA,还是非参的Kruskal-Wallis检验等等,都只能看出整体的几组之间有没有差异。要是有,那么差异在哪里呢?还要做个两两比较才知道。OK,两两比较又要怎么做?有的小伙伴自然而然地会想到,每两组之间做一个T检验不就好了。To naive!这是个吃力不讨好的活,用这样的方式打开T检验会增加I型错误的风险。
I型错误,又称拒真错误,因为光看到P<0.05我就以为两组有差别,但这个P值是有bug的,这两组实际上没差别。你问这P值怎么了?!这就遇到了多重检验问题(multiple comparison problem)。
什么是多重检验问题?
我们选择P值以0.05为界,来鉴定两组是否有差异,但那是两组!两组!当组数比较多时,这里就有了一个坑,叫族错误率(Family-wise Error Rate, FWER,又称Experiment-wise significant level),即一族(多重)检验做下来,犯I型错误的概率。每个检验中犯I型错误的概率用α表示,也就是显著性水平,就是我们紧盯着的0.05——每个检验里,我们只允许自己有5%的机会犯I型错误。
但要是做了k次检验,整个实验出现I型错误的概率就会积累:一个检验犯错误的概率是α,不犯错误的概率就是1-α;于是2个检验都不犯错误的概率就是(1-α)×(1-α),k个检验都不犯错误的概率就是(1-α)^k,最后k个检验会犯错误的概率就是1-(1-α)^k。即:
比如我们的实验有4个组,那么两两比较就要做的次数就是:C(4, 2)=4×3/2×1=6次。把k=6代入公式FWER=1-(1-0.05)^6≈0.26,也就是说,这一溜检验下来,如果每个检验都给5%的机会去犯I型错误,那最后整个实验犯I型错误的概率就积累到了26%!
所以为了控制好最后整个实验犯I型错误的概率,就要对每个两两比较的P值做校正,我们不能再纵容自己有5%的概率犯I型错误,这个容忍度要更小。
多重检验怎么校正?
事后检验(post-hoc test)就是得知各组间有差异之后,用来寻找具体差异在哪的一系列方法,其中就有一些校正P值的方法。常用的有Bonferroni法和Dunn- Sidák法。
一、Bonferroni法
这是最常用也是简单粗暴的方法。做了k个比较,那就直接用0.05/k来生成一个新的P值(记作P’)。4组数据做6次两两检验,用则P’=0.05/6≈0.0083。就是说,如果A组和B组比较的P值为0.032>P’,应该认为这两组之间没有统计学差异;B组和C组比较的P值为0.006<P’,这才叫有统计学差异。
二、Dunn-Sidák法
比Bonferroni精致一些。做了k个两两比较,那么:
咦,是不是和FWER那个有点像?其实就是从它倒推过来的啊~.~4组数据做6次比较,那么P’值应该设在1-(1-0.05)^1/6≈0.0087。
所以如果你非要选择T检验(正态、方差齐)或Mann-Whitney U检验(非参)等来做两两比较,那么还要选用以上两种方法之一去校正P值,来判断组间是否有差异。
三、Fisher最小显著差异法(Fisher LSD)
不过,也并不是所有的事后检验法都要对多重比较做校正,比如Fisher最小显著差异法(Fisher least significant difference test,Fisher LSD)。它可以说是T检验的延伸,不同的是,T检验时用到的标准差只考虑正在比较的两个组,而Fisher LSD要考虑所有样本的标准差,所以它才敢这么任性,比直接用T检验稍微准确一些。但由于不作校正,它又比较宽松。
在SPSS里面,“分析→比较均值→单因素方差分析→事后比较”的对话框里就有LSD,它下面赫然便是Bonferroni和Sidak。
如果在这里选择Bonferroni或Sidak,下边的显著性水平填0.05是没问题的,可以用它来做判断。因为此处是用相应的方法校正过的,不信你用T检验比较一下其中2组数据,再跟Bonferroni或Sidak计算结果中相应的2组对比一下就知道了。
三种方法如何选择?
显然,前两种方法都相对较保守,因为要求的P值太小太严格,当我判断一个检验结果没有差异的时候,实际上它可能是有差异的,这就是II型错误,又称受伪错误。但像LSD这样任性的,的确比较敏感,更容易发现差异,可是又容易犯I型错误。到底要闹哪样?
其实如何选择是没有金标准,看具体实验中,犯哪种错误后果比较严重。当然也得看杂志和审稿人的要求,听说有小伙伴不做校正会被打回来要求做个Bonferroni,这时如果校正过后导致数据解读方向扭转,怕是文章得重写。有一种观点认为,当比较次数在10次(即5组数据)以内时,用Bonferroni比较好;比较次数较多时,对I型错误也可以稍稍宽容。
参考资料:
1.Let’s Talk About Stats: Getting the Most out of your Multiple Datasets with Post-hoc Testing
2.How does multiple testing correction work?
想学习和了解更多SPSS相关内容,可以扫描下方二维码或点击“阅读原文”报名《解螺旋课堂—医学统计与SPSS运用教程》
61:非编码RNA类型及功能汇总,吐血推荐!
62:一文读懂 | 与自噬相关的mTOR信号通号
63:干货 | Oligo设计引物,就是这么简单
64:跟着13分文章学作图,等着收获SCI吧(origin8教程)
65:干货 | 磷酸化抗体使用必杀技
66:Discussion写作模板:从3分、5分到10分
67:一文包会:Web of science数据库应用宝典
68:读图 | qPCR那些奇奇怪怪的曲线都代表啥?
69:MicroRNA,如何实现从零基础到10分的跨越
70:ELISA实验操作中值得关注的细节大盘点
投稿邮箱: tougao@helixlife.com.cn
合作微信:helixlife6