样本均数间的多重比较,你想知道的都在这里!
单因素方差分析文章中,我们对3组患者的ALT水平进行了比较,方差分析结果为F=68.810,P<0.001,说明了三种治疗措施对患者ALT水平的影响差异具有统计学意义。(详见SPSS详细操作:单因素方差分析)
但是我们只能认为3组的总体均数不等或不全相等,即至少有2个处理组的均数处于不同水平。要想进一步了解是哪2组的均数相等,或者哪2组的均数处于不同水平,这就需要做多个样本均数间的多重比较(multiple comparisons),也叫多个样本均数间的两两比较。
样本间的多重比较是医学研究领域较为常见的应用问题,其方法的选择在统计学界争议颇深,目前还没有一种在任何条件下都适用、效果好的方法。关于样本均数之间的多重比较,可供我们选择的统计方法更有10多种之多。根据研究设计和研究目的的不同,其方法大致可以分为2种类型:
(1)用于证实性研究,在研究设计阶段根据研究目的或专业知识就设定了要比较的组别,比如多个处理组与同一对照组比较。即我们事先就有一定假设,只关心某几个组间的均数是否有差异,这叫做事前比较;
(2)用于探索性研究,在研究设计阶段不明确哪些组间的比较是我们更关注的,各处理组两两间的对比关系都要回答。即在整体检验有统计学差异之后,我们想知道哪些组间的均数有差异,对每一对样本均数都进行比较,这叫做事后比较。
接下来,我们结合实例讨论2种类型研究在方差分析条件满足时可采用的多重比较方法,但对各方法的具体原理和计算公式不做深入探讨,主要关心其使用条件和应用方向。话不多说,上例子!
一、证实性研究适用的方法
某研究在社区随机抽取了24名糖尿病患者、葡萄糖耐量减低(IGT)患者和健康人进行载脂蛋白测定(数据见下表),试问3组人群的载脂蛋白水平是否有差异?糖尿病和IGT患者相比于健康人的载脂蛋白水平又是否有差异?
表1. 三组人群的载脂蛋白水平
本例为证实性研究。经检验,各组资料方差齐,方差分析结果为F=4.832,P=0.019<0.05,3组人群载脂蛋白水平的差异有统计学意义。由于已经设定了健康人为对照组,要比较糖尿病患者和IGT患者相比于健康人的载脂蛋白水平差异,故糖尿病患者组和IGT患者组间不必再作比较。
常用方法有LSD-t检验法和Dunnett-t检验法。这2种方法不管方差分析结果如何,即使P值稍稍大于检验水准,也可以进行所关心组别间的比较。
(1)LSD-t检验法:最小显著差异法,检验统计量为T,检验原理与t检验相同,但比一般t检验的敏感性高,只要各组均值间存在一定程度的微小差异就有可能被检验出来。LSD法侧重于减小II类错误,但有增大I类错误的可能。
(2)Dunnett-t检验法:新复极差检验法,统计量计算公式同LSD-t检验,但Dunnett-t检验有专门的界值表。适用于n-1个实验组与1个对照组间均数差别的多重比较。
二、探索性研究适用的方法
某研究在社区随机抽取了24名糖尿病患者、葡萄糖耐量减低(IGT)患者和健康人进行载脂蛋白测定(数据见表1),试问3组人群的载脂蛋白水平是否有差异?如果有差异,具体又是哪两组人群间的载脂蛋白水平有差异?
本例为探索性研究。方差分析结果与证实性研究一致,3组人群载脂蛋白水平的差异有统计学意义。由于不明确哪些组间的比较是我们更为关注的,因此我们要进行各组间的两两比较,常用方法有SNK-q检验法、Tukey法和Scheffe法。
(1)SNK-q检验法:检验后将没有显著差异的组别放在一个子集,有显著差异的组别分在不同子集,控制了犯I类错误的概率。
(2)Tukey法:检验原理与SNK法基本相同,但是该方法要求各处理组样本量相同。
(3)Scheffé's法:检验原理为对多组均数的线性组合是否为0进行假设检验,可以同时检验所有可能的对比,不用再两两去比较,多用于处理组样本量不同的资料。
三、证实性研究和探索性研究均适用的方法
常用方法有Bonferroni-t检验法和Sidak-t检验法。
(1)Bonferroni-t检验法:两两比较中最常用的方法之一,检验统计量为T。将α’=α/m作为检验水准的调整值(m为共需比较的次数,本例m=C32=3,α’=0.05/3=0.017),两两比较得出的P值与α’进行比较,即P<0.017时才能拒绝零假设。Bonferroni法应用范围广,还可以用于样本率的两两比较,但在控制了I类错误的同时增大了II类错误发生的概率,在推断结论方面比较保守,需要比较的次数越多(≥10次),结果越保守;当组间比较的次数不多时,Bonferroni法的效果较好。
(2)Šidák-t检验法:将α’=1-(1-α)1/m作为检验水准的调整值。Sidak-t检验原理与Bonferroni-t检验类似,是Bonferroni-t检验的精确计算,常在比较次数较多时使用(≥10次)。
推荐的方差分析流程,见图1。
本例采用SPSS进行样本均数间多重比较的结果如下图所示,可以看出:糖尿病患者、IGT患者与健康人相比,载脂蛋白水平的差异有统计学意义(P<0.05),糖尿病患者与IGT患者载脂蛋白水平的差异无统计学意义(P>0.05)。但是,不同方法给出的P值不尽相同,有的甚至在0.05上下变化。因此,只有结合我们的研究目的和数据特点选择合适的多重比较方法,才能得到科学合理的统计结果。
后续我们会带来SPSS样本均数间多重比较的操作教程和多个样本率间多重比较的知识讲解,敬请期待!
参考文献:
[1] 多个样本均数间的两两比较. 循证医学, 2008.
[2] 两两比较的Bonferroni法. 循证医学, 2006.
(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)
统计学教程精彩回顾:
关注医咖会,一起学习统计学~
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。诚邀各位伙伴加入我们创作内容,请和小咖联系,和大家分享你喜爱的临床研究以及有用的研究方法学知识。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单,点击“直接搜索”,查找你想了解的内容。