查看原文
其他

SPSS超详细教程:卡方拟合优度检验

2017-11-21 李侗桐 医咖会

有小伙伴曾经提出过这样的疑问,从下图中SPSS菜单的两个入口进去,都是做卡方检验吗?两者有啥区别?


  • 点击Analyze → Descriptive Statistics → Crosstabs



  • 点击Analyze → Nonparametric Tests → Legacy Dialogs → Chi-square



经常看医咖会文章的小伙伴应该会注意到,上面第一张图在卡方检验的教程中多次出现,详见:


那第二张图又是做啥用的呢?下面就让我们进入今天的正题:卡方拟合优度检验(chi-square goodness-of-fit test)——用于检验数据是否服从某个指定分布。

1、问题与数据

某研究者招募了100位受试者,拟探讨体型与参加锻炼意愿之间的关系。但在进行该项目之前,该研究者想知道招募的受试者体型分布是否与总体人群一致


该研究者已知总体人群中有50%是正常体型(normal),35%为超重(overweight)以及15%为肥胖(obese)。现该研究者统计了这100位受试者的体型(body_composition)信息,并按照分类汇总整理,部分数据如下:


2 、对问题的分析

若研究者拟检验数据是否服从某个指定分布,如本研究中拟判断招募的受试者体型分布是否与总体人群一致,我们建议使用卡方拟合优度检验,但需要先满足3项假设:


  • 假设1:存在一个分类变量,如本研究中受试者的体型变量是分类变量。

  • 假设2:具有相互独立的观测值,如本研究中各位受试者的信息都是独立的,不会相互干扰。

  • 假设3:样本量足够大,最小的样本量要求为分析中的任一预测频数大于5。


经分析,本研究数据符合假设1和假设2,那么应该如何检验假设3,并进行卡方拟合优度呢?

3、SPSS操作

3.1 数据加权


在进行正式操作之前,我们需要先对数据加权(针对汇总数据),如下:


(1) 在主页面点击Data→Weight Cases

 


弹出下图

 


(2) 点击Weight cases by,激活Frequency Variable窗口

 


(3) 将freq变量放入Frequency Variable栏

 


(4) 点击OK


3.2 卡方拟合优度检验的SPSS操作


数据加权之后,我们要根据数据类型判断卡方拟合优度检验的类型。


一般来说,卡方拟合优度检验主要分为等比例(equal proportions)和自定义比例(unequal proportions)两种


其中,等比例是指研究者假设受试者有相等的可能性被分为任一种类。比如,我们认为患者在一周中的任一一天中去医院就诊的可能性相同,那么该研究数据就是等比例数据。相反,如果我们认为患者在周一、周五和周六去医院就诊的可能性更高,那么该研究就是自定义比例数据。


针对这两种情况,卡方拟合优度检验有不同的SPSS操作方法。本研究指定了总体人群体型分布的比例,属于自定义比例数据,但是我们为了让大家更全面地了解该检验,我们分别介绍两种类型。


3.2.1 等比例操作


(1) 在主页面点击Analyze→ Nonparametric Tests→Legacy Dialogs→Chi-square

 


弹出下图

  


(2) 将变量body_composition放入Test Variable list栏 

 


(3) 点击OK 


3.2.2 自定义比例操作


(1) 在主页面点击Analyze→Nonparametric Tests→ Legacy Dialogs→Chi-square

 


弹出下图

 


(2) 将变量body_composition放入Test Variable list栏

 


(3) 点击Expected Values中的Values

 


(4) 输入“50”,并点击Add

 


注意:我们要按照body_composition变量的命名顺序输入总体人群的体型分布比例。如下图所示,body_composition变量是以正常、超重、肥胖的顺序命名的,那么,我们也要以对应的总体人群人比例 “50”、“35” 和 “15” 输入 “Values” 栏。

 


(5) 输入“35”,并点击Add

 


(6) 输入“15”,并点击Add

 


(7) 点击OK


经上述操作,SPSS输出等比例情况下的预期频数,如下所示:

 


该表显示,本研究最小的预测频数是33.3,大于5,满足假设3,具有足够的样本量。Test Statistics表格也对该结果做出提示,如下标注部分:

 


即在本研究中,没有小于5的预测频数,可以直接进行卡方拟合优度检验。


同样地,经上述操作,SPSS也输出自定义比例情况下的预期频数,如下所示:

 


该表显示,本研究最小的预测频数是15,大于5,满足假设3,具有足够的样本量。Test Statistics表格也对该结果做出提示,如下标注部分:

 


即在自定义比例的情况下,本研究也没有小于5的预测频数,可以直接进行卡方拟合优度检验。

4、结果解释

4.1 等比例的结果解释


在进行等比例卡方拟合优度检验的结果分析之前,我们需要先对研究数据有个基本的了解。SPSS输出结果如下:

 


该表提示本研究中共有100位受试者,可按照体型变量分为“正常”、“超重”和“肥胖”3类。在等比例数据的假设下,我们认为受试者有相等的可能性被分为任意一类。因此,每一类别的预测频数为100/3=33.3 (“Expected N”栏)。


但实际上,受试者体型类型的观测频数与预测频数并不相等,“Residual”栏提示了每一类型中观测频数与预测频数的差别,如下:

 


以体型正常的受试者为例,我们可以发现“Residual”栏的提示值刚好是观测频数和预测频数的差值,如下:

 


即51-33.3=17.7,提示在等比例的假设下,正常体型的观测频数比预测频数高17.7。其他两个分类的解释与此一致,我们就不再赘述。


在卡方拟合优度检验中,每一类别的残差值越小说明调查数据与指定分布的拟合程度越好。当我们假设数据是等比例分布时,本研究的数据残差值较大,提示受试者的体型数据不符合等比例分布。


但是这种简单比较的数据结果易受到抽样误差的影响,可信性不强,还需要进行统计学检验。


SPSS输出等比例卡方拟合优度检验的结果如下:

 


卡方拟合优度检验结果显示χ2=14.780,P = 0.001,说明本研究数据不符合指定数据分布情况,提示受试者的体型数据不符合等比例分布。如果P>0.05,那么就说明本研究数据符合指定数据分布情况,即认为受试者的体型数据符合等比例分布。


4.2 自定义比例的结果解释


在进行自定义比例卡方拟合优度检验的结果分析之前,我们也需要先对研究数据有个基本的了解。SPSS输出结果如下:

 


该表提示本研究中共有100位受试者,可按照体型变量分为“正常”、“超重”和“肥胖”3类。根据我们输入的指定分布比例:50%、35%和15%,SPSS计算出各体型类别的预测频数,如下:

 


即“Expected N”栏提示各体型类别的预测频数。以体型正常为例,我们认为在总体人群中,该体型人群应占50%。那么在这100位受试者中,体型正常的受试者应有100*50%=50位。


同样地,从该表也可以看出,受试者体型的观测频数与预测频数并不相等, “Residual” 栏提示了每一类型中观测频数与预测频数的差值,如下:

 


以体型正常的受试者为例,如下标注部分:

 


残差值刚好是观测频数与预测频数的差,即51-50.0=1.0,提示在指定比例的情况下,正常体型的观测频数比预测频数高1.0。其他两个分类的解释与其一致,我们就不再赘述。


在卡方拟合优度检验中,每一类别的残差值越小说明调查数据与指定分布的拟合程度越好。当我们假设总体人群的体型分布比例为50%、35%和15%时,本研究的数据残差值较小,提示受试者的体型数据符合该比例分布。但是这种简单比较的数据结果易受到抽样误差的影响,可信性不强,还需要进行统计学检验。


SPSS输出自定义比例卡方拟合优度检验的结果如下:

 

卡方拟合优度检验结果显示χ2=3.820, P = 0.148, 说明本研究数据符合指定数据分布情况,提示这100位受试者的体型分布情况与总体人群一致。如果P<0.05,那么就说明本研究数据不符合指定数据分布情况,即认为受试者的体型分布情况与总体人群不同。

5、撰写结论

5.1 等比例情况


本研究共招募100位受试者,其中51位体型正常,28位超重,21位肥胖。采用卡方拟合优度检验判断这些受试者的体型数据是否符合等比例分布。结果显示,本研究最小的预测频数为33,可以采用卡方拟合优度检验,χ2=14.780,P = 0.001,说明本研究数据不符合指定数据分布情况,提示受试者的体型数据不符合等比例分布。


5.2 自定义比例的情况


本研究共招募100位受试者,其中51位体型正常,28位超重,21位肥胖。采用卡方拟合优度检验判断这些受试者的体型分布是否与总体人群(正常、超重和肥胖的比例分别为50%、35%和15%)一致。结果显示,本研究最小的预测频数为15,可以采用卡方拟合优度检验,χ2=3.820,P = 0.148,说明本研究数据符合指定数据分布情况,提示这100位受试者的体型分布情况与总体人群一致。


(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)



更多阅读

1.【合集】36种统计方法的SPSS详细操作

2. SPSS详细教程:OR值的计算

3. SPSS教程:手把手教你设置哑变量以及解读结果

医咖会微信:medieco-ykh

关注医咖会,轻松学习统计学~


有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。如果想进群,添加小咖时请注明“加群”二字。


点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存