SPSS:不符合正态分布的两组数据,非参数检验的详细教程
一、问题与数据
一家药品公司推出了一款药物广告,这家公司想了解男性患者和女性患者对该广告的接受程度,于是该公司向20名男性患者和20名女性患者播放该广告,播放结束后要求他们填写一份调查问卷,从该调查问卷中计算出每个调查对象对这款药物广告接受程度的评分。以此判断在对于药品广告的接受程度上是否存在性别差异。
该公司所收集的数据包括:接受程度评分engagement(因变量)和性别分组gender(自变量),部分数据如下图所示:
二、对问题的分析
本问题是探讨男性患者组和女性患者组之间的接受度评分是否相同,因为此数据不符合正态分布,不能采用独立样本t检验方法,因此选用Mann-Whitney U检验。
Mann-Whitney U检验有4条基本假设:
假设1:数据中有一个因变量,且因变量为连续变量或等级变量。
例如:连续变量——智力得分、考试分数、体重;等级变量——满意程度(包括非常不满意、不满意、满意、非常满意)。
假设2:数据中有一个自变量,且自变量为二分类的独立变量。
例如:性别分组——男性组、女性组;生活习惯——吸烟组、非吸烟组。
假设3:观察值之间相互独立,即自变量的两个分组中的研究个体不能相关。
例如:对比两个班级的学生的考试分数;对比患者与健康者的血生化指标。
如果:研究数据不符合此项条件,例如测量同一组患者治疗前与治疗后的血生化指标,这样数据属于配对样本数据,应选用Wilcoxon符号秩和检验。
假设4:Mann-Whitney U检验假设——自变量中两组样本的分布一致。
例如:男性组和女性组的接受度评分的分布可能有以下3种情况(图A与图B符合假设4,图C不符合):
(图A.数据分布完全一致;图B.数据分布形状一致,但均值不同)
(图C.数据分布形状不一致)
三、验证假设
假设1:数据中有一个因变量,且因变量为连续变量或等级变量。
通过数据特点判断,本例中因变量为对广告的接受度评分,为连续变量。
假设2:数据中有一个自变量,且自变量为二分类的独立变量。
通过数据特点判断,本例中自变量为性别分组,男性组和女性组,为二分类的独立变量。
假设3:观察值之间相互独立,即自变量的两个分组中的研究个体不能相关。
通过数据特点判断,本例中自变量为性别,一个研究对象只能在其中的一个分组,不会存在一个研究对象即在男性组又在女性组的情况。
假设4:Mann-Whitney U检验假设——自变量中两组样本的分布一致。
通过SPSS软件画图判断。如果Mann-Whitney U检验选用旧对话框进行SPSS操作,这里需要通过Graphs——Chart Builder模块进行画图,具体操作步骤如下:
1. 点击主菜单上的Graphs——Chart Builder。
2. 在跳出的对话框中选择“Histogram”模式,双击该模式下的“Population Pyramid”图形。
3. 在显示的界面中需要设置分布变量“Distribution Variable”及拆分变量“Split Variable”,将性别变量“gender”放入拆分变量“Split Variable”,将接受度评分“engagement”放入分布变量“Distribution Variable”,点击“OK”按钮。
4. 图形解读,SPSS软件输出如下图形:
如果数据的分布一致,则可以使用Mann-Whitney U检验来判断两组数据的中位数大小,以此来判断男性组与女性组的接受度评分是否相同。
在本例中,两组的数据分布相似,因此可以比较两组数据的中位数。然而,如果两组数据的分布不同,仍然可以使用Mann-Whitney U检验,此时两组比较的不是数据的中位数,而是数据的平均秩次。
四、Mann-Whitney U检验的SPSS操作
1. 在SPSS 18及之后版本中,可以点击Analyze — Nonparametric Tests — Legacy Dialogs(旧对话框) — 2 Independent Samples(如下图所示),本文按照此操作步骤为例来展示。[版本18之前的软件点击Analyze——Nonparametric Tests——2 Independent Samples]
出现如下对话框,勾选检验类型“Test Type”中的“Mann-Whitney U”选项:
2. 将因变量“engagement”放入“Test Variable List”,将自变量“gender”放入“Grouping Variable”
注:如果有多个需要分析的因变量,可以一齐放入“Test Variable List”,在报告结果时可以同时显示多个因变量与性别之间的关系。例如,加入自变量“happiness” (如下图所示):
3. 点击分组变量中的分组定义“Define Groups”,将性别分组中男性组的赋值1填写至“Group 1”,将女性组的赋值2填写至“Group 2”,点击下方的“Continue”。
4. 返回至主对话框后点击“Option”按钮,如果在处理的数据中有缺失值,在“Missing Values”中选择“Exclude cases test-by-test”,在进行Mann-Whitney U检验时可以自动排除缺失数据。
注:如果选择了多个因变量进入此项分析,例如数据中有两个因变量:
“engagement”与“happiness”,这两个因变量中均有缺失值,第8名调查者的“engagement”数据缺失,第11名调查者的“happiness”数据缺失,处理缺失数据时选择“Exclude cases test-by-test”或者“Exclude cases listwise”是有区别的:
① 选择“Exclude cases test-by-test”
选择“Exclude cases test-by-test”后,只排除缺失的数据,其余数据均保留。如分析“engagement”时,只排除第8名调查者的缺失数据,而第11名调查者的数据保留,而分析“happiness”时只排除第11名调查者的缺失数据,而第8名调查者的数据保留。
【选择“Exclude cases test-by-test”模式,分析幸福值的性别差异时将包括第8名调查者的“happiness”变量值(5.66);选择“Exclude cases test-by-test”模式,分析接受程度评分的性别差异时将包括第11名调查者的“engagement”变量值(5.83)】
② 选择“Exclude cases listwise”
选择“Exclude cases listwise”意味着,任何一个因变量中有数据缺失,那么该调查者的全部数据都被剔除,例如第8名调查者中“engagement”中数据缺失,第11名调查者“happiness”数据缺失,那么在在进行Mann-Whitney U检验时将第8名与第11名调查者的数据同时剔除。
【选择“Exclude cases listwise”模式,分析幸福值的性别差异时将不包括第8名调查者的“happiness”变量值(5.66);选择“Exclude cases listwise”模式,分析接受程度评分的性别差异时将不包括第11名调查者的“engagement”变量值(5.83)】
5. 选择对话框中Statistics中的Descriptive与Quartiles选项后选择Continue。
提示:选择Statistics中的Descriptive与Quartiles选项后,报告出的结果并不一定是有用的,例如我们希望分别得到男性和女性组中广告接受程度的中位数,而结果只会报告广告接受程度及性别变量的中位数。因此,下一步我们介绍两组的中位数如何计算。
6. 最后回到Two-Independent-Sample Tests对话框,点击OK,得到输出结果。
五、计算各分组的中位数
在SPSS软件中进行Mann-Whitney U检验,无法报告各分组的中位数,而中位数是两组比较时的重要参数。因此,我们可以通过以下6步完成中位数的计算。
(1) 点击菜单中Analyze>Compare Means>Means…
出现中位数计算的对话框,如下图所示:
2. 将engagement放入因变量列表中,将gender放入自变量中。
3. 选择Options按钮,选择需要计算的参数:
4. 选择Median,取消预先选择的Mean、Number of Cases、Standard Deviation。
5. 点击Continue,返回Means对话框。
6. 点击OK,得到结果。
六、结果解读
1. Mann-Whitney U检验结果
本例中男性组和女性组的数据分布相似,因为我们先解读数据分布相似时的结果,使用旧对话框得出的结果如下图所示:
Test Statistics表格中Mann-Whitney U代表检验的U统计量值为145;Z代表Z值;Asymp.Sig(2-tailed)代表渐进P值;Exact Sig[2*(1-tailed Sig.)]代表精确P值。
样本量越大,渐进P值就越接近真实P值。当每个分组的样本量小于20时,SPSS软件会自动计算精确P值,此时选择精确P值来判断检验假设。当样本量大于20时,渐进P值可以很好地代表真正的P值,因此选择渐进P值来判断检验假设。
本例中每组的样本量为20个,结果报告了精确P值为0.142,本例选用精确P值判断检验假设,P值大于界值0.05,因此不能拒绝原假设,即不能认为男性组和女性组的广告接受程度有统计学差异。
提示:如果在SPSS报告的结果中发现渐进P值与精确P值显示为“0.000”,这意味着P值小于0.0005,并不是真的为0。
2. 计算中位数输入结果
在本文的第六步中可以计算出各组的中位数值如下图:
【Median:中位数;gender:性别;engagement:接受度评分;Male:男性;Female:女性;Total:全部;】
3. 计算结果的表达
① 数据分布相同的结果表达——中位数
中文表述:使用Mann-Whitney U检验判断男性与女性对于此药品广告的接受程度是否有差异。通过柱形图可以判断两组接受程度评分的数据分布相似。男性组中接受度评分的中位数为5.58,女性组中接受度评分的中位数为5.38。Mann-Whitney U检验结果显示男性组与女性组的接受度评分差异没有统计学意义,U=145,Z=-1.488,P=0.142。
英文表述:A Mann-Whitney U test was run to determine if there were differences in engagement score between males and females. Distributions of the engagement scores for males and females were similar, as assessed by visual inspection. Median engagement score for males (5.58) and females (5.38) was not statistically significantly different, U = 145, z = -1.488, p = .142, using an exact sampling distribution for U (Dineen & Blakesley, 1973).
② 数据分布不同的结果表达——平均秩次
如果在实际的数据计算中发现各分组中数据的分布形状不同,则不能用中位数进行比较,需要对各组的数据进行编秩,算出平均秩次。
中文表述:使用Mann-Whitney U检验判断男性与女性对于此药品广告的接受程度是否有差异。通过柱形图可以判断两组接受程度评分的数据分布不同。Mann-Whitney U检验结果显示男性组(平均秩次为23.25)与女性组(平均秩次为17.75)对于此药品广告的接受度评分差异没有统计学意义,U=145,Z=-1.488,P=0.142。
英文表述:A Mann-Whitney U test was run to determine if there were differences in engagemen 51 29745 51 15287 0 0 2358 0 0:00:12 0:00:06 0:00:06 3316t score between males and females. Distributions of the engagement scores for males and females were not similar, as assessed by visual inspection. Engagement scores for males (mean rank = 23.25) and females (mean rank = 17.75) were not statistically significantly different, U = 145, z = -1.488, p = .142, using an exact sampling distribution for U (Dineen & Blakesley, 1973).
(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)
更多阅读
关注医咖会,轻松学习统计学~
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。如果想进群,添加小咖时请注明“加群”二字。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。