SPSS详细操作:碰见有序分类资料,怎么办?
经常听到有小伙伴刚学了武林秘籍之卡方检验,只要碰到分类资料就一通乱打,虽说有时候能赢几场,但是也有被打的鼻青脸肿的,还自言自语的说,招数没毛病呀!?事实上毛病大了去了,与人过招,知己知彼,见招拆招,方能克敌制胜!所以我们先来捋捋分类资料的分析。
常见的分类资料可以分成四类:
老大,双向无序分类,特点是分组变量和结局变量均为无序多分类(或二分类),例如比较汉族、回族和蒙古族ABO血型分布有无差别;
老二,单向有序分类,分组变量或结局变量为有序变量,例如比较35-、45-、55-、65-岁组血脂异常的患病率有无差别,或者比较A和B两种药物对于疾病预后 (痊愈、显著改善、进步、无效)有无差异;
老三,双向有序属性不同的分类,这里既强调行变量和列变量均为有序分类资料,并且属性不相同(行列变量不一致),例如观察年龄对疾病预后有无影响(35-、45-、55-、65-岁组 vs 痊愈、显著改善、进步、无效);
老四,双向有序属性相同的分类,行变量和列变量均为有序分类资料,并且属性相同(行列变量一致),例如A和B两种方法对某种免疫物质的检出情况(--/-/+/++)。
(注:上文提到的“属性”,我们后期会专门推送一篇文章来讲解~)
针对双向无序分类和双向有序属性相同的分类资料的分析方法,前面几期有详细介绍,还没看过的小伙伴戳SPSS详细操作:多个独立样本列联表的卡方检验/SPSS详细操作:一致性检验和配对卡方检验。这次我们一块儿搞定单向有序分类和双向有序属性不同的分类资料的SPSS操作。
一、单向有序分类
血脂异常的患病率随着年龄增加而增加吗?
某研究小白在利用某项调查数据分析时,想研究一下年龄与血脂异常之间的关系,想起了之前学过的多个独立样本的卡方检验SPSS操作,于是照猫画虎,分析了一下手里的数据。
Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾选Row); Continue→ OK
看到分析结果,尤其是P=0.003,小白立刻眼睛冒光,马上超级自信地下了结论:经独立样本卡方检验,血脂异常的患病率随着年龄增加而增加(P=0.003),但是刚说完心里又犯嘀咕,想起之前学的独立样本卡方检验,好像这里只能说明不同年龄组之间血脂异常患病率有统计学差异。嗯,没错!这里如果只看Pearson Chi-Square的结果,会忽略年龄分组为有序变量这个信息点,损失了信息,所以这里更好的是看Linear-by-Linear Association的结果。
提到趋势性卡方检验,想必大家并不陌生,主要用来明确分类变量之间的线性趋势,比如这里的“血脂异常的患病率随着年龄增加而增加”。趋势性卡方检验最常用的方法是Cochran-Armitage trend test,很遗憾SPSS并没有提供这种方法,而是另一种方法Linear-by-Linear Association,两个结果相近,所以大家也可以放心使用。
听到这里,研究小白马上修改了结论:经趋势性卡方检验,血脂异常的患病率随着年龄增加而增加(P<0.001)。
拓展一下,相信不少小伙伴会想起Spearman秩相关,感觉这里好像也可以用Spearman秩相关来分析年龄组和血脂异常的关系。事实上,也是可以滴!但是趋势性卡方检验和Spearman秩相关有些不同。
Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾选)→OK
首先,严格地讲,做趋势性卡方检验时,需要对分组变量和结局变量进行评分赋值,连续变量取组中值为等级评分;如果是等级资料,给以顺序性的评分,如1、2、3……;分类资料,阳性或患病等为1,阴性或不患病等为0。这里就涉及到一个问题,对于Spearman秩相关是基于变量秩次进行相关分析的,比如说上面的例子,如果去掉55-岁组,趋势性卡方检验中变量评分为1、2、4,而Spearman秩相关是1、2、3,这就反映两种分析方法的利用信息能力不一样。
其次,两种方法的检验效能不同,趋势性卡方检验属于参数检验,当我们假定存在线性趋势时,检验效能更高;而Spearman秩相关计算变量秩次,损失了信息,相同条件下,检验效能较低,比如这里Spearman秩相关P=0.001,趋势性卡方检验P<0.001。
最后,两者得到的结论也有所不同,趋势性卡方检验可以直接得出“血脂异常的患病率随着年龄增加而增加”,而Spearman秩相关因为使用变量秩次分析,所以严格地讲,它反映的是两个分类变量秩次有相关,因为没有考虑变量的具体取值,更多是一种相对稳定的相关关系。
二、双向有序属性不同的分类
干活儿越重骨质退行越重?
有一项旨在探讨骨质退行性变是否与劳动强度有关,观察150名研究对象。劳动强度分为轻、中、重度,骨质退行性变为2、3、4度,两个变量都属于等级变量,但是属性不同。
对于双向有序属性不同的资料,有的小伙伴就说啦,可以用Spearman秩相关嘛,有些小伙伴就要很疑惑,为什么不可以用卡方检验呢?
这里和大家一块儿掰扯掰扯。对于等级资料相关分析,Spearman秩相关也是可以计算滴,但问题关键是,在做秩相关时,需要对原始数据进行编秩次,因为是等级资料,所以会产生大量秩次相等的平均秩次,进而低估了变量之间的关联系数。
如果是独立样本的卡方检验呢?那就错的比较离谱一些!卡方检验的核心是列联表中每一个格子中的理论频数和实际观测频数偏离程度,行和列的位置是不重要的(比如你可以把行列互换,或者把第一行和第二行互换),结果都是一样的。问题就来了,这样就损失了变量“有序”——这个非常关键的信息点,比如这里例子,我们想知道是不是劳动强度越重,骨质退行越重。
有小伙伴要着急了,这也不行,那也不行,到底要咋整?给大家带来重量级武器——Goodman-Kruskal Gamma方法(简称Gamma法)。Gamma法主要用于有序分类资料的关联性分析,并且计算Gamma系数(类似于Spearman秩相关rs)。
Gamma系数取值在-1到1之间,G=0表示两个变量不相关,G>0表示两个变量正相关,G<0表示两个变量负相关;G的绝对值越接近1,表示两个变量的关联强度越大,越接近0,关联程度越小。
下面一起看看SPSS怎么进行Gamma。
Analyze →Descriptive Statistics →Crosstabs: Row(劳动强度); Column(骨退变)→Statistics: Gamma; Continue →OK
上面的结果显示:G=0.244,P=0.025<0.05,劳动强度与骨退变之间互相关联,即随着劳动强度增加,骨质退行越重,关联系数为0.244。
再看看Spearman秩相关的结果。
Analyze →Correlate →Bivariate →Variables: 劳动强度,骨退变; Correlation Coefficients: Spearman(勾选)→OK
可以看到Spearman秩相关系数rs=0.183,小于G(0.244),低估了变量之间的关联强度。
以上就是单向有序分类和双向有序属性不同的分类资料的SPSS操作,欢迎大家交流哈。
统计学精彩教程回顾
关注医咖会,轻松学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决,也许正好有你疑惑的问题呢~