SPSS实例教程 | 1:m匹配病例对照Logistic回归
1、问题与数据
某医生想利用自己科室的患者数据,采用匹配的病例对照方法探究吸烟和肺癌的关系。该研究为每一位肺癌患者根据年龄段(±2岁)、性别和是否有家族史匹配2名对照,对病例和对照均收集是否吸烟的信息,并探索收入水平是否是可能的混杂因素。部分患者信息如表1:
表1. 病例对照信息
其中,ID表示对子数,每组对子3人,含1名肺癌患者和2名对照。Status变量表示是否患有肺癌,其中1表示患有肺癌(即病例),0表示未患肺癌(即对照)。Smoke变量代表是否吸烟,1表示吸烟,0表示不吸烟。Income变量代表收入水平,1表示高收入水平,0表示低收入水平。
2、对数据结构的分析
该研究中,病例与对照根据年龄、性别和是否有家族史进行了匹配。此种设计需应用配对Logistic回归(条件Logistic回归)进行分析。SPSS中无专门进行配对Logistic回归的菜单,但是可以利用分层Cox回归进行分析。SPSS的Cox回归可分析病例与对照为1:m(m≥1)配比的设计。若配比为n:m(n>1,m≥1),需使用Stata软件的Cox回归过程,其数据格式与SPSS一致。在Cox回归中,将是否患病作为是否发生结局的变量,然后新建患者生存时间变量,此变量的赋值应满足对照组大于病例组,具体数值可不固定。
3、SPSS分析方法
A. 数据录入SPSS
首先在SPSS的变量视图(Variable View)中设置表1中4个变量。
然后新建生存时间变量。点击Transform→Compute Variable,在Target Variable中输入Time,在Numeric Expression框中输入2-,然后选中左侧的Status变量,点击右侧箭头,输入到公式中。变量Time的最终设置为:2-Status(此种设置可以保证对照组的生存时间比病例长,这里当然可以选用其他数值减去Status)。点击OK。
在变量视图中将Time变量的Measure属性设置为Scale。最终数据集格式如下:
B. 选择Analyze → Survival → Cox Regression
C.选项设置
将新建的虚拟时间变量选入Time位置,将Status选入Status位置,并点击Define Event,在Single Value处填入1,告诉软件赋值为1代表发生肺癌。将Smoke和Income变量选入Covariates位置,因为两变量均是分类变量,需点击右上角的Categorical,将两变量放入,告诉软件这两个变量为分类变量。若自变量为连续变量可直接选入Covariates位置。Covariates下方的Method用于定义自变量进入模型的方式,若要求全部进入则选Enter,若是想对多个变量进行变量筛选,可以选择其他进入方式。
本例中想探究Smoke和Income变量作用,因此应设置为Enter。Next选项用于将不同的自变量分组,以分别设置自变量的进入模型的方式,本例中两变量进入方式相同,不需设置。将对子编号ID选入Strata位置,然后点击Options勾选CI for exp(B)。点击OK。
4、结果解读
SPSS给出的结果中首先是数据的描述,此处略去。先看Smoke和Income变量的赋值描述(Categorical Variable Codings):
对于分类自变量,其系数是其他类别和某一参照类别的对比,因此需要知道哪个类别是参照类别,这样才能对结果进行解释。在上图中,表格的最后一列给出了此次分析中的类别赋值,其中吸烟组被赋值为0,不吸烟组赋值为1(注意,此处的赋值有可能与数据集中的变量赋值不一致,判断参照组时应以此处赋值为准),此处赋值为0的吸烟组为参照组。同样,Income高水平组为对照组。
接下来是对模型的整体性检验,验证的是是否至少一个自变量有意义。
可见P(Sig.)<0.001,模型有统计学意义,说明模型纳入的自变量中至少有一个是有统计学意义的。
然后是对每一个自变量的检验。
可见Smoke变量P(Sig.)<0.001,有统计学意义。系数Exp(B)为0.229(即OR值),说明不吸烟组与吸烟组(赋值为0的组)相比,不吸烟组发生肺癌的风险是吸烟组的0.229倍(将0.229取倒数,即为吸烟组发生肺癌的风险是不吸烟组的4.367倍)。研究中要探究是否为混杂的Income变量P(Sig.)=0.428,无统计学意义,说明本研究不能说明Income为混杂因素。从模型精简的角度可以去掉Income变量后再次分析。结果如下:
吸烟组发生肺癌的风险是不吸烟组的1/0.232=4.310倍,P(Sig.)<0.001。
5、结果汇总
吸烟组与不吸烟组相比,吸烟组发生肺癌的风险是不吸烟组的4.310倍,差异有统计学意义(P<0.001)。
6、总结与拓展
(1) 1:m的病例对照研究在SPSS软件中需借助Cox回归分析,分析前需新建立虚拟的生存时间变量,且要求对照组生存时间比病例组长。
(2) n:m的病例对照设计应使用Stata软件的Cox回归进行分析,数据格式与本例同。
(3) 对于二分类的自变量,如果变量的赋值为1和0,可以不设置为分类变量而直接选入Covariates位置,此时自变量按连续变量进行分析,但结果与分类变量相同,而且参照组即为自变量赋值为0的组,不再需要在结果中查看分析时的对照组是哪一组。但对于分类数n>2的自变量,只能设置为分类变量,此时软件会给出n-1个系数,分别为n-1个分类与选定的参照分类的对比。
(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)
精彩回顾
医咖会微信:medieco-ykh
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。诚邀各位伙伴加入我们创作内容,请和小咖联系,和大家分享你喜爱的临床研究以及有用的研究方法学知识。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单,点击“直接搜索”,查找你想了解的内容。