SPSS实例教程 | 1:m匹配病例对照Logistic回归 | 自由微信

SPSS实例教程 | 1:m匹配病例对照Logistic回归

原创 2017-02-13 大仙儿 医咖会

1、问题与数据

某医生想利用自己科室的患者数据，采用匹配的病例对照方法探究吸烟和肺癌的关系。该研究为每一位肺癌患者根据年龄段（±2岁）、性别和是否有家族史匹配2名对照，对病例和对照均收集是否吸烟的信息，并探索收入水平是否是可能的混杂因素。部分患者信息如表1：

表1. 病例对照信息

其中，ID表示对子数，每组对子3人，含1名肺癌患者和2名对照。Status变量表示是否患有肺癌，其中1表示患有肺癌（即病例），0表示未患肺癌（即对照）。Smoke变量代表是否吸烟，1表示吸烟，0表示不吸烟。Income变量代表收入水平，1表示高收入水平，0表示低收入水平。

2、对数据结构的分析

该研究中，病例与对照根据年龄、性别和是否有家族史进行了匹配。此种设计需应用配对Logistic回归（条件Logistic回归）进行分析。SPSS中无专门进行配对Logistic回归的菜单，但是可以利用分层Cox回归进行分析。SPSS的Cox回归可分析病例与对照为1：m（m≥1）配比的设计。若配比为n：m（n>1,m≥1），需使用Stata软件的Cox回归过程，其数据格式与SPSS一致。在Cox回归中，将是否患病作为是否发生结局的变量，然后新建患者生存时间变量，此变量的赋值应满足对照组大于病例组，具体数值可不固定。

3、SPSS分析方法

A. 数据录入SPSS

首先在SPSS的变量视图（Variable View）中设置表1中4个变量。

然后新建生存时间变量。点击Transform→Compute Variable，在Target Variable中输入Time，在Numeric Expression框中输入2-，然后选中左侧的Status变量，点击右侧箭头，输入到公式中。变量Time的最终设置为：2-Status（此种设置可以保证对照组的生存时间比病例长，这里当然可以选用其他数值减去Status）。点击OK。

在变量视图中将Time变量的Measure属性设置为Scale。最终数据集格式如下：

B. 选择Analyze → Survival → Cox Regression

C.选项设置

将新建的虚拟时间变量选入Time位置，将Status选入Status位置，并点击Define Event，在Single Value处填入1，告诉软件赋值为1代表发生肺癌。将Smoke和Income变量选入Covariates位置，因为两变量均是分类变量，需点击右上角的Categorical，将两变量放入，告诉软件这两个变量为分类变量。若自变量为连续变量可直接选入Covariates位置。Covariates下方的Method用于定义自变量进入模型的方式，若要求全部进入则选Enter，若是想对多个变量进行变量筛选，可以选择其他进入方式。

本例中想探究Smoke和Income变量作用，因此应设置为Enter。Next选项用于将不同的自变量分组，以分别设置自变量的进入模型的方式，本例中两变量进入方式相同，不需设置。将对子编号ID选入Strata位置，然后点击Options勾选CI for exp(B)。点击OK。

4、结果解读

SPSS给出的结果中首先是数据的描述，此处略去。先看Smoke和Income变量的赋值描述（Categorical Variable Codings）：

对于分类自变量，其系数是其他类别和某一参照类别的对比，因此需要知道哪个类别是参照类别，这样才能对结果进行解释。在上图中，表格的最后一列给出了此次分析中的类别赋值，其中吸烟组被赋值为0，不吸烟组赋值为1（注意，此处的赋值有可能与数据集中的变量赋值不一致，判断参照组时应以此处赋值为准），此处赋值为0的吸烟组为参照组。同样，Income高水平组为对照组。

接下来是对模型的整体性检验，验证的是是否至少一个自变量有意义。

可见P（Sig.）<0.001,模型有统计学意义，说明模型纳入的自变量中至少有一个是有统计学意义的。

然后是对每一个自变量的检验。

可见Smoke变量P（Sig.）<0.001，有统计学意义。系数Exp（B）为0.229（即OR值），说明不吸烟组与吸烟组（赋值为0的组）相比，不吸烟组发生肺癌的风险是吸烟组的0.229倍（将0.229取倒数，即为吸烟组发生肺癌的风险是不吸烟组的4.367倍）。研究中要探究是否为混杂的Income变量P（Sig.）=0.428，无统计学意义，说明本研究不能说明Income为混杂因素。从模型精简的角度可以去掉Income变量后再次分析。结果如下：

吸烟组发生肺癌的风险是不吸烟组的1/0.232=4.310倍，P（Sig.）<0.001。

5、结果汇总

吸烟组与不吸烟组相比，吸烟组发生肺癌的风险是不吸烟组的4.310倍，差异有统计学意义（P<0.001）。

6、总结与拓展

(1) 1：m的病例对照研究在SPSS软件中需借助Cox回归分析，分析前需新建立虚拟的生存时间变量，且要求对照组生存时间比病例组长。

(2) n：m的病例对照设计应使用Stata软件的Cox回归进行分析，数据格式与本例同。

(3) 对于二分类的自变量，如果变量的赋值为1和0，可以不设置为分类变量而直接选入Covariates位置，此时自变量按连续变量进行分析，但结果与分类变量相同，而且参照组即为自变量赋值为0的组，不再需要在结果中查看分析时的对照组是哪一组。但对于分类数n>2的自变量，只能设置为分类变量，此时软件会给出n-1个系数，分别为n-1个分类与选定的参照分类的对比。

（如果你想使用文中数据进行练习，请随时给小咖（微信：xys2016ykf）发消息，小咖将原始数据发给你。）

精彩回顾

1. SPSS实例教程：有序多分类Logistic回归

2. SPSS实例教程：二分类Logistic回归

3. SPSS实例教程：无序多分类Logistic回归

医咖会微信：medieco-ykh

关注医咖会，轻松掌握统计学

我们建了一个微信群，有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），拉你进群和其他小伙伴们一起交流学习。诚邀各位伙伴加入我们创作内容，请和小咖联系，和大家分享你喜爱的临床研究以及有用的研究方法学知识。

点击左下角“阅读原文”，看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单，点击“直接搜索”，查找你想了解的内容。

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！