SPSS：任你是非独立的连续变量还是分类变量，都可以用它来处理！

Original 2017-03-17 大仙儿 医咖会

一、问题与数据

在临床研究中，经常会比较两种治疗方式对患者结局的影响，并且多次测量结局。例如，为了研究两种降压药物对血压的控制效果是否存在差异，研究者会对两个人群服药后在不同时间点记录血压值，然后评价降压效果。或者对两组动物分别施加两种干预，连续记录多个时间点的结局，然后比较两种干预的效果。

这种设计可以用如下示意图表示：

另外，有时研究只需要收集一个时间点的数据，但是一个研究对象会提供多个部位的数据点。例如，研究者想评价冠心病患者在冠脉搭桥术后应用阿司匹林是否可以有效降低患者血管的再堵塞，评价的方法是术后1年做冠脉造影观察血管是否堵塞，但是每个患者可能会在同一次手术中对多条冠状动脉血管进行搭桥，因此有的患者可能会贡献多组数据。

这种设计可以用如下示意图表示：

以上两种设计，不管是临床试验还是动物试验都非常常见，它的特点在于数据间非独立，同一个体间数据具有相关性。对于这样的设计类型，该如何分析呢？

今天我们来介绍另外一种非常好的方法——广义估计方程（GEE）。GEE既可以处理连续型结局变量也可以处理分类型结局变量，它实际上代表了一种模型类别，即在传统模型的基础上对相关性数据进行了校正，可以拟合Logistic回归、泊松回归、Probit回归、一般线性回归等广义线性模型。

本文将以阿司匹林预防冠脉搭桥后血管再堵塞为例介绍运用SPSS进行GEE的操作方法。以下为数据格式：

表1. 数据格式

每名患者贡献数据量不等。如编号为1的患者只对一根血管进行了搭桥手术，编号为2的患者则有两根血管进行搭桥手术。

表2. 变量赋值

（注：本例中数据纯属虚构，分析结果不能产生任何结论。性别为待调整变量。）

二、SPSS分析方法

1. 数据录入SPSS

首先在SPSS变量视图（Variable View）中新建上述表2中变量，然后在数据视图（Data View）中录入数据。

2. 选择Analyze → Generalized Linear Models → Generalized Estimating Equations

3. 选项设置

① 在Repeated模块中，将患者ID选入Subject variables 框，搭桥血管Num选入Within-subject variables框。在Working Correlation Matrix的Structure下拉列表中选择同一患者贡献数据的相关性结构。其有5个选项，分别为：

Independent：各数据间独立，即同一患者贡献的数据可以视为来源于不同个体。
AR(1)：自相关，用于不同时间点的数据，相邻时间点相关性最大，时间间距越大相关性越小。
Exchangeable：等相关，各数据点的相关性均相等。
M-dependent：相邻相关，仅临近的M+1个数据相关。
Unstructured：不限定相关结构，由数据本身决定。

本例中，同一患者搭桥的血管互相之间应等同看待，两两间相关性应相等，因此选择等相关更合适。其他维持默认。

② 在Type of Model模块中设置模型类型

在此界面有6种模型类型可选：

Scale Response：结局变量为连续型变量
Ordinal Response：结局变量为有序分类变量
Counts：结局变量为计数
Binary Response or Events/Trials Data：结局变量为二分类变量
Mixture：结局变量为Tweedie分布变量
Custom：自定义

以上6大类类型下还需选择连接函数。本例中结局变量为二分类变量，Logistic回归应用更加普遍，因此我们选择Binary logistic来拟合校正数据相关性的Logistic回归模型。

③ 在Response模块指定结局变量

将Outcome变量选入Dependent Variable，在Reference Category中选择最小值作为参考值（本例中0为最小值，代表未发生结局）。

④ 在Predictors模块中将要纳入模型的Treatment和Sex变量选入Covariates中。Covariates应放入连续型变量，Factors中放入分类变量，但是本例中两自变量均为二分类变量，放入Covariates处也可。

⑤ 在Model模块中将Treatment和Sex选入Model框内，还可纳入交互项，本例中不纳入。

⑥ 在Statistics模块中除默认外，另外勾选Include exponential parameter estimates以获得OR值，然后点击OK。

三、结果解读

结果中首先给出的是一些模型基本信息，在此略过。这里仅介绍模型参数估计值结果：

从结果可以看到，Treatment变量的系数值（B）为-1.077，Exp(B)为0.341，即OR值，P=0.046，说明术后使用阿司匹林的患者1年后发生血管再堵塞的风险是使用安慰剂组的0.341倍且有统计学意义，即阿司匹林具有保护作用。另外我们纳入校正的性别变量Sex OR值为0.692，但P=0.531未达显著水平。

如果我们不考虑数据间的相关性，直接采用传统的Logistic回归模型，那么将得到以下结果（详情可看： SPSS实例教程：二分类Logistic回归）：

从结果中可以看到，尽管Treatment的OR值与GEE模型中相差不大，但其P值却不再显著。从本例中可以看到，如果在数据分析中方法选用错误将可能得不到正确结论。

四、结果汇总

冠脉搭桥术后患者应用阿司匹林可以有效降低发生血管堵塞的风险。服用阿司匹林组患者发生血管堵塞风险是服用安慰剂组患者的0.341倍（P=0.046）。

五、总结与拓展

对于文首提及的两个例子，常见的分析方法有重复测量方差分析和多水平模型，但是重复测量方差分析要求结局变量为连续变量，不适用于分类变量。多水平模型处理相关性数据时非常灵活，结局可以为连续变量，也可以为分类变量，应用非常广泛。

GEE的应用似乎没有前两种广泛，但其具有非常好的特性。GEE既可以处理连续型结局变量也可以处理分类型结局变量，其优势在于，即使设定的数据间相关结构与实际有偏差，在样本量较大时其模型估计参数仍然具有无偏性。GEE模型中自变量系数估计值准确性的论证相较于多水平模型更加充分，因此部分研究者更加推荐使用GEE。

虽然GEE模型中数据间相关结构指定错误时模型系数也具有无偏性，但前提是样本量要足够大。在同样的样本量下，正确的相关结构更可能得到准确的参数估计和置信区间，因此应仔细分析数据类型，选择最可能正确的相关结构。

关于GEE的内容较为复杂，在此无法详述，对GEE有兴趣的读者或需要使用GEE模型的读者，推荐阅读专业书籍和文献。

（如果你想使用文中数据进行练习，请随时给小咖（微信：xys2016ykf）发消息，小咖将原始数据发给你。）

统计学教程精彩回顾：

1.【合集】14种统计方法的SPSS操作教程，你值得拥有！

2. SPSS详细操作：单因素方差分析

3. SPSS操作：配对样本的差值不符合正态分布，咋统计分析？

医咖会微信：medieco-ykh

关注医咖会，一起学习统计学~

我们建了一个微信群，有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），拉你进群和其他小伙伴们一起交流学习。诚邀各位伙伴加入我们创作内容，请和小咖联系，和大家分享你喜爱的临床研究以及有用的研究方法学知识。

点击左下角“阅读原文”，看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单，点击“直接搜索”，查找你想了解的内容。

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！