SPSS操作：搞定病例与对照的1:1匹配

原创 2017-05-25 李延龙 医咖会

说起病例对照研究(case control study)，相信各位小伙伴并不陌生。简单来说，就是把患有某种疾病的一组病人作为病例组(case)，不患该疾病但是可比的另一组个体作为对照组(control)，通过比较两组中我们关心的暴露因素的比例，从而推断暴露因素和疾病之间的关联。

讲到这里，就不得不提到确保病例组和对照组可比性的绝招——匹配！一般来说匹配包括频数匹配和个体匹配，前者只要保证匹配的因素在两组分布比例相同，比如说病例组男、女各半，对照组也应该一样；后者要求病例组每一个研究对象，在对照组中也有一个匹配因素相近或一致的研究对象与之匹配，比如说病例组有一个23岁男性，对照组中应给他匹配一个23岁左右的男性。

本期和大家一起学习如何使用SPSS搞定病例与对照的1:1匹配。

需要注意的是，SPSS22及以上版本才提供病例对照匹配(Case Control Matching)的功能，其他的版本要想使用这个功能，必须安装相应插件才能实现。本次使用SPSS22为大家演示。

一、问题与数据

目前对于吸烟与高血压之间关系仍存在争议，拟采用巢氏病例对照设计（高血压组与正常组）探讨吸烟与高血压之间的关系，其中对照组按照年龄±2岁，性别相同与病例组进行匹配。已有的队列数据在匹配前是这个样子（见表1），可以看到两组在匹配之前的性别分布和年龄均有明显差异。下面一起看看SPSS如何搞定匹配！

表1. 两组基线情况比较（匹配前）

二、 SPSS分析方法

1. 数据录入

(1) 变量视图

(2) 数据视图

2. 病例对照匹配

选择Data→Case Control Matching，就进入病例对照匹配的主对话框。

将需要匹配的变量(Age, Sex)放入Variables to Match on中；

Match Tolerance用来设置匹配条件，一般分类变量要求相同，设置为“0”，对于连续变量，可根据具体情况限定一个范围，比如这里我们限定年龄±2岁，设置为“2”，但是需要注意，设置匹配条件必须与匹配变量放置顺序相一致，并且用“空格”隔开；

Group Indicator指定分组，一般病例组赋值为“1”，对照组赋值为“0”；

Case ID确定观测对象的ID，一般为病例号，调查编码等；

Names for Match ID Variables设定一个变量，用来明确对照组中匹配成功的ID；

Names for Matchgroup Variables 设定一个变量，用来明确病例组中相同条件的观测对象，比如有两个23岁男性。

3. Options设置

Variable for Number of Eligible Cases设定一个变量，用来明确病例组中某一个观测对象，在对照组中有多少个观测对象满足与其匹配的条件，比如说病例组有一个23岁男性，对照组可能有一个24岁男性，一个22岁男性。

Sampling默认为不放回抽样。

Give priority to exact matches 优先考虑精确匹配，也就说病例组有一个23岁男性，对照组也应该找到一个23岁男性跟他匹配。

Maximize execution performance 执行最优化操作。

Randomize case order when drawing matches 这里需要大家着重注意一下，整个匹配过程中，如果对照组有多个满足匹配条件的观测对象，那么SPSS会默认随机将其与病例组观测对象匹配。问题来了，因为SPSS默认每次操作给对照组的随机数字不同，所以如果不特殊设定，每次实际匹配成功的对子是不一样的，也就说这一次对照组A匹配给病例组B，下一次就可能匹配给病例组C。所以需要勾选这里，并且在Random Number Seed设定一个随机数种子，确保匹配过程可以重复。

4. Additional Output设置

这里把匹配成功的对照组中所有观测对象单独输出一个数据集Control。这里强烈建议大家勾选并设定，有什么用呢，下面接着聊~

三、匹配结果

1. 匹配过程

如表2所示，精确匹配28对，模糊匹配178对，共计匹配成功206对。

表2. 匹配统计

表3主要是匹配过程。首先是精确匹配（年龄性别均一致），匹配23170次，不到1%匹配成功；其次在精确匹配成功的前提下，进行Age的模糊匹配（年龄±2岁），匹配23142次，大约6.5%匹配成功；最后在上述两次匹配成功的前提下，进行Sex的模糊匹配（这里指性别相同），匹配1501次，大约12%匹配成功。

表3. 匹配容许误差

2. 匹配后数据库

原始数据库中出现之前设定的几个新变量：

E_case表示对照组中有几个符合匹配条件的观测对象（如图，病例组ID=25，有4个对照组观测对象符合匹配条件）；Match_G与E_case不同，Match_G数字相同，代表病例组匹配条件一致，比如有若干23岁男性观测对象待匹配；match_id表示对照组匹配成功的ID。

下图输出仅包含匹配成功的对照组数据库，Match_G与原始数据库一致，match_id表示匹配成功、相对应的病例组ID。

3. 数据库合并

到这里，有的小伙伴要问了，两个库以后怎么做数据分析呀？重点来了，数据库的合并！

(1) 生成病例组数据集：在原始数据库中，选择Data→Select Cases→If condition is satisfied：设定match_id≥1，筛选出匹配成功的病例组→Output中输出新的数据集Case。

(2) 对照组数据集match_id替换：将Control数据集中变量match_id替换成ID编号→Save

(3) 病例组与对照组数据集合并：在新生成Case数据库SPSS界面下，选择Data→Merge Files→Add Cases→选择Control组→Continue→OK

(4) 排序&保存：选择Data→Sort cases→按照匹配标识match_id排序→OK→Save（千万记得保存劳动成果！！！）

大功告成，不过还要看看匹配效果。见表4，高血压组全部匹配成功，且性别和年龄在两组间均衡可比。

表4. 两组基线情况比较（匹配后）

问题又来了，匹配是成功了，怎么做数据分析呢？推荐大家去看：SPSS实例教程 | 1:m匹配病例对照Logistic回归

四、总结和拓展

有的小伙伴可能要问了，你这是1:1的病例对照匹配，那1:M呢？这可就有点难为SPSS大兄弟了！目前SPSS中Case Control Matching只提供1:1的病例对照匹配，不过不用着急，后面我们会结合SAS给大家演示1:M的病例对照匹配，敬请期待~~~

（如果你想使用文中数据进行练习，请随时给小咖（微信：xys2016ykf）发消息，小咖将原始数据发给你。）

精彩回顾

1. SPSS操作：轻松实现1:1倾向性评分匹配(PSM)

2. SPSS实例教程 | 1:m匹配病例对照Logistic回归
3.【合集】23种统计方法的SPSS详细操作

医咖会微信：medieco-ykh

关注医咖会，轻松掌握统计学！

有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），加入医咖会统计讨论群，和小伙伴们一起交流学习吧。我们诚邀各位小伙伴加入我们，一起创作有价值的内容，将知识共享给更多人！

点击左下角“阅读原文”，看看医咖会既往推送了哪些研究设计或统计学文章。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…