控制混杂因素,再给你支个大招:工具变量分析
在前面几期的内容中,我们分别介绍了对于观察性研究中不可避免的偏倚现象,可以采用分层分析、多因素调整和倾向性分析等方法来对混杂因素加以控制,这些方法的优点在于使用起来相对简单,对结果的解释易于理解,但缺点在于它们仅能控制已测量到的混杂因素所引起的偏倚,而无法消除未知的、被遗漏的、以及测量不准确的混杂因素所造成的残余混杂。
为了进一步消除这部分残余混杂,2006年Brookhart等人首次从计量经济学中将工具变量分析(Instrumental Variable Analysis, IVA)的概念引入到观察性研究中,经过10年的发展,工具变量分析法在观察性研究中得到了越来越多的应用,今天我们就来向大家介绍一下这种在控制混杂因素家族中相对陌生的新方法。
工具变量分析
首先介绍一下什么是工具变量,工具变量是指与研究暴露/处理因素相关,和其他混杂因素无关,并且和结局变量无直接关系的一类变量,它仅仅是通过与暴露/处理因素的关系,以及暴露/处理因素与结局变量的关系,来间接影响结局变量。
工具变量分析是一种用来控制测量误差和未知混杂因素引起的偏倚的估计方法,其基本思想为通过选择有效的工具变量,采用二阶段回归分析来消除未知混杂因素与暴露/处理因素之间的关系,使得混杂因素在暴露/处理组与对照组之间的分布是均衡的,从而获取暴露/处理因素对结局变量无偏的效应估计值。
工具变量满足条件
根据工具变量的定义,一个理想的工具变量应该满足以下几个条件:
1. 工具变量应与暴露/处理因素具有一定的相关性,其相关性的强弱称为工具变量的强度,可以通过第一阶段回归中工具变量的F统计量来检验。如果F统计量>10,则可认为是强工具变量,如果F统计量太小,则为弱工具变量,此时往往会导致效应估计值的置信区间较宽,容易得到无统计学意义的结果,增加了假阴性错误的概率,估计值的可信程度就会降低,缺乏实际的临床应用价值。
2. 工具变量除了通过暴露/处理因素的作用途径外,与研究结局没有任何直接或间接的关系。
3. 工具变量与其他任何已知的或未知的混杂因素均无相关关系。
针对以上条件,在选择工具变量时我们可以参考以下3个问题来帮助判断工具变量的选择是否合理:
1. Is the proposed instrumental variable associated with the likelihood of being exposed to the intervention? (所选择的工具变量是否与暴露/处理因素相关?)
Did the investigator report on the empirical association? (此相关是否有依可据?)
Is the magnitude of the association sufficiently strong? (是否为强关联?)
2. Is it very unlikely that the instrumental variable influences the outcome? (所选择的工具变量是否对研究结局没有影响?)
3. Have investigators demonstrated prognostic balance across the levels of instrumental variable? (在所选择的工具变量的不同水平分组下,预后因素是否达到了均衡?)
工具变量类型
应用工具变量分析方法,最大的挑战在于要找到一个有效合适的、能够同时满足以上条件的工具变量。目前文献中所报道的工具变量种类繁多,各式各样,Journal of Clinical Epidemiology期刊于2011年发表了一篇系统综述,总结了5类在观察性研究中常用的工具变量类型,以供大家进行参考。
1. 基于不同地区医疗水平的差异
例如某个地区的医疗水平能够达到进行CT检查或心脏介入治疗的条件,那么该地区的患者则更倾向于接受相关治疗,同时地区因素与患者自身健康特征相关的因素并不相关,因此可以把地区作为一个工具变量。
2. 基于医疗机构的临床实践方式,例如以医疗机构使用某种治疗术式或药物使用的比例等作为工具变量。
3. 基于医生层面,例如以医生的处方偏好等作为工具变量。
4. 基于时间特性的工具变量,例如在评估流行性感冒疫苗疗效的研究中,以患者的痛风病史时间作为工具变量。
5. 基于以上变量综合起来的多个工具变量。
工具变量分析步骤
根据数据类型的不同,工具变量分析的算法常见的有以下几种:
1. 暴露/处理因素为连续型变量,结局也为连续型变量
暴露/处理因素及结局均为连续变量,例如研究运动时间对BMI的影响。对于此类因素,目前常用的最经典的工具变量分析方法为二阶段最小二乘法(2-stage least squares,2SLS)。
第一阶段回归:以暴露/处理因素为因变量,以工具变量和已知的混杂因素为自变量进行普通最小二乘法回归,求得对暴露/处理因素的估计值。第一阶段回归利用工具变量将暴露/处理因素分解为与混杂因素相关和不相关的两个部分。
第二阶段回归:以结局变量为因变量,利用第一阶段回归中得到的暴露/处理因素的估计值替换暴露/处理因素的原始值,并同时将已知的混杂因素作为自变量,再次进行普通最小二乘法回归,从而求得暴露/处理因素对于结局的效应估计值。
2. 暴露/处理因素为连续型变量,结局为分类变量
对于此种类型的研究数据,例如研究膳食纤维摄入量对肿瘤发病的影响,第一阶段回归与上述2SLS方法的第一步相同,第二阶段回归则利用logistic回归,来获得暴露/处理因素的效应估计值。
3. 暴露/处理因素为分类变量,结局也为分类变量
对于此种类型的研究数据,例如研究饮酒与食管癌发病的关联性,有研究人员采用了两阶段预测替代法(2-stage predictor substitution,2SPS)。
第一阶段利用工具变量和协变量,与暴露/处理因素做logistic回归,得到暴露/处理因素的概率预测值,第二阶段利用概率预测值与结局变量再次进行logistic回归,以求得暴露/处理因素的效应估计值。
若结局指标是生存数据时,在第二阶段可以采用风险比例模型,即Cox回归模型来进行估计。
研究实例
我们依然用上一篇讲解多因素调整法时所引用的研究作为实例进行讲解。研究人员以566个冠脉造影中心30天心脏介入治疗率作为工具变量来进行分析,将研究对象按照30天心脏介入治疗率的五分位分组,比较各组间混杂因素的分布情况,如表1所示。
结果显示,各个地区30天心脏介入治疗率的变异范围为29%-82%,以此作为工具变量进行五分位分组后,分析发现患者预测的1年死亡率在各组基本一致,且其他混杂因素的分布特征也相对均衡,说明30天心脏介入治疗率为一个强有效的工具变量,达到了控制混杂因素分布不均衡的目的。
通过引入工具变量,最终分析得到HR=0.84(95% CI:0.79-0.90),提示心脏介入治疗可以有效降低心梗患者16%的死亡相对风险。与多因素调整法HR=0.51(95% CI:0.50-0.52)和倾向性评分匹配HR=0.53(95% CI:0.51-0.54)相比,结果更加保守。
研究人员同时对比了一项综合多个相似RCT研究的Meta分析结果,HR=0.82(95% CI:0.72-0.93),相对于多因素调整法和倾向性评分法,工具变量分析的结果与Meta分析的结果更为接近,说明工具变量分析较好地消除了未知混杂因素的影响,起到了事后随机化的作用。
参考文献
[1] JAMA. 2017 Feb 21;317(7):748-759
[2] J Clin Epidemiol. 2011 Jun;64(6):687-700
[3] JAMA. 2007 Jan 17; 297(3): 278–285
[4] JAMA. 2005 Jun 15;293(23):2908-17
精彩回顾
关注医咖会,一起学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决。