说到控制混杂因素,怎么能不提多因素分析!
写在前面的话:时不时有小伙伴会咨询多重线性回归、logistic回归和Cox回归的区别,本文虽不是专门讲三者区别的文章,但是文中有个表也许会对你有所帮助哦。
上一期的内容里,我们介绍了在观察性研究中,当预后因素在暴露组和对照组间分布不均衡时,最简单的处理办法就是对研究资料按照混杂因素来进行分层分析,从而达到控制混杂因素的目的。
然而,分层分析仅仅适用于混杂因素较少,且多为分类变量的情况。当我们的研究中存在较多的混杂因素,且混杂因素较为复杂(例如混杂因素为多分类变量或连续变量)时,应该如何对混杂因素进行控制和调整呢?
今天我们就来一起讨论下,大家平时最常用到的多因素调整分析法。
多因素调整分析
多因素分析是相对于单因素分析而言,单因素分析仅关注一个因素在组间的差异或对结局事件的效应大小,而不考虑其他因素的影响。但实际上一种结局事件的发生和发展,常常受到多个因素的共同作用,因此仅采用单因素分析往往并不十分合理。多因素分析则是把多个变量之间的内在联系和相互影响考虑在内,同时分析多个因素对结局的影响。
在观察性研究中,我们通常可以构建一个多因素调整的回归方程,来探讨对结局有独立作用的影响因素。其中方程的因变量为结局事件,而自变量既包括研究者关注的暴露/处理因素(如药物、手术等),也包括其他可以影响结局的混杂因素(如年龄、性别、疾病严重程度等)。
三种回归模型
在多因素调整分析方法中,根据因变量的类型不同,我们最常应用到的三种回归模型即:多重线性回归、logistic回归及Cox回归。三种回归模型应用的条件和区别如表1所示。
需要强调的是,应用回归模型进行多因素调整时,任何回归模型都是一个黑匣子,一定要考虑到每个回归模型的使用条件及模型的稳定性,如因变量的类型、分布特点、自变量之间的独立性、共线性等问题,切忌不要盲目套用模型,以免得出错误的结果。
考虑三个问题
我们在既往的内容中已经详细介绍过了关于三种回归模型的软件操作步骤,很多研究者就认为把所有混杂因素全部都放进回归模型中进行拟合,不就都可以调整了么?事情当然没有这么简单,统计分析并不是简单的数字游戏。
(统计操作教程可从以下合集中找到:【合集】23种统计方法的SPSS详细操作)
JAMA期刊发表的一篇文章《Adjusted Analyses in Studies Addressing Therapy and Harm》,总结了在进行多因素调整分析时,研究者需要关注的3个问题:
1. Did the investigator identify all known prognostic factors for the outcome of interest?(研究人员是否已经识别出所有与结局事件相关的预后因素?)
第一个问题要求研究人员尽可能全面地收集研究对象的基线特征,特别是根据专业知识和前期文献报道认为与结局事件密切相关的因素。当然除了已知的影响因素外,可能还会存在其他未知的残余混杂因素,这些混杂因素也会对结果造成一定的偏倚,因此为了减少残余的混杂偏倚,我们需要尽可能识别更多的混杂因素,保证信息的全面性。
2. Did the investigator accurately measure all these prognostic factors?(这些预后因素是否被准确地测量?)
准确测量预后因素在多因素分析中尤为重要,因为不准确的测量值无法反映预后因素对结局的真实效应,这样就会在原有混杂偏倚的基础上引入新的测量偏倚,也叫信息偏倚。为了保证测量的准确性,应尽可能使用客观指标,减少主观判断,提高检测的灵敏度。
3. Did the investigator conduct an adjusted analysis that included all these prognostic factors?(在多因素调整分析中,是否校正了所有已知的预后因素?)
常常会有人问到,到底应该在多因素分析的回归模型中放入多少个混杂因素来进行调整呢?是不是放入的混杂因素越多,研究结果就更准确呢?事实上这个问题并没有一个明确的答案,控制混杂因素的个数主要取决于发生结局事件的多少。控制的混杂因素越多,所需要的结局事件的例数就越多。
孙振球主编《医学统计学》第4版中提到,对于多重线性回归模型,样本量应至少为10-15的自变量个数,而对于logistic回归和Cox回归,结局事件则应至少为15-20倍的自变量个数,供大家作为参考。
研究实例
我们以2007年JAMA期刊发表一篇文献为例,该研究从美国心血管合作项目(Cooperative Cardiovascular Project)中纳入了122124名(65-84岁)在1994-1995年因急性心肌梗死入院治疗的患者形成观察队列,并通过美国Medicare医疗保险系统对其进行长达7年的结局事件随访。
研究发现其中有60%的患者(73238)在住院30天内接受了心脏介入治疗,而40%的患者(48886)接受了保守治疗。通过比较两组患者的基线特点,结果显示心脏介入治疗组的患者与保守治疗组的患者相比,更为年轻、男性比例更多、发生休克、高血压的比例更少等,其他基线特征如表2所示。
由于两组人群中基线特征分布严重不均衡,研究者拟采用多因素调整的方法构建回归模型,以此评估心脏介入治疗对急性心肌梗死患者预后的影响作用。在该研究4年的随访时间里一共有50699名患者发生死亡,研究者一共筛选出65个与心梗后死亡相关的影响因素,放入到Cox回归模型中进行调整。
结果显示,在未调整混杂因素前,HR=0.37(95% CI:0.36-0.37),提示与保守治疗相比,心脏介入治疗可以有效降低心梗患者63%的死亡相对风险。而经过多因素调整后,HR=0.51(95% CI:0.50-0.52),提示心脏介入治疗可以有效降低心梗患者49%的死亡相对风险。
我们可以发现,经过多因素调整后心脏介入治疗对于心梗患者死亡风险的保护作用被削弱,说明多因素调整起到了一定的控制混杂因素的作用。但是作者也在文中提到,仍然有一些因素缺失或者未被记录到,如饮酒量、慢性炎症疾病等因素,这些因素也可能会造成一定的混杂偏倚,因此心脏介入治疗对心梗患者死亡风险的保护作用仍有可能被高估,其真实效应还有待进一步考究。
总结一下,多因素调整分析法,是在观察性研究中控制混杂因素应用最为广泛的一种方法,而且调整后回归模型的参数解释也非常直观易懂。但是由于研究者往往无法全面收集信息,或者无法进行准确测量,或者仍存在一些未知的混杂因素,而回归模型中需要调整的混杂因素的个数又往往受到结局事件的限制,这些都会对多因素回归模型的结果造成一定的偏倚,在应用时也需要多加注意。
在下一期内容中,我们将继续为大家介绍观察性研究中控制混杂因素的另一种深受大家欢迎的新秀方法--倾向性分析。
参考文献
[1] JAMA. 2017 Feb 21;317(7):748-759
[2] 孙振球《医学统计学》第4版
[3] JAMA. 2007 Jan 17; 297(3): 278–285
更多阅读
关注医咖会,涨姿势!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决,也许正好能帮到你~