查看原文
其他

混杂偏倚的三种常见校正方法


这次[随机化专题],前两期分别谈了随机化的流行病学意义区组随机化的实现方法。但并不是所有的场景都可以使用随机化,所有的问题都可用随机化来解决。当随机化过程“缺失”或“失败”时,我们就需要采取特定的方法来控制混杂。


本文简单介绍一下处理混杂的三种常用方法。


分别是分层分析回归建模倾向值分析


1,Subclassification on One Confounder,通常叫做:亚组分析,分层分析

亚组分析、分层分析,顾名思义,就是根据混杂变量,对整个研究样本进行亚组划分或者分层,在每个亚组内或者层内分别进行分析,并进一步合并不同层间的结果,以规避掉混杂变量的影响。


举个例子,Cochran曾对加拿大人群的吸烟情况做过一项研究。发现,总的死亡率呢,吸雪茄的,要显著大于吸香烟的。但是,吸雪茄的人群明显高龄化,平均年龄66,而吸香烟人群平均年龄55,差异显著!


既然在基线上,年龄不可比,那我们总死亡率的差异,会不会是受到年龄的混杂影响呢?


于是,Cochran做了如下的亚组(分层)分析:


如图,左图很明显,雪茄吸食者,死亡率高;中图也很明显,各亚组内,雪茄吸食者,死亡率低(哇~各位读者可不要吸雪茄哈,都戒,都戒……);右图做了加权分析,加权平均之后,依然继承了中图的结论,雪茄吸食者,死亡率低。


很明显,在这里,年龄的混杂通过亚组(分层)分析得以校正。


By the way,加权平均的公式,供参考:


亚组(分层)分析优缺点:

方便进行可视化适用范围广。有多个混杂时,亚组太多而难以实现。


2,Regression Modeling,回归建模

通过回归建模的方式校正混杂,已经成了我们日常工作研究中最常用的方法,没有之一。


在本号之前关于logistic回归的系列(关注本号“biostat”,回复“logistic”)中,曾对多重回归对混杂的控制进行过简单介绍。


首先,对混杂变量的识别及建模控制,需要结合统计模型专业知识


下图中,小数的高度与孩子的高度明显相关,但并不是孩子身高的决定因素,实际上,在这里,时间成为了两者的混杂因素。本来无关联的变量,因为都受到时间的影响,反而有了关联。正确的建模,应排除掉无关的影响,即小树的高度,才能得到一个正确的建模估计。


另一方面,是多重回归中混杂的校正机制


盲人摸象的例子,有人摸到了绳子一样的尾巴,有人摸到了像胡萝卜一样的牙齿。最后我们模型会输出那一个种组合呢?


基于“统计最优的模型是最符合事实的模型”这一假设,我们排除掉了“绳子一样的尾巴”这一变量,而留下了“像胡萝卜一样的牙齿”。


类似的,我们默认混杂变量与真实影响变量之间有一定的主次、强弱关系,而这一关系,将被我们的统计模型所捕获,该用来校正的,用来校正;该剔除的,就剔除掉。


回归建模的优缺点:


多个变量可以同时进入模型。至少需要十倍于变量数的样本量,如果达不到,可以考虑用“倾向值分析”,↓。


3,Propensity Scores,倾向值分析


倾向值分析的方法,从1983年才被提出,如今应用之广泛,大概也说明了这一方法受欢迎的程度。


倾向值分析,实际上是一个“充分降维”的过程。它的公式很漂亮,但考虑到读者医学背景较多,可能兴趣并不大,在这里就不列出来了。


公式的核心就是,将众多的混杂变量“充分降维”,综合成一个变量,即倾向值得分


倾向值分析,常用的主要用两种,一种是将倾向值得分作为一个协变量(covariate)纳入回归模型;另一种是通过倾向值得分进行匹配(如果读者有看文献的话,经常会出现:Propensity scores matching,PSM),是一个匹配的过程,有几分模拟病例对照研究的意思(case-control study)。


但总得来说,倾向值分析需要做两步回归:


第一步,计算倾向值得分:无论是使用logistic回归,还是probit回归,计算一个概率得分,作为倾向值得分。回归的自变量,即我们所说的混杂变量。


第二部,直接将倾向值得分纳入回归;或者(这分别是两种方法)通过倾向值实施前面提到的分层分析(一般层数会在5-10层左右)。


本号之前发布过一篇使用stata进行倾向值分析的文章,感兴趣者可以查阅。但这篇文章较粗浅、用语也稍晦涩,所以如果读者们不急于马上使用,本号后期会进一步对其进行介绍,欢迎关注。


倾向值分析优缺点:


当有多个变量时,比回归建模更可靠更有效无关变量,或者特别大/小的OR值可能会降低研究的可靠性和有效性


三种常见的校正方法,就介绍到这里,感兴趣的朋友,记得分享给小伙伴们哦~


关注具有流行病思维统计学,关注小号!


打赏,是一种生活态度!



本号新增投稿项目,欢迎投稿!


凡与医学科研、统计相关的文章,都可以给小编发来!要素完整的统计疑惑也可同样欢迎,择优作为案例解答发布!投稿邮箱:biostator@qq.com


另:小编团队有意与在穗团队开展相关合作,欢迎洽谈。

^_^

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存