混杂偏倚的三种常见校正方法

查看原文

其他

混杂偏倚的三种常见校正方法

Hiu 医学统计分析精粹 2020-02-22

这次[随机化专题]，前两期分别谈了随机化的流行病学意义和区组随机化的实现方法。但并不是所有的场景都可以使用随机化，所有的问题都可用随机化来解决。当随机化过程“缺失”或“失败”时，我们就需要采取特定的方法来控制混杂。

本文简单介绍一下处理混杂的三种常用方法。

分别是分层分析、回归建模和倾向值分析。

1，Subclassification on One Confounder，通常叫做：亚组分析，分层分析。

亚组分析、分层分析，顾名思义，就是根据混杂变量，对整个研究样本进行亚组划分或者分层，在每个亚组内或者层内分别进行分析，并进一步合并不同层间的结果，以规避掉混杂变量的影响。

举个例子，Cochran曾对加拿大人群的吸烟情况做过一项研究。发现，总的死亡率呢，吸雪茄的，要显著大于吸香烟的。但是，吸雪茄的人群明显高龄化，平均年龄66，而吸香烟人群平均年龄55，差异显著！

既然在基线上，年龄不可比，那我们总死亡率的差异，会不会是受到年龄的混杂影响呢？

于是，Cochran做了如下的亚组（分层）分析：

如图，左图很明显，雪茄吸食者，死亡率高；中图也很明显，各亚组内，雪茄吸食者，死亡率低（哇~各位读者可不要吸雪茄哈，都戒，都戒……）；右图做了加权分析，加权平均之后，依然继承了中图的结论，雪茄吸食者，死亡率低。

很明显，在这里，年龄的混杂通过亚组（分层）分析得以校正。

By the way，加权平均的公式，供参考：

亚组（分层）分析优缺点：

方便进行可视化；适用范围广。有多个混杂时，亚组太多而难以实现。

2，Regression Modeling，回归建模。

通过回归建模的方式校正混杂，已经成了我们日常工作研究中最常用的方法，没有之一。

在本号之前关于logistic回归的系列（关注本号“biostat”，回复“logistic”）中，曾对多重回归对混杂的控制进行过简单介绍。

首先，对混杂变量的识别及建模控制，需要结合统计模型与专业知识。

下图中，小数的高度与孩子的高度明显相关，但并不是孩子身高的决定因素，实际上，在这里，时间成为了两者的混杂因素。本来无关联的变量，因为都受到时间的影响，反而有了关联。正确的建模，应排除掉无关的影响，即小树的高度，才能得到一个正确的建模估计。

另一方面，是多重回归中混杂的校正机制。

盲人摸象的例子，有人摸到了绳子一样的尾巴，有人摸到了像胡萝卜一样的牙齿。最后我们模型会输出那一个种组合呢？

基于“统计最优的模型是最符合事实的模型”这一假设，我们排除掉了“绳子一样的尾巴”这一变量，而留下了“像胡萝卜一样的牙齿”。

类似的，我们默认混杂变量与真实影响变量之间有一定的主次、强弱关系，而这一关系，将被我们的统计模型所捕获，该用来校正的，用来校正；该剔除的，就剔除掉。

回归建模的优缺点：

多个变量可以同时进入模型。至少需要十倍于变量数的样本量，如果达不到，可以考虑用“倾向值分析”，↓。

3，Propensity Scores，倾向值分析。

倾向值分析的方法，从1983年才被提出，如今应用之广泛，大概也说明了这一方法受欢迎的程度。

倾向值分析，实际上是一个“充分降维”的过程。它的公式很漂亮，但考虑到读者医学背景较多，可能兴趣并不大，在这里就不列出来了。

公式的核心就是，将众多的混杂变量“充分降维”，综合成一个变量，即倾向值得分。

倾向值分析，常用的主要用两种，一种是将倾向值得分作为一个协变量（covariate）纳入回归模型；另一种是通过倾向值得分进行匹配（如果读者有看文献的话，经常会出现：Propensity scores matching，PSM），是一个匹配的过程，有几分模拟病例对照研究的意思（case-control study）。

但总得来说，倾向值分析需要做两步回归：

第一步，计算倾向值得分：无论是使用logistic回归，还是probit回归，计算一个概率得分，作为倾向值得分。回归的自变量，即我们所说的混杂变量。

第二部，直接将倾向值得分纳入回归；或者（这分别是两种方法）通过倾向值实施前面提到的分层分析（一般层数会在5-10层左右）。

本号之前发布过一篇使用stata进行倾向值分析的文章，感兴趣者可以查阅。但这篇文章较粗浅、用语也稍晦涩，所以如果读者们不急于马上使用，本号后期会进一步对其进行介绍，欢迎关注。

倾向值分析优缺点：

当有多个变量时，比回归建模更可靠更有效。无关变量，或者特别大/小的OR值可能会降低研究的可靠性和有效性。

三种常见的校正方法，就介绍到这里，感兴趣的朋友，记得分享给小伙伴们哦~

关注具有流行病思维的统计学，关注小号！

打赏，是一种生活态度！

本号新增投稿项目，欢迎投稿！

凡与医学科研、统计相关的文章，都可以给小编发来！要素完整的统计疑惑也可同样欢迎，择优作为案例解答发布！投稿邮箱：biostator@qq.com

另：小编团队有意与在穗团队开展相关合作，欢迎洽谈。

^_^

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔