[国庆特辑]随机化意义的流行病学阐释

Hiu 医学统计分析精粹 2020-02-22

在阐述随机化的意义之前，先引用几个关于混杂的不同表述，帮助读者更深刻的理解混杂的概念：

混杂的定义：

1，一个变量，同时与研究的影响因素和研究的结局相关，又不是影响因素和结局因果通路上的一个节点。（流行病学课本上的传统释义）

2，混杂是 Y变量的原因变量——与X变量有关，但却不受X变量的影响——引起的偏倚。（Traditionally, confounding is thought of as a source of bias arising from causes of Y that are associated with but not affected by X.）

3，混杂，即某变量可以解释（甚至生成）两个变量之间的全部或者部分的相关关系或者效应关系。（Confounders are factors (exposures, interventions, treatments, etc.) that explain or produce all or part of the difference between the measure of association and the measure of effect that would be obtained with a counterfactual ideal.）

还是祭出我们小号中出镜率很高的一张图，帮助大家理解：

我们发现，1、2班的升学率要显著高于3、4班的升学率。真的就是1、2班的学生比3、4班的学生聪明、刻苦吗？

观察了老师之后，我们发现1、2班刚好是张老师指导，而3、4班刚好是王老师指导，那会不会是老师的原因，影响了我们对学生的判断？（Warning！混杂出现！）

很明显，在这里，很可能是指导老师的不同，影响了班级号与升学率的关系。

对于混杂，我们可以通过因果图给出一个更形象的解释。

U同时影响X与Y，（这里的影响，包括直接与间接），则U被称为X与Y关系研究中的混杂变量。

还是班级升学率的例子，我们加入一个随机化过程，这个过程稍难理解一点：

我们对标明1、2、3、4班级名字的同学，重新来一个随机分组，然后仍然是张老师指导1、2班，王老师指导3、4班。但计算升学率的时候，我们使用原班人马来进行计算，即，还是1、2班与3、4班进行比较。如此，自然就可以通过随机化，均衡掉指导老师不同的影响，对吧？把班级成员换成我们临床的患者，也是一样的情况，随机化，可以均衡掉各种已知、未知的混杂因素。

随机化控制混杂的机制：

我们现在对X施加一个随机化过程，则，X是大是小，是高是低，是实验组还是对照组，完全由随机化决定。既然X是totally由随机化决定的，那肯定不再受到U（混杂变量）的影响。此时，我们可以说，随机化过程，切断了混杂变量U对X的影响（X←U），也即切断了整个混杂路（X←U→Y），那么，任何已知或者未知的混杂效应统统可以被消灭掉！

以上，即随机化过程确保“随机的干预/治疗”与“可能的混杂变量”不相关。（The randomization ensures that no covariate of the efficacy variable is associated with the randomized treatment.）

几日前，从加国归来的一位师兄交流访学经验，提到循证医学某位先驱之言，“RCT（随机对照试验）是目前最优的研究设计”。原因就是如此，看似一个简简单单的随机化过程，却完全的、成功的切断了混杂路（控制了几乎所有可能的混杂偏倚）！

随机化虽然功能强大，但并不是所有的场景下，都可以使用随机化，例如，众多的观察性研究；即便进行了随机分组，也不一定可以保证所有变量成功实现了随机化。

当随机化过程“缺失”或“失败”时，我们就需要采取特定的方法来控制混杂。

本系列[国庆特辑]，后面将继续介绍一种特殊但极为常用的随机化实现方法及随机化失效时的混杂控制。Keep tuned!

关注融合流行病思维的统计学，关注小号！

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔