嫌疑人X的献身：如何理解回归模型中的"调整"和"独立作用"

在多因素回归分析中，不管是多重线性回归、logistic回归、还是Cox回归，通常的做法是，将我们在研究中关注的暴露/处理因素，以及可能的混杂因素一同放入到回归模型中进行拟合，如果模型显示暴露/处理因素对结局事件的效应值有统计学显著性，则可认为在“调整了”（Adjusted）其他混杂因素的影响后，该暴露/处理因素对于结局事件是一个“独立”（Independent）的影响因素。

很多时候我们根据这样的分析结果匆忙作出结论，却很少去认真思考一下其中几个关键的地方，混杂因素的影响在模型中是怎么被“调整”的，为什么可以认为此时暴露/处理因素的作用是“独立”的呢？

回到《嫌疑人X的献身》这部小说当中，构建回归模型探讨对结局事件有独立作用的影响因素，就好比侦探破案找出真凶的过程。我们作为研究人员，就像小说中的侦探汤川，暴露/处理因素就像是真凶靖子，而其他混杂因素的干扰就像是帮凶石神。我们作为侦探，目的就是为了通过收集线索和资料，找出可疑的几个犯罪嫌疑人A、B、C……，然后再把这些嫌疑人带入到模型中进行进一步审问，排除其他嫌疑人的可能性，最终找出真凶X。

举一个简单的例子：

某研究人员拟探讨因素X对结局Y的影响，构建回归模型的方程为Y=11.33+2.52X。

此时研究人员发现因素Z与因素X、以及结局Y都有一定的关联性，判断可能为一个混杂因素，因此将X和Z一同带入模型中，得到的回归方程为Y=9.27+1.39X+0.72Z。

研究人员发现将Z带入模型中后，X的回归系数明显减小，由2.52减少到1.39，想想这是为什么呢？很多人会说，现在方程多了一个因素Z，系数当然会不一样啦！但其实并不是多了一个自变量这么简单，X的回归系数发生明显变化，原因就在于因为X与Z之间存在关联性。

在模型未引入Z的情况下，Z对于结局Y的作用就会被加到X上，此时X的回归系数并非反映的是X对Y的真实效应；当把Z带入到模型中后，实际上是把Z的作用从X中分离了出来，体现在回归方程中就发现X的回归系数发生了明显变化，有可能变大也有可能变小，此时的回归系数则更接近于X对Y的真实效应。

因此，我们可以认为，混杂因素Z的作用在回归模型中被“调整”了，此时因素X对于结局Y的作用是“独立的”。

如果还是不明觉厉，我们再来举一个同样来自于岛国的研究实例加以说明。该研究旨在探讨在低密度脂蛋白胆固醇（LDL-C）达标的患者中，残余脂蛋白胆固醇（RLP-C）对心血管疾病（CVD）发生的影响。

该研究连续纳入了1256名稳定冠心病患者，服用降脂药物后LDL-C水平<100mg/dL，每月随访一次，共随访3年，或随访到CVD事件发生。研究的主要结果如表1所示。

表1. 单因素和多因素Cox回归结果

可以看出，作者首先进行了单因素Cox回归分析，即把每个可疑的混杂因素单独与结局事件进行一次Cox回归，然后再根据单因素回归分析的结果筛选出P<0.20的变量作为候选变量，带入到多因素Cox回归中进行分析。

结果显示在单因素分析中，Non-HDL-C等因素为危险因素，ApoA-I为保护因素，但是在多因素分析中，这些因素对结局事件的影响效应均消失了，无统计学显著性；CRP、eGFR等因素，单因素和多因素分析的HR值保持相对稳定，并没有发生太大的变化；而RLP-C等因素，多因素分析后其HR值显著上升，从1.60上升到1.74，且仍具有统计学显著性。

根据以上不同因素回归系数的变化可以看出，在单因素分析中，有些因素的效应作用被夸大，有些因素的效应作用被低估或隐藏。

如Non-HDL-C，在单因素分析中显示为危险因素，但有可能它实际上对于结局事件并没有影响或者影响很小，它的效应作用被夸大，这种夸大的危险作用可能由于其他混杂因素的作用强加在它身上的结果。

而效应被低估的因素，如RLP-C，在单因素分析中，它的作用可能被其他混杂因素的作用所掩盖，因此在多因素分析中通过调整，把其他因素的混杂作用剥离出来后，才显示出其真实的效应，此时的效应值可被认为是独立作用。

还有一些因素的效应值前后并未发生太大的变化，如CRP、eGFR等，说明它们与模型中已经调整的已知混杂因素之间的关联性并不强，因而不受混杂因素的影响。

总结一下，在单因素分析中，由于混杂因素的存在，暴露/处理因素对于结局事件的效应作用，体现的不仅仅是暴露/处理因素纯粹的作用，其中也常常包括了混杂因素的作用。而通过构建多因素回归模型，即所谓“调整”其他混杂因素的影响，实际上是把该混杂因素的作用从暴露/处理因素的作用中剥离出来，在消除混杂因素的作用后，剩下的即为暴露/处理因素的“独立”作用，也就是独立于其他混杂因素外的作用，这才是我们真正要找的“嫌疑人X”。

所以，当我们对多因素回归模型进行参数解释时，一定要注意“独立”的意义，例如在多重线性回归模型中，回归系数应解释为：在其他变量不变的条件下，该变量X每增加一个单位所引起的Y的平均改变量；在logistic回归模型中，回归系数应解释为：在其他变量不变的条件下，变量X每增加一个单位所引起的结局风险的改变量。

理解多因素回归模型中的“调整”和“独立作用”，找出“嫌疑人X”的效应值，这通常是建立在我们已经确定了几个可疑的嫌疑人的基础上进行的，有时候确定嫌疑人的范围往往也是一件头疼的事情。

同样，统计分析并非一蹴而就，研究中收集的变量有很多，那么在构建多因素回归模型时，应该如何有效的筛选变量并将其纳入到多因素分析中呢？如何正确看待单因素和多因素分析结果，如果两者自相矛盾，又该如何解释呢？我们将在以后的内容中进行探讨，敬请期待。

参考文献：

[1] Atherosclerosis. 2011 Sep;218(1):163-7

相关阅读

1. 那么多变量，我该选择哪些进入多因素分析呢？

2. 举几个例子，看看多因素分析中可能犯的错

3. 【合集】23种统计方法的SPSS详细操作

医咖会微信：medieco-ykh

关注医咖会，涨姿势！

我们建了一个微信群，有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），拉你进群和其他小伙伴们一起交流学习。

点击左下角“阅读原文”，看看医咖会既往推送了哪些统计教程。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”