先单因素后多因素----回归分析自变量筛选的常见方法

Original 老郑医学论文与统计分析 2022-10-07

点击蓝字关注我们，持续更新

“如何分析真实世界研究数据”系列（五）

多因素回归，常见的统计学方法是先单因素、再多因素的分析理念。这种理念，严格符合“严进宽出”的思维：筛选变量纳入多因素回归模型，结合逐步回归法形成简洁的统计分析模型。

本文介绍“从单因素到多因素”自变量筛选的常见统计学场合

一、研究案例

这是一项关于胰腺癌病人生存时间的研究。该研究的终点为死亡，此外结局指标还包括生存时间。跟结局有关的研究变量较多，本文分析主要目的是探讨影响因素，也就是影响胰腺癌病人生存时间的因素有哪一些？

二、先单因素、再多因素的统计方法

中国研究者最常见的回归方法就是先单因素、再多因素

第一步，对上述变量均分别采用单因素回归方法。结果如下表2，性别、胰胆管浸润程度、占位数均无统计学差异，手术年龄、术中化疗、有无腹膜转移和TNM分期有统计学差异（P<0.05）

第二步，挑选P值较小者，纳入多因素回归模型。本案例挑选P值较小者（P<0.20）的变量：手术年龄、术中化疗、有无腹膜转移和TNM分期，将其纳入回归模型中。

第三步，采用向前逐步回归法（Forward），开展多因素分析。结果见表3。最终构建的模型中包括了手术年龄、术中放疗和TNM分期，且各因素与生存时间之间均有统计学意义（P<0.05）。

二、自变量筛选，还有更多方法

其实，先单因素、再多因素，虽然是主流，但绝对不是唯一，数据驱动自变量筛选的方法，往往有以下的思路：

1) 完全纳入，不再淘汰

2) 完全纳入，逐步回归法

3) 单因素筛选纳入（P较小者，P<0.2/0.1/0.05）, 不再淘汰

4) 单因素筛选纳入（P较小者，P<0.2/0.1/0.05）, 逐步回归方法

5) 效应改变法（下一篇文章介绍）

如同本文列举的案例，大多数人倾向于第4种方法：先单因素、再逐步回归法，包括国内顶级杂志中华流行病学也多采用该种方法。但这种思路也属于完全无脑的办法，其过程粗暴简单，很多场合下不一定对。老郑认为，到底选择哪种方法，可以根据以下情况来：

第一种方法：完全纳入，不再淘汰

这种方法要求自变量较少，自变量之间关系简单，多重共线性不严重。一般情况下，线性回归自变量个数不太多（比如少于10个），且样本量是自变量个数20倍以上，可以采用本方法。

第二种方法：完全纳入，逐步回归法

这种方法要求自变量较少，一般情况下，线性回归要求自变量个数不太多（比如少于10个），且样本量是自变量个数20倍以上；logistic回归和COX回归，要求阳性个数是自变量个数的20倍以上。即使自变量之间存在着一定的多重共线性，也可以采用本方法。

第三种方法：单因素筛选纳入（P较小者，P<0.2/0.1/0.05）, 不再淘汰

这种方法要求自变量不多，一般是线性回归要求样本量是自变量10-20倍，logistic回归和COX回归，要求阳性个数是自变量的10-20倍，P值较小者纳入。P值的界值是0.2、0.1还是0.05可根据符合条件的自变量个数而定。如果符合条件的自变量较小，而且关系简单，则多因素回归不再淘汰。

第四种方法：单因素筛选纳入（P较小者，P<0.2/0.1/0.05）, 逐步回归方法

这种方法要求自变量不多，一般是线性回归要求样本量是自变量10倍以下，logistic回归和COX回归，阳性个数是自变量的10倍以下，P值较小者纳入。但如果自变量数较多，或者存在着多重共线性，则应该采用逐步回归法。如果符合条件的自变量较小，而且关系简单，则是第三种方法，即多因素回归不再淘汰。

第五种方法：效应改变法

这种方法下一讲将介绍，该种方法侧重点在于：如何控制混杂因素，而不是探讨影响因素包括哪一些。它的优点是可以避免重要的变量被淘汰出局！