先单因素后多因素----回归分析自变量筛选的常见方法
“如何分析真实世界研究数据”系列(五)
多因素回归,常见的统计学方法是先单因素、再多因素的分析理念。这种理念,严格符合“严进宽出”的思维:筛选变量纳入多因素回归模型,结合逐步回归法形成简洁的统计分析模型。
本文介绍“从单因素到多因素”自变量筛选的常见统计学场合
一、研究案例
这是一项关于胰腺癌病人生存时间的研究。该研究的终点为死亡,此外结局指标还包括生存时间。跟结局有关的研究变量较多,本文分析主要目的是探讨影响因素,也就是影响胰腺癌病人生存时间的因素有哪一些?
二、先单因素、再多因素的统计方法
中国研究者最常见的回归方法就是先单因素、再多因素
第一步,对上述变量均分别采用单因素回归方法。结果如下表2,性别、胰胆管浸润程度、占位数均无统计学差异,手术年龄、术中化疗、有无腹膜转移和TNM分期有统计学差异(P<0.05)
第二步,挑选P值较小者,纳入多因素回归模型。本案例挑选P值较小者(P<0.20)的变量:手术年龄、术中化疗、有无腹膜转移和TNM分期,将其纳入回归模型中。
第三步,采用向前逐步回归法(Forward),开展多因素分析。结果见表3。最终构建的模型中包括了手术年龄、术中放疗和TNM分期,且各因素与生存时间之间均有统计学意义(P<0.05)。
二、自变量筛选,还有更多方法
其实,先单因素、再多因素,虽然是主流,但绝对不是唯一,数据驱动自变量筛选的方法,往往有以下的思路:
1) 完全纳入,不再淘汰
2) 完全纳入,逐步回归法
3) 单因素筛选纳入(P较小者,P<0.2/0.1/0.05), 不再淘汰
4) 单因素筛选纳入(P较小者,P<0.2/0.1/0.05), 逐步回归方法
5) 效应改变法(下一篇文章介绍)
如同本文列举的案例,大多数人倾向于第4种方法:先单因素、再逐步回归法,包括国内顶级杂志中华流行病学也多采用该种方法。但这种思路也属于完全无脑的办法,其过程粗暴简单,很多场合下不一定对。老郑认为,到底选择哪种方法,可以根据以下情况来:
第一种方法:完全纳入,不再淘汰
这种方法要求自变量较少,自变量之间关系简单,多重共线性不严重。一般情况下,线性回归自变量个数不太多(比如少于10个),且样本量是自变量个数20倍以上,可以采用本方法。
第二种方法:完全纳入,逐步回归法
这种方法要求自变量较少,一般情况下,线性回归要求自变量个数不太多(比如少于10个),且样本量是自变量个数20倍以上;logistic回归和COX回归,要求阳性个数是自变量个数的20倍以上。即使自变量之间存在着一定的多重共线性,也可以采用本方法。
第三种方法:单因素筛选纳入(P较小者,P<0.2/0.1/0.05), 不再淘汰
这种方法要求自变量不多,一般是线性回归要求样本量是自变量10-20倍,logistic回归和COX回归,要求阳性个数是自变量的10-20倍,P值较小者纳入。P值的界值是0.2、0.1还是0.05可根据符合条件的自变量个数而定。如果符合条件的自变量较小,而且关系简单,则多因素回归不再淘汰。
第四种方法:单因素筛选纳入(P较小者,P<0.2/0.1/0.05), 逐步回归方法
这种方法要求自变量不多,一般是线性回归要求样本量是自变量10倍以下,logistic回归和COX回归,阳性个数是自变量的10倍以下,P值较小者纳入。但如果自变量数较多,或者存在着多重共线性,则应该采用逐步回归法。如果符合条件的自变量较小,而且关系简单,则是第三种方法,即多因素回归不再淘汰。
第五种方法:效应改变法
这种方法下一讲将介绍,该种方法侧重点在于:如何控制混杂因素,而不是探讨影响因素包括哪一些。它的优点是可以避免重要的变量被淘汰出局!