卢沙野大使接受法国LCI电视台直播专访

【少儿禁】马建《亮出你的舌苔或空空荡荡》

外交部迅速反应:严正抗议美冻结全国人大14位副委员长资产,中方将反制

达赖叛逃时把人皮、头骨法器都送给了谁(胆小慎入)

列宁会如何看待宝马MINI“冰淇淋事件”

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

回归分析筛选自变量,不推荐逐步回归法?那我应该怎么办?

老郑 医学论文与统计分析 2022-10-07

点击学习全部医学统计学与SPSS教程


如何科学地构建回归模型系列
1.一道饕餮大餐来了!手把手教你如何科学地构建回归模型!
2.一文汇总三大回归的基本应用条件、诊断与处理方法
3.回归分析时何时设置哑变量?如何设置?
4.当回归分析模型遇到连续型自变量,我该怎么办?
5.吃巧克力预防高血压?一文学会P trend计算,掌握趋势性分析
6.你只会“先单后多”吗?如何筛选自变量建立多因素回归模型
7.你认识它吗?--有向无环图(DAG):回归分析中自变量筛选的指导思想
8.中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?
9.控制混杂偏倚的回归自变量筛选法,强烈推荐Change-in-Estimate法


这一篇文章,我来讲讲“先单后多”的回归建模方法,在其中,特别关注是是否需要逐步回归技术的问题。


医学研究,探讨影响因素时(当然,也可以用于控制混杂因素,主要还是用于探讨 影响因素),一般建回归模型,用的是先单因素后多因素的方法,也就是先一个一个自变量与因变量做单因素回归,把P值较小(比如P<0.2)纳入多因素回归模型,再结合逐步回归法进行自变量筛选分析。


先单因素、再多因素的分析理念,严格符合“严进严纳”的思维:筛选变量纳入多因素回归模型,结合逐步回归法形成简洁的统计分析模型。


咋就要先单因素再多因素,为什么要P值<0.2? 师兄会说,这是祖传的,你照做就行。


但都没有人告诉我们,我们学的这种回归建模技术是不一定对的。更重要的是,被称为很巧妙的逐步回归法,它基本上没有什么卵用!


在之前,郑老师的推文:多因素回归要不要做逐步回归法?美国top杂志《内科学年鉴》给出答案里面说,医学论文不要用逐步回归法!


好多朋友问我:为什么?那我们应该用什么方法来建模型?


好,我系统地梳理下,方便大家学习如果你看完觉得郑老师写得真好,别竖大拇指了,我看不见;也别给我送钱了,咱们浙江中医药大学有的是钱!给我个文章分享即可!


1.为什么先做单因素,再做多因素?

我们一定要先单因素后多因素吗?不是的。先单后多,是因为,回归模型要遵循一个基本原则:模型自变量越少越好!为什么?因为回归分析自变量太多,建模会失败。一把来说,一个线性回归模型,需要5-10以上的样本量;logistic需要10-15倍的样本量。那么有限的样本量,你不能一下子把所有的感兴趣的变量全部放进去,那样肯定无法成功形成回归模型,造成多因素好回归所有的P值都>0.05。所以, 只好挑选有可能有统计学意义的自变量纳入?怎么挑?先做单因素吧,把P值较小的纳入多因素回归!


2. 一定要“先单后多吗?

但一定要先单后多吗?不一定,如果你样本量很大,自变量个数也不多,完全没有必要!毕竟,先单后多肯能会让你遗漏本来会有统计学意义的变量。


推荐的是多层次多模型法建立回归方程,结局潜在的混杂偏倚与中介变量的影响。详细可见下文:

中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?


3. 逐步回归法到底有什么用?

不可否认的是,逐步回归法是个好方法,它遵从的原则,就是模型自变量越少越好!但是,自变量少了肯定有问题,怎么办,它就提出另外一个筛选原则:通过反复挑选自变量,使得模型的模拟度(也就是对真实世界研究的仿真度)不差、且自变量个数最少。一般模拟度采用用R2(R平方)或者-2log对数似然比评价。


也就是,它通过操作,挑选出少数的自变量,就可以构建一个对真实世界研究很好预测功能的方程。看起来也很美好!筛选简单的几个变量就可以预测乳腺癌发病风险,多好!


国内生物统计学泰斗,中山大学方积乾教授说:对于要筛选变量,建立一个用于预测健康结局的回归方程,逐步回归法是一种优秀的方法。


因此,我不是说逐步回归法不好用。


4.为什么逐步回归法不适合大多数的医学研究

事实上,大多数医学研究采用回归分析并不是建立一个预测模型,更主要探讨:影响疾病发生或预后的结局的因素是什么、或者控制混杂因素,重点聚焦某一个因素对疾病结局的作用。基本上,大多数模型的模拟度会很小(比如R2不到0.2),但不妨碍我们建一个回归模型。我们也不看重模型对现实世界的仿真度,一般只探讨,这些变量对结局是否有影响(P是否小于0.05),或者b值是否不等0、OR值、RR值是否不等于1。


此时,逐步回归法则是一种粗暴的手段,它无视自变量之间的相互关系,完全是数据导向,非常有可能淘汰本来对疾病结局有影响、但不是那么重要的因素。


打个比方,我们学院医学统计学教研室就是一个回归模型,自变量就是我们教员,逐步回归法的意思,是学校不管教员之间的关系如何,是不是偷懒,它只要求,一年你们把所有的医学统计学课程全部拿下,不出事故,完成既定的科研任务;一旦如此,你们每个人上多少课、你们之间是否勾心斗角,学校是不管的。领导们就撂下一句话:你们自己问题自己解决。


所以,我经常跟学生说,逐步回归法是Garbage in,Garbage out的方法,不是什么好东西


5. 逐步回归法能处理多重共线性问题吗?

有人会问,郑老师,逐步回归法不是解决多重共线性吗?万一有多重共线性怎么办?


很遗憾,国内医学统计学教学很少介绍多重共线性处理,哪怕是研究生教学;国内教学往往只说多重共线性和及其处理手段,好像也不提为什么会有多重共线性。


多重共线性究竟怎么产生?


其主要是自变量之间相关,甚至是高度相关。那么为什么自变量会相关?常见有三点原因引起多重共线性:1.存在着混杂因素会相关;2存在着中间变量会相关、3、存在着共同原因会相关。最常见的是前两者。


举例:若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。探讨随访血糖的影响因素,如果用箭头表示因果关系。大家可以看出,自变量胰岛素、基线血糖、糖尿病直接存在着复杂的关系,有些是中间变量,有些是混杂变量。

实际上,我们在探讨影响因素时,必须要考虑的情况是,第一,混杂因素必须纳入模型,第二,中间变量又不能纳入模型。


所以多重共线性问题的确应该要重视起来。但如果你认为存在着多重共线性,就采用逐步回归法,显然会乱杀、错杀,结果可能没有你想象那么好。


所以说,逐步回归法很多时候并不能有效解决多重共线性问题,相反,它带来了错误的答案。


如果真的存在着变量高度相关,且又不存在着合理的因果关系解释。建议不要同时纳入模型,或者采用其它的可以解决多重共线性的方法,比如岭回归、主成分回归等方法。


6. 如何开展“先单因素后多因素回归分析


(1)基于大道至简、严进严纳的基本理念,“先单后多”的回归建模思想是一种简单易学、可以被接受的方法


(2)“先单后多”的回归建模主要用于探讨影响因素,而非用于控制混杂。


(3)“先单后多”之前,应基于DAG的方法,大致了解各自变量与因变量的理论因果关系。挑选合适的变量进入研究视野,谨慎选择中介变量进入模型。


(4)可以先采用单因素分析,探索下各自变量与因变量的初步关系。


(5)再此基础上,应分三条路走路:

第一,若自变量本来就不多,我们的研究样本量足够支撑回归分析,大可不必先单后多,将自变量全部纳入即可。一般样本量在自变量个数的15倍以上(线性回归)或30倍以上(logistic回归),说明样本量是比较充沛的。


第二,若自变量数量较多而样本量不大,可采用“先单后多”的方法进行回归分析,不必采用逐步回归法的方法。


第三,若自变量经先单因素分析后,P值较小的个数仍然很多,多到有限样本量无法允许建模(这种情况很少见),则可以考虑逐步回归的方法。


(6)若自变量之间存在着层次关系,即存在着中间变量,可考虑建立多层次模型,分别从有、无中介变量的角度来分析自变量对结局的影响。这是代替逐步回归展现数据的的重要方法。

中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?


下表,我做了小结,有点复杂。


系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。这里不妨广而告之,如果您有一个临床试验项目,正处于设计阶段,并且已经或者将要过医院伦理委员会审核,不妨联系郑老师统计团队,我们可以帮助您更好的改善临床试验。微信号ZZ566665。

支持郑老师,
快来点击“分享”

文章有问题?点此查看未经处理的缓存