回归分析筛选自变量,不推荐逐步回归法?那我应该怎么办?
点击学习全部医学统计学与SPSS教程
这一篇文章,我来讲讲“先单后多”的回归建模方法,在其中,特别关注是是否需要逐步回归技术的问题。
医学研究,探讨影响因素时(当然,也可以用于控制混杂因素,主要还是用于探讨 影响因素),一般建回归模型,用的是先单因素后多因素的方法,也就是先一个一个自变量与因变量做单因素回归,把P值较小(比如P<0.2)纳入多因素回归模型,再结合逐步回归法进行自变量筛选分析。
先单因素、再多因素的分析理念,严格符合“严进严纳”的思维:筛选变量纳入多因素回归模型,结合逐步回归法形成简洁的统计分析模型。
咋就要先单因素再多因素,为什么要P值<0.2? 师兄会说,这是祖传的,你照做就行。
但都没有人告诉我们,我们学的这种回归建模技术是不一定对的。更重要的是,被称为很巧妙的逐步回归法,它基本上没有什么卵用!
在之前,郑老师的推文:多因素回归要不要做逐步回归法?美国top杂志《内科学年鉴》给出答案。里面说,医学论文不要用逐步回归法!
好多朋友问我:为什么?那我们应该用什么方法来建模型?
好,我系统地梳理下,方便大家学习。如果你看完觉得郑老师写得真好,别竖大拇指了,我看不见;也别给我送钱了,咱们浙江中医药大学有的是钱!给我个文章分享即可!
1.为什么先做单因素,再做多因素?
我们一定要先单因素后多因素吗?不是的。先单后多,是因为,回归模型要遵循一个基本原则:模型自变量越少越好!为什么?因为回归分析自变量太多,建模会失败。一把来说,一个线性回归模型,需要5-10以上的样本量;logistic需要10-15倍的样本量。那么有限的样本量,你不能一下子把所有的感兴趣的变量全部放进去,那样肯定无法成功形成回归模型,造成多因素好回归所有的P值都>0.05。所以, 只好挑选有可能有统计学意义的自变量纳入?怎么挑?先做单因素吧,把P值较小的纳入多因素回归!
2. 一定要“先单后多”吗?
但一定要先单后多吗?不一定,如果你样本量很大,自变量个数也不多,完全没有必要!毕竟,先单后多肯能会让你遗漏本来会有统计学意义的变量。
推荐的是多层次多模型法建立回归方程,结局潜在的混杂偏倚与中介变量的影响。详细可见下文:
中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?
3. 逐步回归法到底有什么用?
不可否认的是,逐步回归法是个好方法,它遵从的原则,就是模型自变量越少越好!但是,自变量少了肯定有问题,怎么办,它就提出另外一个筛选原则:通过反复挑选自变量,使得模型的模拟度(也就是对真实世界研究的仿真度)不差、且自变量个数最少。一般模拟度采用用R2(R平方)或者-2log对数似然比评价。
也就是,它通过操作,挑选出少数的自变量,就可以构建一个对真实世界研究很好预测功能的方程。看起来也很美好!筛选简单的几个变量就可以预测乳腺癌发病风险,多好!
国内生物统计学泰斗,中山大学方积乾教授说:对于要筛选变量,建立一个用于预测健康结局的回归方程,逐步回归法是一种优秀的方法。
因此,我不是说逐步回归法不好用。
4.为什么逐步回归法不适合大多数的医学研究
事实上,大多数医学研究采用回归分析并不是建立一个预测模型,更主要探讨:影响疾病发生或预后的结局的因素是什么、或者控制混杂因素,重点聚焦某一个因素对疾病结局的作用。基本上,大多数模型的模拟度会很小(比如R2不到0.2),但不妨碍我们建一个回归模型。我们也不看重模型对现实世界的仿真度,一般只探讨,这些变量对结局是否有影响(P是否小于0.05),或者b值是否不等0、OR值、RR值是否不等于1。
此时,逐步回归法则是一种粗暴的手段,它无视自变量之间的相互关系,完全是数据导向,非常有可能淘汰本来对疾病结局有影响、但不是那么重要的因素。
打个比方,我们学院医学统计学教研室就是一个回归模型,自变量就是我们教员,逐步回归法的意思,是学校不管教员之间的关系如何,是不是偷懒,它只要求,一年你们把所有的医学统计学课程全部拿下,不出事故,完成既定的科研任务;一旦如此,你们每个人上多少课、你们之间是否勾心斗角,学校是不管的。领导们就撂下一句话:你们自己问题自己解决。
所以,我经常跟学生说,逐步回归法是Garbage in,Garbage out的方法,不是什么好东西
5. 逐步回归法能处理多重共线性问题吗?
有人会问,郑老师,逐步回归法不是解决多重共线性吗?万一有多重共线性怎么办?
很遗憾,国内医学统计学教学很少介绍多重共线性处理,哪怕是研究生教学;国内教学往往只说多重共线性和及其处理手段,好像也不提为什么会有多重共线性。
多重共线性究竟怎么产生?
其主要是自变量之间相关,甚至是高度相关。那么为什么自变量会相关?常见有三点原因引起多重共线性:1.存在着混杂因素会相关;2存在着中间变量会相关、3、存在着共同原因会相关。最常见的是前两者。
举例:若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。探讨随访血糖的影响因素,如果用箭头表示因果关系。大家可以看出,自变量胰岛素、基线血糖、糖尿病直接存在着复杂的关系,有些是中间变量,有些是混杂变量。
实际上,我们在探讨影响因素时,必须要考虑的情况是,第一,混杂因素必须纳入模型,第二,中间变量又不能纳入模型。
所以多重共线性问题的确应该要重视起来。但如果你认为存在着多重共线性,就采用逐步回归法,显然会乱杀、错杀,结果可能没有你想象那么好。
所以说,逐步回归法很多时候并不能有效解决多重共线性问题,相反,它带来了错误的答案。
如果真的存在着变量高度相关,且又不存在着合理的因果关系解释。建议不要同时纳入模型,或者采用其它的可以解决多重共线性的方法,比如岭回归、主成分回归等方法。
6. 如何开展“先单因素后多因素”回归分析
(1)基于大道至简、严进严纳的基本理念,“先单后多”的回归建模思想是一种简单易学、可以被接受的方法
(2)“先单后多”的回归建模主要用于探讨影响因素,而非用于控制混杂。
(3)“先单后多”之前,应基于DAG的方法,大致了解各自变量与因变量的理论因果关系。挑选合适的变量进入研究视野,谨慎选择中介变量进入模型。
(4)可以先采用单因素分析,探索下各自变量与因变量的初步关系。
(5)再此基础上,应分三条路走路:
第一,若自变量本来就不多,我们的研究样本量足够支撑回归分析,大可不必先单后多,将自变量全部纳入即可。一般样本量在自变量个数的15倍以上(线性回归)或30倍以上(logistic回归),说明样本量是比较充沛的。
第二,若自变量数量较多而样本量不大,可采用“先单后多”的方法进行回归分析,不必采用逐步回归法的方法。
第三,若自变量经先单因素分析后,P值较小的个数仍然很多,多到有限样本量无法允许建模(这种情况很少见),则可以考虑逐步回归的方法。
(6)若自变量之间存在着层次关系,即存在着中间变量,可考虑建立多层次模型,分别从有、无中介变量的角度来分析自变量对结局的影响。这是代替逐步回归展现数据的的重要方法。
中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?
下表,我做了小结,有点复杂。
系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。这里不妨广而告之,如果您有一个临床试验项目,正处于设计阶段,并且已经或者将要过医院伦理委员会审核,不妨联系郑老师统计团队,我们可以帮助您更好的改善临床试验。微信号ZZ566665。