共线性如何处理(二)
作者:小王子的狐狸 审稿:阿X 封面:在路上
2018年俄罗斯世界杯(英语:2018 FIFA World Cup,俄语:Чемпиона́т ми́ра по футбо́лу 2018)是第21届世界杯足球赛。比赛将于2018年6月14日至7月15日在俄罗斯境内11座城市中的12座球场内举行。
在面对自变量间的多重共线性问题,怎么办?
有很多种解决方法,比如:增加样本数量、逐步回归法、人工去除法、主成分分析法、岭回归分析等。
本文要介绍的就是其中的岭回归分析法。
什么是岭回归?
岭回归是专门用于共线性数据分析的有偏估计的回归方法,实际上是一种改良的最小二乘法,但它放弃了最小二乘的无偏性,损失部分信息,放弃部分精确度为代价来寻求效果稍差但更符合实际的回归方程。
此处介绍下岭回归的回归系数公式,B(k)=(X’X+kI)-1X’Y作为回归系数的估计值,此值比最小二乘估计稳定。称B(k)为回归系数的岭估计。显然,当k=0时,则B(k)就成为了最小二乘估计;而当k→∞时,B(k)就趋于0。因此,k值不宜太大,我们要让k值小些。
岭回归在spss中的操作比较特殊,需要调试程序,因为spss没有为岭回归提供对话框界面,但是有一个完整的宏程序,名为“Ridge Regression.sps”,在安装路径之中,其调用方式如:
INCLUDE’SPSS所在路径\Ridge Regression.sps’.
Ridgereg enter = 自变量列表
/dep = 因变量名
/start=K值起始值,默认为0
/stop=K值终止值,默认为1
/inc =K值搜索步长,默认为0.05
/k=允许搜索的K值个数,默认为999.
注意,最后的“.”不能去掉,否则语句就不完整了。
案例:
引用的案例为,20个数据体现肥胖与肱三头肌、大腿围以及上手臂之间的关系。希望可以得出他们之间的回归方程。 其中:X1表示肱三头肌、X2表示大腿围、X3表示上手臂,是自变量;Y表示肥胖,是因变量。
SPSS操作步骤:
① 进行回归——线性——在统计对话框中选择:共线性诊断,如图1;
图1:共线性诊断对话框
② 如果结果中的方差膨胀系数(VIF)>5,则可做岭回归分析,如图2;
图2:共线性诊断结果图
由图2可得,三个自变量X1、X2、X3的容差分别是0.001、0.002和0.010,膨胀因子VIF大于100不等,(一般而言,VIF的值大于10就说明自变量间存在共线性),可见,自变量间存在严重的共线性。这个时候我们可以发挥岭回归分析的作用了。
③ 新建语法编辑器,输入如下命令:
INCLUDE'D:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'..
ridgereg enter= X1 X2 X3
/dep=Y
/inc=0.01.
如图3:
图3:语法编辑器
④ 选择“运行——全部”,得出结果,如图4、图5、图6;
图4:结果报告图
图4:报告图
我们可以看到图4中的前10个k值,在0.06-0.08时,回归系数值较稳定,我们可以取k=0.06时的值,那么回归方程中的系数值分别为:0.449394、0.444320、-0.095187。
图5,展示的是不同k值时这些回归系数构成的曲线,该曲线被称为ridge trace。这也是岭回归名称的由来。我们可以估计下,k值在0.06时,曲线变得相对平稳,这也与之前的结论一致。
图5:自变量的岭迹图
图6,展现的是不同的k值系数的下降情况,为了便于观察,我们可以在0.06附近增加一条参考线,可以看到,在开始,系数下降得比较明显,过了0.06平稳点后,波动不明显,这也支持了图4和图5的研究结论。
图6:决定系数和k值的线图
小结
本文介绍了共线性处理的另一种方法,即岭回归分析。比较特殊的是,需要编写语法调用spss安装路径下的程序。
走过的弯路:数据样本太小,无法得到满意的效果,甚至结果出不来。
回复20180615可以获取今天的数据~
欢迎添加
数据分析服务微信号:LYJ_312
加入社群添加微信号:spss_shequn
关注我们