查看原文
其他

共线性如何处理(二)

helloiamx SPSS学堂 2022-04-26

作者:小王子的狐狸   审稿:阿X   封面:在路上

2018年俄罗斯世界杯(英语:2018 FIFA World Cup,俄语:Чемпиона́т ми́ра по футбо́лу 2018)是第21届世界杯足球赛。比赛将于2018年6月14日至7月15日在俄罗斯境内11座城市中的12座球场内举行。

在面对自变量间的多重共线性问题,怎么办?

有很多种解决方法,比如:增加样本数量、逐步回归法、人工去除法、主成分分析法、岭回归分析等。

本文要介绍的就是其中的岭回归分析法。

什么是岭回归?

岭回归是专门用于共线性数据分析的有偏估计的回归方法,实际上是一种改良的最小二乘法,但它放弃了最小二乘的无偏性,损失部分信息,放弃部分精确度为代价来寻求效果稍差但更符合实际的回归方程。

此处介绍下岭回归的回归系数公式,B(k)=(X’X+kI)-1X’Y作为回归系数的估计值,此值比最小二乘估计稳定。称B(k)为回归系数的岭估计。显然,当k=0时,则B(k)就成为了最小二乘估计;而当k→∞时,B(k)就趋于0。因此,k值不宜太大,我们要让k值小些。

岭回归在spss中的操作比较特殊,需要调试程序,因为spss没有为岭回归提供对话框界面,但是有一个完整的宏程序,名为“Ridge Regression.sps”,在安装路径之中,其调用方式如:

INCLUDE’SPSS所在路径\Ridge Regression.sps’.

Ridgereg enter = 自变量列表

     /dep = 因变量名

     /start=K值起始值,默认为0

     /stop=K值终止值,默认为1

     /inc =K值搜索步长,默认为0.05

  /k=允许搜索的K值个数,默认为999.

注意,最后的“.”不能去掉,否则语句就不完整了。

案例:

引用的案例为,20个数据体现肥胖与肱三头肌、大腿围以及上手臂之间的关系。希望可以得出他们之间的回归方程。 其中:X1表示肱三头肌、X2表示大腿围、X3表示上手臂,是自变量;Y表示肥胖,是因变量。

SPSS操作步骤:

①   进行回归——线性——在统计对话框中选择:共线性诊断,如图1;

图1:共线性诊断对话框

②   如果结果中的方差膨胀系数(VIF)>5,则可做岭回归分析,如图2;

图2:共线性诊断结果图

由图2可得,三个自变量X1、X2、X3的容差分别是0.001、0.002和0.010,膨胀因子VIF大于100不等,(一般而言,VIF的值大于10就说明自变量间存在共线性),可见,自变量间存在严重的共线性。这个时候我们可以发挥岭回归分析的作用了。

③   新建语法编辑器,输入如下命令:

INCLUDE'D:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'..

ridgereg enter= X1 X2 X3

/dep=Y

  /inc=0.01.

如图3:

图3:语法编辑器

④   选择“运行——全部”,得出结果,如图4、图5、图6;

图4:结果报告图

图4:报告图

我们可以看到图4中的前10个k值,在0.06-0.08时,回归系数值较稳定,我们可以取k=0.06时的值,那么回归方程中的系数值分别为:0.449394、0.444320、-0.095187。

图5,展示的是不同k值时这些回归系数构成的曲线,该曲线被称为ridge trace。这也是岭回归名称的由来。我们可以估计下,k值在0.06时,曲线变得相对平稳,这也与之前的结论一致。

图5:自变量的岭迹图

图6,展现的是不同的k值系数的下降情况,为了便于观察,我们可以在0.06附近增加一条参考线,可以看到,在开始,系数下降得比较明显,过了0.06平稳点后,波动不明显,这也支持了图4和图5的研究结论。

图6:决定系数和k值的线图

小结

本文介绍了共线性处理的另一种方法,即岭回归分析。比较特殊的是,需要编写语法调用spss安装路径下的程序。

走过的弯路:数据样本太小,无法得到满意的效果,甚至结果出不来。

回复20180615可以获取今天的数据~

欢迎添加

数据分析服务微信号:LYJ_312

加入社群添加微信号:spss_shequn


关注我们

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存