强影响点的解决途径
作者:小王子的狐狸 审稿:阿X 封面:在路上
上篇文章给大家介绍了判断是否存在显著异常值的方法和方法解读。
大家可点击链接进行回顾。
那么本篇文章小编将为大家介绍其中一个强影响点的解决途径。
我们知道强影响点的存在会对分析的结果产生坏的影响甚至导致错误的结论。
什么情况下会产生强影响点呢?
一般而言,在多重线性回归下,我们会把严重偏离了既定模型的数据点作为Y空间上的异常点,把远离数据主体的点称为高杠杆点,而对统计推断影响很大的点称为强影响点;其中异常点和高杠杆点都可能会产生强影响点。
如何诊断出是否存在强影响点呢?
① 在线性回归-右侧“统计”按钮中的残差的值进行判断,假如残差的数值很大,可能就表明相应的数据到回归线的距离较远,较可能存在强影响点。
② 通过线性回归-右侧“保存”按钮中的距离指标(如马氏距离、库克距离、杠杆值)以及影响统计指标(如标准化DfBeta、协方差比率等)。
③ 绘制散点图,观察是否存在离群值,他们常常就是强影响点。需要留意的是:有些观测值的变量在单独描述时,是正常值,但是当几个变量同时作为某个观测值的特性进行联合描述时可能是异常值。比如:年龄5岁和身高160cm单独进行说明时,就不会让人觉得惊讶,但是如果某一个人同时具备年龄在5岁和身高在160cm,那就会让人觉得不合常理。
④ 稳健回归方法。稳健回归方法可以帮助我们识别真正的异常值,因为他本质上的就是减少异常值对估计值的扰动而存在的,属于诊断后的治疗方法。当然可以作为识别强影响点的工具。
PS:与上篇文章异常值判断方法类似,但是本篇着重强调强影响点,基于异常值的存在都会产生强影响点的前提。
如何解决强影响点?
诊断完强影响点后,关键的是要解决这些强影响点,使分析结论可以更加正确。首先,我们得手工检查,确保我们本身输入/录入的数据是正确的。
在原始数据输入正确的前提下,我们需要采取以下的解决途径:
① 转换变量:适当地对强影响点的变量进行变换形式,比如:取对数、取倒数、百分比等等,可以解决极端值带来的偏差影响,使极端值合群,提升拟合效应。
② 去除法:对于某些样本量,如果强影响点不多,比如就1-2个,那么可以不纳入分析,毕竟我们选择的样本只要大部分通过,对最终的分析结果也不会产生不好的影响。
③ 非参数分析法:可以考虑对存在强影响点的变量求秩,将秩次代替原变量进行回归。这是对秩分析思想的应用,在样本量较大时更加有效。
④ 最小一乘法:此方法是指各实测点到直线的纵向距离的绝对值之后最小,比最小二乘法对强影响点有更好的耐受力。该方法采用spss中的非线性过程实现。
欢迎添加数据分析服务微信号(LYJ_312)和社群助手微信号(spss_shequn)