多重线性回归假设条件(四)
作者:红豆牛奶 审核:X 封面:自己想吧
异常值
本文主要介绍多重线性回归的假设条件:是否存在显著的异常值。我们将介绍以下三种方法:
1.离群值:主要是通过个案诊断及学生化删除残差来判断。(注:学生化删除残差的稳定性更好)
2.强杠杆点
3.影响点
例子:通过调研统计了播种面积x1、施用化肥量x2、降雨量x3、和相应的粮食产量y,试用多重线性回归来分析。(本例只针对异常值的判断给出操作步骤)
操作步骤:Step1. 分析——回归——线性
Step3 【残差】中勾选 学生化删除残差、【距离】勾选库克距离、杠杆值
结果:
1. 生成3个新的变量,分别是SDE_1(学生化删除残差)、COO_1(库克距离) 即强影响点、LEV_1(杠杆值)。
离群值:个案诊断:当 -3< 标准化残差的值 <+3 时,不存在异常值,不在此范围内,则存在异常值;学生化删除残差:当-3< 学生化删除残差< +3时,不存在异常值,不在此范围内,则存在异常值。
杠杆值:若杠杆值 < 0.2,则不存在异常值;若杠杆值在0.2 - 0.5间,则可能为异常值;若杠杆值 > 0.5,则极有可能为异常值)
库克距离:若库克距离>1,则此个案极有可能为异常值。
解读方法一:从下图中各项指标的最大值、最小值可以看到以上三个指标都在安全范围内,所以可以判定不存在异常值。
解读方法二:排序,看最大值最小值的情况是否在安全范围内,也可得出不存在异常值。(以下只给出操作步骤,不再赘述。)两种方法大家可以自行选择。
扫描下方二维码,回20180605,可获得本次案例哦~
欢迎添加数据分析服务微信号(LYJ_312)和社群助手微信号(spss_shequn)