查看原文
其他

章画 SPSS学堂 2022-04-26

作者:章画   审核:X   封面:自己想吧

       根据日常经验我们知道,学生身高是能够影响到学生体重。现有一份学生体能测试数据集,对学生身高和体重进行简单线性回归拟合。并且学习本文的重点数据异常值检测。

1异常值检测

        异常值是数据集中过大或过小的观测值。异常值的存在对于回归直线方程的拟合、判定系数及显著性检验的结果都有很大的影响。所以,实际的回归分析操作,首先要做的就是检测异常值。


2异常值产生的原因


  1. 原始数据的测量或登记错误。如果是这种异常值,应该回过头来重新订正这些数据。

  2. 抽样的随机性所造成的异常值。如果是这种异常,就应该保留这些数据,而不能随意将它们剔除掉。

  3. 异常值的出现是总体本来数据结构的一种暗示。如果是这种情况,就应该考虑是否增加样本容量,或考虑其他形式的模型。


3标题内容异常值判定方法


       当数据集较大时,异常值是很难从表中识别出来的。散点图可以粗略帮助我们识别异常值。


         初步判断散点图中有一个异常值。但是凭肉眼去判断异常值难免有误差,所以接下来用SPSS自带的方法来判断异常值。

         通过线性回归【统计】-【个案诊断】-【离群值 】可以找到离群值。默认3倍标准差,   因为标准化残差99%数值大小都落在[-3,3] 区间内。若标准残差超[-3,3],则可以视为异常值。但是具体几倍标准差,视特定学科数据和实际问题而定。本例子选择3倍标准差




         通过以上操作得到观测值诊断表。由表可知,一共有10个异常值(红框所示)。它们的标准残差都超过3.观测值诊断表中的个案编号是根据数据试图中的个案序号。比如个案编号12是原数据试图排在第12行的个案。其他依此类推。

         还可以用【绘图】选项栏通过直方图和散点图来观察异常值。

      上表*ZPRED是回归标准化预测值, *ZRESID是回归标准化残差值。至于*ZPRED和 *ZRESID谁是X轴和谁是Y轴,并无多大影响。凡是通过数据标准化,*ZPRED和*ZRESID取值99%都落在[-3,3]之间,我们只要勾选标准化残差图下面的直方图和正态概率图,系统就会自动的绘制出以上我们所需要的图形。

        通过做回归标准化残差直方图,正如图中红框所示,已经有部分数据超过3。即可判定有异常值存在。



      也可以通过做回归标准化残差(*ZRESID)和回归标准化预测值(*ZPRED)散点图,Y轴回归标准化预测值都在[-3,3]以内,但是X轴回归标准化残差明显有部分点超出3。即上图红色框中的散点的x值(回归标准化残差)通通大于3.可以判定红色框中的值即为异常值。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存