菜鸟也爱数据分析之SPSS篇——探索性分析
作者:夏雨骄阳 审阅:红豆牛奶 封面:自己想吧
前言SPSS中,探索分析是对变量进行深入和详尽的描述性统计分析,它在一般描述性统计指标的基础上,增加关于数据其他特征的文字与图形描述,分析结果更加细致与全面,有助于对数据做进一步分析。
探索分析,能够生成关于所有个案、或不同分组个案的综合统计量及图形;可以进行数据筛选工作,例如检测异常值、极端值、数据缺口等;还可以进行假设检验。通过探索性分析,能够帮助我们决定选择何种统计方法进行数据建模,判断是否需要把数据转换成正态分布,以及是否需要做非参数统计。
探索分析适用于对数值型的变量(连续型或比率型)进行分析,因素变量应该是取有限个离散值的分类变量(用于对数据进行分组)。
下面我们就来看具体实例。案例:“班级数学语文成绩.sav”,数据反映不同班级的学生性别、数学、语文成绩情况。
Step1:依次单击菜单“分析-描述统计-探索”执行探索性分析的过程,其主设置界面如图1.1。在“因变量列表”中选择数学,在 “因子变量列表”中选择性别,在“标注个案”中选择班级。
图1.1
因变量列表,用于从变量列表中选入因变量,一般为连续变量。
因子列表,用于从变量列表选入因素变量,一般为分类变量。
如果同时选入了多个因变量和多个因素变量,将对他们之间的两两组合分别进行分析,对于每对因变量和因素变量的搭配,输出结果都是类似的;选入的变量较多时,可能会耗费较长时间并产生很多输出。
标注个案,用于从变量列表选入标签变量,在结果里标识观测量。
Step2:单击“统计量”按钮,弹出统计量设置对话框,根据需要选择统计量,如图1.2。
图1.2
描述性复选框,选中此项会输出包含以下内容的表格:均值、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误等。
M-估计值复选框,计算并输出比均值和中位数更稳定的数据中心估计值,包括如下四个:“Huber’s”、“Andrews”、“Hampel’s”、“Tukey’s”。M-估计值可以用来判断数据有无明显异常值,如果M-估计值离平均数和中数比较远,那么可能存在异常值。
界外值复选框,输出5个最大值与5个最小值,包括观测量的标签。
百分位数复选框,输出5%、10%、25%、50%、75%、90%、95%的百分位数。
Step3:单击“绘制”按钮,弹出作图设置对话框,根据需要进行作图设置,如图1.3。
图1.3
箱图,设置关于箱图的参数。
按因子水平分组选项,对每个因素变量,每图只显示一个因变量,该项为默认选项。
不分组选项,对每个因素变量,每图显示所有的因变量。
无选项,不绘制箱图。
描述性,设置关于数据描述性质的图形输出,茎叶图与直方图两个选项,其中茎叶图为默认设置。
带检验的正态图,作正态概率图和去趋势后的正态概率图,并输出检验正态性的Kolmogorov-Smirnov统计量及其Lilliefors置信水平。
伸展及级别Levene检验,设置控制数据转换的散步对水平图。同时显示回归曲线的斜率和方差齐性检验的Levene统计里;如果选择了数据转换,将对转换后的数据进行levene检验。
无选项,不输出散步对水平图。
幂估计选项,产生四分位数的自然对数,对单元格中位数的自然对数的散布图,以及达到方差齐性要求的幂估计;根据此散布对水平图,可以估计将各组方差转换成同方差所需的幂次。
已转换选项,在其后的下拉列表选择具体的变换方法,其中自然对数变换为默认设置。
未转换选项,不做任何数据变换,将输出产生原始的数据散布图,相当于幂次为1的转换。
Step4:单击“选项”按钮,弹出选项设置对话框,根据需要对缺失值的处理方式进行设置,如图1.4。
图1.4
按列表排除个案选项,为默认选项,对每个观测记录,只要分析所用到的变量中有1个含缺失值,就将该观测记录从所有分析中剔除。
按对排除个案选项,只有分析中用到的变量含缺失值时,才将相应的观测记录从当前分析中剔除,此方法可以最大限度地利用原始数据。
报告值选项,将因素变量中含有缺失值的观测作为一个单独的类别进行统计,所有输出结果都将包含这个被标识为缺失的类别。
结果分析回到主界面,点击确定,就可以得到探索分析的分析结果,如图1.5-1.13。
图1.5
图1.6
图1.7
图1.8
图1.9
图1.10
图1.11
图1.12
图1.13
1. 案例处理摘要和描述性表格输出,如图1.5-1.6。
摘要表格给出了不同性别的有效个数和缺失个数,本例没有缺失数据;描述表给出了不同性别的描述性统计量输出,包括均值及其95%的置信区间、中位数、方差等,其他年龄的输出与此类似。
2. 正态性检验结果,如图1.7。
正态性检验的显著性水平sig值都大于0.05,所以认为不同性别的数学成绩分布基本都为正态的。
3. 方差齐性检验结果,如图1.8。
4种Levene检验的sig值都大于0.5,故不能否定方差齐性的假设。
4. 直方图和QQ图输出,选取了性别为女的输出图,如图1.9-1.11。
从频率直方图看,女学生的数学成绩在七十多以及八十多居多;从去除趋势的QQ图看,除了有两个不及格的点偏差较大外,其他都分布在横轴附近。
5. 箱图以及分布和水平图,如图1.12-1.13。
在数学成绩对性别的箱图中,女学生的数学成绩,有一个异常数据(偏小)。而在Math按SEX的分布和水平图中,女学生的数学成绩较多地分布在79左右,男学生的数学成绩则较多地分布在81左右。
关注下方二维码,在公众号中输入“20180207”即可获得操作数据。