菜鸟也爱数据分析之SPSS篇——描述性统计与变量分布形态
作者:红豆牛奶 审阅:夏雨骄阳 封面:自己想吧
以上几节的统计图表以一种直观的方式对样本数据做初步的描述。但在分析时,若要对数据进行更深入的分析,以简明的的方式尽可能多的提供关键信息,只需用几个有代表性的数值来说明一组数据的分布特征即可。在正式的描述统计之前,我们必须了解相关概念。
数据的分布特征主要有三个:数据分布的集中趋势、数据分布的离散趋势、数据频数的分布形态。
一、集中趋势,集中趋势的目的是找到最能代表整个数据的数值。
1、平均值:一组数据的平衡点,最常用最有代表性的数值。注意:平均值易受到极端值的影响,此时可以用截尾均数或中位数来代替。例:2、20、23、25、21、28、26、31中,2在这组数据中属于极端值,若要用平均值来代表这组数据,则会因为受到极端值2的影响而失去代表性,所以不考虑用平均值来代表这组数据。
2、截尾均数:平均数易受极端值的影响,通过截去极端数据(通常为去掉按从小到大顺序排列后的前后各5%的部分),只求剩下的平均数。
3、中位数:将数据按从小到大排列后,在中间位置的数。例:在10、12、15、18、23中,中位数为15;在10、12、13、15、18、23中,中位数为(13+15)/2=14。注意:在有极端数值和偏态分布时、数据分布不对称时,使用中位数。
4、众数:一组数据中出现次数最多的数。例:10、12、18、24、12、20、12、15、10、23、18中,众数为12。注意:众数可能有多个,SPSS会注明存在多个众数,显示的众数为数值大小最小的那个众数(如下图所示);在一组数据中也有可能没有众数。
适用类型:若为名义变量——计算众数;若为定序变量——计算众数或中位数;若为定距及定比变量——以上几种都可以。
二、离散程度
1、标准差:数据关于均值的离散程度,考虑了数据分布的疏密程度。标准差的值越大,表示各数值不在均值的附近,变量值之间的差异更大,数据分布的离散程度大,反之亦然。注意:只有当标准差差异不大时,比较多组数据的均值才有意义。
2、方差:方差是标准差的平方。
3、全距:在SPSS24.0中称作范围,是一组数据中最大值与最小值的差,可以粗略的了解数据的分布范围。
4、四分位数间距:将数据按从小到大排序,分成四等份,每份各占25%,上四分位数为75%处的值,下四分位数为25%处的值,四分位数间距=75%处的值-25%处的值。数值越大,个体差异度越大。
5、标准误差平均值:是样本均值与总体均值间平均差异程度的统计量。
适用类型:名义变量——全距;定序变量——全距;定距及定比变量——以上都可以
三、分布形态
1、正态分布:一个对称的曲线。标准差越大,正态曲线越矮阔,个体差异越大。
标准正态分布:均值为0,标准差为1.
2、偏度:分布不对称的方向和和程度。若偏度>0,为正偏态,长长的尾巴在右侧;若偏度<0,为负偏态,长长的尾巴在左侧。(如下图)
注意:若为正偏态,则众数<中位数<平均数。
若为负偏态,则中位数<平均数<众数。
3、峰度:指分布图形的峰凸程度。峰度>0,为高峰度,表示比正态分布更陡峭,峰形较尖,反之亦然。(如下图)
在SPSS24.0中,数据的描述性统计与分布形态,在分析——描述统计中,后面几节,我们将详细展开。