查看原文
其他

如何在Python中进行描述性统计分析?

爬虫俱乐部 Stata and Python数据分析 2022-03-15
  本文摘自北京大学出版社《Python数据分析全流程实操指南》一书中,略有删改,按出版书中为准,出版社独家授权发布。文末正版好书《Python数据分析全流程实操指南》赠送活动,共3本,等你参与哦!
导读

在进行数据分析时,一般要先对数据进行描述性统计分析,以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。

本文以数据集classdata为案例来说明如何计算数据探索过程中的各种数据指标,此数据集为某个班级的学生信息数据,包含姓名、性别、身高和体重,首先我们创建数据帧,代码如下:

1import pandas as pd
2import numpy as np
3classdata=pd.read_csv("D:/Pythondata/data/class.csv")
4classdata.head()

运行上述程序,结果如图1所示,展示了数据集classdata的前5个观测样本。

图1 数据集classdata的前5个观测
一、集中趋势
1算术平均值

Pandas中计算变量均值的方法主要有2种,一是直接使用describle函数,一个是调用mean函数,代码如下所示:

1classdata.mean()

运行程序,结果如下所示,可知年龄Age的均值为13.3,身高62.34,体重100。

1Age        13.315789
2Height     62.336842
3Weight    100.026316
4dtypefloat64

同样,我们调用describe,代码如下所示:

1classdata.describe()

运行程序,结果如下图2所示,与调用mean函数的计算结果一致。

图2 变量的均值
2几何平均数

计算变量的几何平均值,需要调用Python库scipy,比如我们计算数据集classdata的变量Heigth的几何平均值,代码如下所示:

1from scipy import stats
2stats.gmean(classdata['Height'])

运行程序,结果如下所示:

162.133135310943146
3众数

在Pandas中,我们可以直接调用mode函数来计算变量的众数,比如,我们计算变量Age的众数,代码如下所示:

1classdata['Age'].mode()

运行程序后,结果如下所示

112
二、离散程度
1极差与四分位差

极差也叫全距,是一组数据的最大值与最小值之差;四分位差是指第三分位数与第一分位数之差,也称为内距或四分间距。利用describe函数计算最大值、最小值以及分位数,即可计算极差和四分位差.

1stat = classdata.describe() #保存基本统计量
2stat.loc['range'] = stat.loc['max']-stat.loc['min'#极差
3stat.loc['dis'] = stat.loc['75%']-stat.loc['25%'#四分位数间距
4print(stat)

运行上述程序,结果如下图3所示,变量Age的极差为5,四分位差为2.5,变量Heigth的极差为20.7,四分位差为7.65,变量Weight的极差为99.5,四分位差为28。

图3 极差计算结果
2平均离差

平均离差是各变量值与其平均数之差的绝对值之和的平均数。Pandas中计算平均差的为mad函数,直接调用即可,比如我们计算各个变量的平均差,则代码如下所示:

1classdata.mad()

运行程序后,其结果如下所示:

1Age    1.279778
2Height   4.069252
3Weight  17.343490
4dtypefloat64
3标准差

Pandas中计算标准差的方式有多种,其中函数describe和std均可计算,我们在前文中已经展示了describe函数的用法,在此不再累述,我们直接调用std函数即可,代码如下:

1classdata.std()

运行上述程序,结果如下所示:

1Age    1.492672
2Height   5.127075
3Weight  22.773933
4dtypefloat64
4离散系数

离散系数通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其对应的平均数之比,是衡量数据离散程度的相对指标。

我们可以通过如下程序计算标准差系数,代码如下:

1stat2 = classdata.describe()
2stat2.loc['var'] = stat2.loc['std']/stat2.loc['mean'
3stat2

运行上述程序,结果如下图4所示。

图4 离散系数结果
三、分布状态
1偏态

偏态是对分布偏斜方向和程度的测度,Pandas中可以直接调用skew函数计算变量的偏态系数,代码如下所示:

1classdata.skew()

运行上述程序,结果如下所示,其中变量Age、Height和Weight的偏态系数分别为0.06、-0.26和0.18。

1Age    0.063612
2Height  -0.259670
3Weight  0.183351
4dtypefloat64
2峰度

峰度是分布集中趋势高峰的形状,Pandas中可以直接调用kurt函数计算变量的偏态系数,代码如下所示:

1classdata.kurt()

运行上述程序,结果如下所示,其中变量Age、Height和Weight的偏态系数分别为-1.11、-0.14和0.68。

1Age   -1.110926
2Height  -0.138969
3Weight  0.683365
4dtypefloat64

四、相关分析
1散点图

制散点图的方法很多,可以直接调用Pandas库的plot.scatter函数进行绘制,比如如下绘制散点图的程序。

1classdata.plot.scatter(x='Age', y='Height')

运行上述程序,结果如图5所示,从散点图的数据分布可以看出,变量Height和Age呈现很强的相关关系。

图5 变量Age和Height的散点图

同样,我们也可以调用matplotlib库的pyplot函数进行散点图的绘制,代码如下所示:

1import matplotlib.pyplot as plt
2plt.scatter(classdata['Height'],classdata['Weight'] )
3plt.xlabel("Height")
4plt.ylabel("Weight")
5plt.show()

运行上述程序,结果如下图6所示,从散点图的数据分布可以看出,变量Height和Weight同样呈现很强的相关关系。

图6 变量Height和Weight的散点图
2相关系数

在Pandas中可以直接调用corr函数来计算变量之间的相关系数,如下程序:

1classdata.corr()

运行程序后,结果如图7所示。

图7 变量之间的相关系数

除了计算相关系数矩阵之外,我们还可以绘制相关系数矩阵图,此处需调用seaborn库进行绘制,代码如下所示:

1import seaborn as sns
2%matplotlib inline
3# calculate the correlation matrix
4corr = classdata.corr()
5# plot the heatmap
6sns.heatmap(corr,xticklabels=corr.columns,yticklabels=corr.columns)

运行上述程序之后,结果如图8所示。

图8 相关系数矩阵图



推书环节来了,今天推荐的是北京大学出版社《Python数据分析全流程实操指南》


推荐语
1.内容全面:借助5大Python工具库,实现数据分析从获取到建模全流程覆盖;
2.贴合实际:不空讲Python语法,清晰简明地介绍如何用Python来处理、分析数据;
3.热点案例:覆盖6大热点应用领域,可直接参考研发,实现数据变现;
4.学习资源:提供所有案例源代码和数据,供读者操作练习,快速上手
本书主要围绕整个数据分析方法论的常规流程,介绍了Python常用的工具包,包括科学计算库Numpy、数据分析库Pandas、数据挖掘库Scikit-Learn,以及数据可视化库Matplotlib和Seaborn的基本知识,并从数据分析挖掘的实际业务应用出发,讲解了互联网、金融及零售等行业的真实案例,比如客户分群、产品精准营销、房价预测、特征降维等,深入浅出、循序渐进地介绍了Python数据分析的全过程。现在关注公众号并回复“质量”,即可参与抽奖一共有3本正版赠送哦~

“扫一扫回复:质量”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存