统计学入门(3):如何刻画数据——参数与统计量
1. 参数(Parameter)
总体均值(μ):用于描述总体所有数据点的平均值。例如:一个小镇只有1000名成年人,这1000名成年人的平均身高是170cm。
总体方差(σ²)和总体标准差(σ):用于描述数据分布的离散程度。例如,在工厂中,机器总共生产了1000个产品,这些产品标准重量为1公斤,重量的方差是25克,这表示产品重量的波动性相对较小;一个小城市的10,000名居民的年收入标准差是10,000元。这意味着大多数居民的收入都在平均值的上下10,000元范围内。
总体比例(P):用于描述某一分类变量中某一类的比例。例如,在只有10,000名成年人口的城市中,3000人拥有大学学位,那么,拥有大学学位的人口比例P=0.3或30%。
总体偏度(Skewness):用于描述数据分布的不对称性。例如:在某个小城市,房价主要集中在200,000元到300,000元之间,但有10栋房子的价格超过1,000,000元,这导致了数据的正偏。
总体峰度(Kurtosis):用于描述数据分布的尖锐或平坦程度。例如:某只股票在100天内的日回报率大多数都在-1%到1%之间,但有5天的回报率超过了5%或低于-5%。这意味着数据具有较高的峰度,因为有极端值存在。
2. 统计量(Statistic)
统计量是基于样本数据计算得出的数值,用于对总体参数进行估计。与总体的参数对应,常见的统计量有:
样本均值: 用于描述样本中所有数据点的平均值。例如,假设一个国家有1000个城市,你抽取了其中10个城市的样本,并测量了每个城市的空气质量指数(AQI),这10个城市的AQI均值就是样本均值。假设城市AQI数据为[50, 55, 52, 58, 53, 54, 51, 56, 57, 52],则样本均值为[50, 55, 52, 58, 53, 54, 51, 56, 57, 52]的和除以样本数量10,最后可得 53.8。 样本方差:用于描述样本中的数据点与样本均值的差异。例如,使用上面空气质量的数据,我们可以计算这些数据的样本方差来了解AQI的波动情况。样本方差的计算公式为:
图1 样本方差的计算公式
n。这是因为我们计算的是样本方差,而不是总体方差。这种做法称为贝塞尔校正,其目的是提供对总体方差的无偏估计。主要考虑是样本均值很少恰好等于总体均值。通常,样本均值会更接近于样本中的观测值,这导致了低估总体方差的风险。减1之后,得到的方差结果更大,减轻了低估的风险。
样本标准差: 样本方差的平方根,用于描述样本中的数据点如何围绕样本均值分布。
样本中位数:是将样本数据排序后位于中间位置的数值。例如,上面AQI数据排序后为 [50, 51, 52, 52, 53, 54, 55, 56, 57, 58],中位数是 53.5。如果数据集合有奇数个数,中位数是中间的数。如果有偶数个数,中位数是中间两个数的平均值。 样本比例: 用于描述样本中某一特定属性的比例。例如,如果我们对1000个人进行调查,了解他们是否喜欢在周末进行户外活动,喜欢户外活动的人占样本的比例就是样本比例。如果在这1000人中有700人喜欢户外活动,则样本比例为0.7。 样本偏度:用于描述样本数据分布的不对称性。例如测量一组房价数据,样本偏度可以告诉我们房价是向高价偏斜还是向低价偏斜。 样本峰度: 用于描述样本数据分布的尖锐或平坦程度。例如测量学生考试成绩的分布,样本峰度可以反映成绩是否集中,是否有极端的高分或低分。
这些统计量可以帮助我们对总体参数进行估计,并对数据集的特性有一个直观的了解。通过使用这些统计量,我们可以对数据进行更进一步的分析和解释。
3. 如何选择和使用
参数和统计量在不同的情境下使用,下面我们来看看它们各自的应用场景:
参数 (Population Parameters)
统计量 (Sample Statistics)
使用原则
当你有整个总体的数据时,计算参数。 当你只能获得总体的一个样本时,计算统计量,并用它来估计总体的参数。 总体参数通常是未知的,而统计量是已知的。我们使用统计量来对未知的总体参数做出最好的猜测。统计学的许多方法,如置信区间和假设检验,都是基于从样本统计量到总体参数的推断。通过这种方式,我们可以从部分信息中提取出对整体的理解。
本文介绍了统计学中的参数与统计量,下一期我们将介绍如何使用Python代码计算及可视化这些统计量,敬请关注。