查看原文
其他

统计学入门(3):如何刻画数据——参数与统计量

黄宝荣 语言科学漫谈 2024-03-25

在前两期统计学入门(1)——描述统计与推断统计统计学入门(2)——总体与样本中,我们介绍了统计的一些基本概念。当我们谈论数据分析时,我们经常还需要用一些具体的量来描述和刻画数据的特性。这些量通常分为两类:参数和统计量。在本文中,我们将深入探讨这两个概念,其区别及应用场景。

1. 参数(Parameter)

参数是描述总体数据特性的数值。在统计中,总体通常指的是所有观测对象的集合。因为在实际应用中,我们往往难以获得所有观测对象的数据,所以参数多数情况下是一个理论值,不容易直接观察到见的参数有:
  • 总体均值(μ):用于描述总体所有数据点的平均值。例如:一个小镇只有1000名成年人,这1000名成年人的平均身高是170cm。

  • 总体方差(σ²)和总体标准差(σ):用于描述数据分布的离散程度。例如,在工厂中,机器总共生产了1000个产品,这些产品标准重量为1公斤,重量的方差是25克,这表示产品重量的波动性相对较小;一个小城市的10,000名居民的年收入标准差是10,000元。这意味着大多数居民的收入都在平均值的上下10,000元范围内。

  • 总体比例(P):用于描述某一分类变量中某一类的比例。例如,在只有10,000名成年人口的城市中,3000人拥有大学学位,那么,拥有大学学位的人口比例P=0.3或30%。

  • 总体偏度(Skewness):用于描述数据分布的不对称性。例如:在某个小城市,房价主要集中在200,000元到300,000元之间,但有10栋房子的价格超过1,000,000元,这导致了数据的正偏。

  • 总体峰度(Kurtosis)用于描述数据分布的尖锐或平坦程度。例如:某只股票在100天内的日回报率大多数都在-1%到1%之间,但有5天的回报率超过了5%或低于-5%。这意味着数据具有较高的峰度,因为有极端值存在。

2. 统计量(Statistic)

统计量是基于样本数据计算得出的数值,用于对总体参数进行估计。与总体的参数对应,常见的统计量有:

  • 样本均值: 用于描述本中所有数据点的平均值。例如,假设一个国家有1000个城市,你抽取了其中10个城市的样本,并测量了每个城市的空气质量指数(AQI),这10个城市的AQI均值就是样本均值。假设城市AQI数据为[50, 55, 52, 58, 53, 54, 51, 56, 57, 52],则样本均值为[50, 55, 52, 58, 53, 54, 51, 56, 57, 52]的和除以样本数量10,最后可得 53.8。
  • 样本方差:用于描述样本中的数据点与样本均值的差异。例如,使用上面空气质量的数据,我们可以计算这些数据的样本方差来了解AQI的波动情况。样本方差的计算公式为:

图1 样本方差的计算公式

请注意,我们使用 n−1 作为分母而不是
n。这是因为我们计算的是样本方差,而不是总体方差。这种做法称为贝塞尔校正,其目的是提供对总体方差的无偏估计。主要考虑是样本均值很少恰好等于总体均值。通常,样本均值会更接近于样本中的观测值,这导致了低估总体方差的风险。减1之后,得到的方差结果更大,减轻了低估的风险。
  • 样本标准差: 样本方差的平方根,用于描述样本中的数据点如何围绕样本均值分布。
  • 样本中位数:将样本数据排序后位于中间位置的数值。例如,上面AQI数据排序后为 [50, 51, 52, 52, 53, 54, 55, 56, 57, 58],中位数是 53.5。如果数据集合有奇数个数,中位数是中间的数。如果有偶数个数,中位数是中间两个数的平均值。
  • 样本比例: 用于描述样本中某一特定属性的比例。例如,如果我们对1000个人进行调查,了解他们是否喜欢在周末进行户外活动,喜欢户外活动的人占样本的比例就是样本比例。如果在这1000人中有700人喜欢户外活动,则样本比例为0.7。
  • 样本偏度:用于描述样本数据分布的不对称性。例如测量一组房价数据,样本偏度可以告诉我们房价是向高价偏斜还是向低价偏斜。
  • 样本峰度: 用于描述样本数据分布的尖锐或平坦程度。例如测量学生考试成绩的分布,样本峰度可以反映成绩是否集中,是否有极端的高分或低分。

这些统计量可以帮助我们对总体参数进行估计,并对数据集的特性有一个直观的了解。通过使用这些统计量,我们可以对数据进行更进一步的分析和解释。

3. 如何选择和使用

参数和统计量在不同的情境下使用,下面我们来看看它们各自的应用场景:

  • 参数 (Population Parameters)

应用场景:当我们对总体的所有成员都有信息时,我们使用参数来描述总体的特性。
示例:如果一家公司想要了解其所有员工的平均工资,而公司有员工的完整数据,那么计算的就是工资的总体平均值,这是一个参数。
特点:参数是固定的,因为它描述的是整个总体。
  • 统计量 (Sample Statistics)

应用场景:当我们只能收集总体的一个子集(样本)的数据时,我们使用统计量来对总体参数进行估计。
示例:如果一个研究者想要了解一个国家所有居民的平均工资,但他们无法收集所有人的数据,他们可能会随机选择一些人作为样本,然后计算样本的平均工资。这个样本均值是一个统计量,用于估计总体平均工资这个参数。
特点:统计量是随机的,因为它们是基于样本计算的,而样本是从总体中随机抽取的。不同的样本可能会导致不同的统计量值。
  • 使用原则

  1. 当你有整个总体的数据时,计算参数。
  2. 当你只能获得总体的一个样本时,计算统计量,并用它来估计总体的参数。
  3. 总体参数通常是未知的,而统计量是已知的。我们使用统计量来对未知的总体参数做出最好的猜测。统计学的许多方法,如置信区间和假设检验,都是基于从样本统计量到总体参数的推断。通过这种方式,我们可以从部分信息中提取出对整体的理解。

本文介绍了统计学中的参数与统计量,下一期我们将介绍如何使用Python代码计算及可视化这些统计量,敬请关注。


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存