查看原文
其他

统计学入门(2)——总体与样本

黄宝荣 语言科学漫谈 2024-03-25

图1 总体和样本

夏日将至,炎热的天气使人焦躁不安。街头巷尾的饮品店门前长长的队伍,曾几时何勾起我们开个冷饮店的念头。开冷饮店,了解顾客喜欢哪个品牌的雪糕非常重要。怎么才能知道今年哪个品牌的雪糕卖的最好呢?如果能够知道每个品牌雪糕的销量,那么通过简单的对比就知道哪种雪糕卖的最好。但现实是,厂家可能不会告诉我真实的信息,其他冷饮店老板更不会透漏销售状况。那我们是否就束手无策了呢?
一个理想的方式是我们通过调查哪些顾客购买雪糕以及购买了哪种品牌的雪糕,然后计算每种雪糕的购买人数,简单比较即可。但获取所有购买雪糕的顾客信息似乎成本太高了,甚至可能无法实现。那么我们是否可以随机询问身边的朋友喜欢哪款雪糕来得出哪款雪糕受欢迎的结论呢?这样的判断可靠吗?我们能否利用统计学知识解决该问题呢?
当某种现象吸引了我的注意力,勾起研究兴趣之后,我们便有了研究问题。在统计学的术语中,把想要描述的数据集或刻画我们感兴趣的现象的数据集称为总体(population);样本(sample)则是取自总体的数据子集。总体和样本的定义如下(如图1所示):
  • 统计总体是我们感兴趣的目标的数据集

  • 样本是取自目标总体的数据子集。


从定义上来看,总体和样本的区别较大,样本是总体的一部分。在实际运用中,他们的界限往往会有些模糊,需要从时间空间两方面界定问题,并考虑样本的代表性
下面来看一个例子:
青春的00后已长大,逐步成为消费的主流人群之一。为更好地向00后提供服务,了解他们的消费倾向,发现市场上潜在的商业机会,我们需要开展一项研究。对于该项研究而言,代表感兴趣的现象的数据集是什么呢?
毫无疑问,是00后。再想一下,谁是00后呢?在这个问题中,20年出生的算00后吗?
由于资源有限,所有的数据集都会受到空间和时间的约束。从空间的角度考虑,该研究的00后是中国的00后;从时间的角度考虑,有两个不同的视角:历时和共时(横断面)。历时指一段较长的时间,共时则是指一个具体的时间点。据此判断,结合研究所需的时间,一般设定时间为研究开展的当年。基于以上考虑,从空间和时间把总体控制在:2021年中国具有消费能力的00后人群。20年之后的00后虽然也算传统意义上的00后,但无独立消费能力,所以并不在我们感兴趣的现象范围之内
数据显示,“00后”(2000年到2009年出生人口)为1.63亿人,这是我们本次研究的总体。面对如此庞大的数字,显然无法逐一询问每个人的消费倾向,只能选择其中的一部分人(也就是总体的子集)进行研究,被选中的这部分人构成了该研究的样本
一般情况下,社会调查报告均需披露研究的总体、样本以及样本的选择方法(抽样方法),如《2021年00后人群消费趋势研究报告》的研究方法部分描述了该研究的样本选择方式:9个城市60所中小学的26,815份样本

最近,《南方周末》介绍了2023年3月Nature Human Behavior上发表的论文:《性别、教育扩张和代际:全球教育流动性》(Gender, Education Expansion and Intergenerational:Educational Mobility Around the World)。该研究表明:“拼爹”或许要让位于“拼妈”了,母亲对于孩子教育成就的影响变得越来越重要。
从论文的标题来看,论文中感兴趣的现象是全球教育流动性,即作者提到的 “子女和父母教育地位间的关联是如何随着教育扩张和父母教育配对的变化而变化的。” 那么,这篇论文的总体和样本是如何选择的呢?
论文作者谈到:为了建构分析样本,我们排除了1990年以后出生的人,因为他们在数据采集的时候可能尚未完成学业,我们还排除了65岁及以上的老年人,以尽量减少死亡率偏差,最终选取了来自106个国家及地区的调查数据中在1956年-1990年出生的179万人为分析样本。
但是,作者并未提到论文中的总体,那么论文研究的总体是哪些人呢?按照样本是总体的子集判断,总体是世界范围内1956年-1990年出生的人。研究的样本则是106个国家及地区中位于该阶段的179万人。

     最后,我们再来看看开头的问题,在哪个冰淇淋品牌最受欢迎这个问题上?我们应该怎么从空间和时间上约束总体和样本的范围呢?

或许可以换种思路,从销量着手。最受欢迎的冰淇淋品牌是今年夏天当地销量最高的品牌。如果把品牌雪糕今年夏天在当地的销量作为总体的话,那么它的子集是:今年夏天当地特定人群中的销量。只要找到具有代表性的人群,是不是可以推断总体的情况呢?
本期到此结束,欢迎关注下一期:如何刻画数据——参数与统计量。

参考文献:

威廉·M.门登霍尔(William M.Mendenhall) 著,关静 等 译. (2018). 统计学(原书第6版). 机械工业出版社.
杰拉德·凯勒(Gerald Keller)著,陈岱孙编,夏利宇,韩松涛,李君,张伟译. (2019). 统计学:在经济和管理中的应用(第10版 套装上下册). 中国人民大学出版社
腾讯.(2021). 2021年00后人群消费趋势研究报告.
南方周末.(2023). “拼妈”时代:一项基于179万人的研究表明,母亲越来越重要.
Yang Hu &  Yue Qian. (2023). Gender, education expansion and intergenerational educational mobility around the world. N
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存