查看原文
其他

长文详解统计学中的抽样技术

过儿 大数据应用 2022-10-18

今日份知识你摄入了么?

每当我们遇到统计研究时,都会听到很多不同的统计术语,其中最常听到的术语之一就是抽样。在本文中,我们会带你了解什么是抽样,然后再深入探讨不同抽样技术的细节。


抽样

Sampling


简单地说,抽样是从总体中选择一组(样本),我们再从中收集可用于研究的数据。抽样是研究的一个重要部分,因为研究成果在很大程度上取决于所用的抽样技术。因此,为了得到准确的结果,或想要很好地预估总体的结果,就需要选择合理的抽样技术。


图片:Ryoji发布在Unsplash


我们先从统计学的角度来了解,究竟什么是样本和总体。


总体(Population)是我们从中抽取统计样本进行研究的元素或个体资源的集合,最终我们要对这一整个总体作出结论。总体中包含的元素或个体的数量被称为群体大小(population size)


注:在统计研究中,总体(Population)并不总是指的人。它可以是任何东西,比如印度的羊的数量;美国所有小学生的人数;互联网上所有博客网站的数量。


另一方面,样本又是总体的一个子集,它是你收集数据的特定组。样本中元素或个体的数量称为样本容量(sample size),选择样本的过程就称为抽样(sampling)例如,印度拉贾斯坦邦州的绵羊样本;美国纽约的小学生样本;互联网上的数据科学博客相关的网站样本。


注:样本的大小总是小于总体的大小。


那么,我们为什么需要样本?🤔这是一个很好的问题,👏让我们首先来了解这一点。

为什么我们需要样本?


答案很简单,也很直接。几乎不可能从总体中的每一个个体(或元素)收集数据,因此,抽样有助于我们获得关于整个总体的信息。很明显,结果不可能完全准确,但会接近于整体。此外,重要的是,所选的样本应该要代表总体,不能带有任何偏见。

这是一个从人群中抽取样本的简单图例。


图片来源:作者


抽样技术其实有很多,但我们在这里只讨论一些统计中常见的抽样技术,也不会对这些技术进行太多的比较。


抽样技术

Sampling techniques


简单随机抽样(Simple Random Sampling---SRS)


假设总体是20个人,我们需要从中抽取7人作为样本。为了方便理解,我们给这些人进行编号。现在,我们在1到20之间随机选择7个数字,与这些数字相对的人将成为我们样本的一部分。如果所选数字对应的人已经在我们的样本中,我们就跳过那个数字并选择另一个数字。

 

图片来源:作者


假设我们选4,然后7,然后11,然后20,然后1,然后12,然后20。既然20已经被选过了,那我们再选一个数字,假设选19。为了便于理解,我们把选中的人划掉。


图片来源:作者


注意:


  • 我们跳过重复的数字,因为现实中我们不会对同一个人进行两次调查或采访。

  • 产生随机数有很多不同的方法,你可以通过编程的方式来实现,也可以将所有数字放在一个袋子中,每次选择一个。


这种类型的抽样被称为简单随机抽样(simple random sampling)当总体是同类的时候,这种抽样方法是最合适的。可以注意到,样本中的每个成员都有相等的选择机会(概率),在这种情况下,选择的概率是1/20。


分层抽样(Stratified Sampling)


我们还是用和上面一样的例子。假设这次的样本容量是9。我们根据这些人所穿的衣服的颜色把他们分成不同的组。

图片来源:作者


根据颜色,我们将从这20个人划为4组。这些小群体中的每一个都被称为一个层(stratum),而每一个层都可以被一个特征定义,在这里就是衣服的颜色。因此,层是根据样本成员的先决条件创建的。一个层的成员是同类的,一个层的成员与另一个地层的成员是异类的。因此,当总体本身是异类的,但同类的层可以从中分离出来时,就可以使用这个抽样。


现在,从每一层中选择一个成员,也就是说,从每一层中抽取一个样本。当我们对一个有许多不同层的总体进行抽样时,通常要求样本中每个层的比例应与总体中的比例相同。


为了简单理解这个概念,这里举一个简单的例子:


  • 黑色的比例=(黑色数量/总数量)*样本量= (9/20)*8 = 3.6

  • 红色比例= (4/20)* 8 = 1.6

  • 蓝色比例= (4/20)* 8 = 1.6

  • 绿色比例= (3/20)* 8 = 1.2


如果我们选择近似的数字,可以选4个黑色,2个红色,2个蓝色和1个绿色来代表总体。


注:从单独的层中抽取样本时,可以采用随机抽样或其他任何抽样技术。


整群抽样(Cluster Sampling)


人们经常会混淆整群抽样和分层抽样,但这两种抽样方法是不同的。主要的区别是,在整群抽样中,你用自然组将总体分类。例如,城市街区、学区、年龄、性别等等。


我们再次考虑以上的总体,假设第一排的人住在第36街,第二排的人住在第11街,每一排是一个集群。

图片来源:作者


现在,我们可以从这两个集群中选择一个集群(这可以通过简单的随机抽样完成)。假设我们选择第11街,那么我们将调查住在第11街的每一个人。


注意:我们可以选择随意数量的集群。


整群抽样可以通过两种方式进行:


单阶段整群抽样(Single-stage cluster sampling)

即随机选择整群并调查整群中的每一个成员。


两阶段整群抽样(two-stage cluster sampling):

即首先随机选择整群,然后从被选中的整群中随机选择成员。


系统抽样(Systematic Sampling):


在这种抽样技术中,我们系统地选择成员。在这里是指,通过把所有成员排序为一个列,再以固定间隔选择成员。


让我们考虑一下20个人的样本总体。假设我们要选5个人,我们的系统是从第三个人开始,每四个人选一个。一直这样做,直到我们的样本选定5个人。(勾号代表已选人员。)

图片来源:作者


注意:


  • 为了使每个成员都有平等的选择机会,建议采用随机抽样的方式选择第一个(起点)成员。

  • 系统抽样可能导致偏差。


便利抽样(Convenience Sampling)


它是最简单的抽样技术之一,但也是最危险的抽样技术之一,因为它是根据可用性来选择样本的。比如,调查你办公室里的每一个人,调查当地的每一只猫,这样的人和猫的样本都不能代表总体。


注:应使用随机化方法,让我们的样本能很好地代表总体,并能更接近关于总体的准确结果。


简单抽样技术、整群抽样技术、分层抽样技术和系统抽样技术都是概率抽样技术,都会涉及到随机化。然而,便利抽样是一种非概率(或非随机)抽样技术,因为它取决于研究者选择样本的能力,而非概率抽样技术可能会导致样本和结果的偏差。


还有很多其他抽样技术。例如,目的抽样(Purposive Sampling)配额抽样(Quota Sampling)滚雪球抽样(Referral/Snowball Sampling)等都是非概率抽样技术。多级抽样(Multistage sampling)是一种概率抽样技术。但是,讨论所有的抽样技术已经超出了本文涉及的范围。😐


希望本文能帮你理解这些抽样技术背后的基本概念。😀


参考文献:


这篇文章的灵感来自Steve Mays在YouTube上的一些精彩的视频:

https://www.youtube.com/channel/UC5IFOnQu-C3YmkLJltVAq2A


🙏还有,看看这个名为StatQuest(的神奇频道:

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw


感谢大家阅读这篇文章,可以在评论区分享你宝贵的反馈或建议,阅读快乐!📗🖌

原文作者:Cameron Warren

翻译作者:过儿

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://towardsdatascience.com/sampling-techniques-in-statistics-9c77a39e0948


往期精彩回顾


Google Product Analyst 面经详解

如何为你的数据可视化找到正确的色板?

【面试技巧】如何应变面试三大模式?

狗家/IBM/微软:哪家线上Data Analyst证书求职含金量最高?

探索性数据分析实例——扒了200多天的2万条聊天记录,我发现了群聊的秘密




点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存