手把手教你SPSS实现随机抽样的两种方法
我们在进行科学研究时,常常会强调一个非常重要的概念——“随机化”。随机化的过程主要分为两大类:随机抽样和随机分组,它们在样本选取和分组方案中占有至关重要的地位。
随机化按照数学概率的原理,使研究对象有同等的机会被抽中或被分配到某一处理组,结果不受人为因素的干扰和影响。如果没有遵循随机化的原则,抽取了一个有偏的样本,或者分组不均衡,这样即使得出了结论,也无法推论到总体,因此随机化是提高样本代表性及组间均衡性的重要方法,随机化过程的优劣直接关系到研究结果的可靠性。
随机化的概念虽然早已深入人心,但是在具体的随机化操作过程中,很多研究者往往误把“随便”“随意”当成“随机化”,从而形成“伪随机化”的假象,归根结底还是因为大家并不清楚到底该如何有效的实现随机化。
为此,小咖打算专门用几期的内容,向大家分别介绍一下随机抽样和随机分组的内容以及软件实现过程。
随机抽样
随机抽样,即遵循随机化原则,保证总体中每个个体都有独立的、已知的、非零的概率被抽中作为研究对象。若样本量足够大,数据代表性好,随机化效果好,调查结果则会更可靠,可以将抽样结果推论到总体。
常用的随机抽样方法主要包括简单随机抽样、系统抽样、分层抽样、整群抽样和多阶段抽样。
1. 简单随机抽样(也叫单纯随机抽样,simple random sampling)
简单随机抽样是最简单、最基本的抽样方法。它是从总体N个样本的抽样框中,不考虑样本之间的任何关系,完全随机地依次地抽取n个样本,构成一个抽样样本。
它的特点是:每个样本被抽中的概率相等,样本之间完全独立,彼此没有一定的关联性和排斥性。简单随机抽样方法是其它各种抽样形式的基础,通常用在总体之间差异程度较小,且总体数量有限、数目不是太大的情况下。如果总体数量太大,编号工作就较为繁重,抽到的样本也较为分散,导致资料收集困难。
2. 系统抽样(也叫机械抽样或等距抽样,systematic sampling)
系统抽样就是先将总体(N)的各个样本按照一定的顺序进行排列,根据抽样容量(n)的要求来确定抽样间隔(K=N/n),然后在第一组中随机确定一个起点,从该起点开始机械地每间隔K个距离依次抽取样本,直到抽够n个样本为止。
它的特点是:抽出的样本在总体中是均匀分布的。等距抽样是实际工作中应用较多的方法,目前对我国城乡居民收支等调查,都是采用这种方式。
3. 分层抽样(stratified sampling)
分层抽样就是先将总体根据其属性特征分成若干个层,然后在每一层中,单独地进行简单随机抽样,最后将各层抽出的样本组成一个总的抽样样本。
分层抽样又分为两类,一种是按比例分配分层随机抽样,即每一层内抽样的比例相同;另一种是最优分配分层随机抽样,每一层抽样比例不同,内部变异小的层,抽样的比例小,反之变异大的层抽样比例大。
它的特点是:通过分层将内部变异较大的总体分为内部变异较小的若干层,这样更容易抽出具有代表性的调查样本,抽样误差小,结果的精确度高。该方法适用于总体情况复杂,个体之间差异较大,且个体较多的情况,能够保证每一层都有个体被抽到。
4. 整群抽样(cluster sampling)
整群抽样是将总体分成多个群组,在抽样时随机抽取其中的部分群组作为观察单位,构成一个样本。如果把抽到的群组内的所有个体都作为调查对象,则称为单纯整群抽样。如果在抽到的群组内,通过再次随机抽样后调查部分个体,则称为二阶段抽样。
整群抽样在实际的应用中,更容易组织和实施,节省人力和物力。但整群抽样的抽样误差在这几类抽样方法中是最大的。
5. 多阶段抽样(multistage sampling)
多阶段抽样常常用在大型的流行病学调查中,它把抽样过程分为多个阶段进行,将上面介绍的几种抽样方法结合起来应用,每个阶段使用的抽样方法可以相同,也可以不同。
多阶段抽样首先从总体中抽取较大的单元,作为一级抽样单元,例如省、市、地区等,然后再从被抽中的一级抽样单元中,抽取范围较小的二级单元,例如县、乡、区等,以此类推最后抽取范围更小的单元(例如村、社区等),作为最终的调查对象。
多阶段抽样可以充分利用每种抽样方法的优势,克服不足,节省人力物力。缺点是需要在抽样之前就要掌握各阶段调查单位的人口资料和特点。
随机抽样SPSS操作(方法一)
一、研究实例
假设某小区一共有330户居民,拟采用简单随机抽样的方法,从中随机抽取33户居民(10%)调查其家庭人均月收入情况,从而推断该小区居民整体的经济收入状况。
二、设定随机数字种子
为了能够使抽样结果具有重现性,在抽样之前,我们需要事先设定一个随机种子。如果没有确定随机种子,那么每一次抽样的结果都会不一样。一般情况下,我们利用进行随机抽样的时间来确定随机种子,例如本例中我们设定随机数字种子为20180415,操作步骤如下:
1. 点击Transform → Random Number Generators(随机数字生成器)
2. 在Active Generator Initialization(活动生成器初始化)框中选择Set Starting Point设置一个起点,并选择Fixed Value设定一个固定的值,在Value框中填写20180415,点击OK完成设定。
三、简单随机抽样
我们首先介绍利用SPSS自带的“选择个案”的功能进行随机抽样。
1. 点击Data → Select Cases(选择个案)
2. 在弹出的对话框中,选择Random sample of cases进行随机抽样,并在Output输出框中,选择Copy selected cases to a new dataset,将随机抽样的样本重新生成一个新的数据集,并将新数据集的Dataset name命名为newdata
3. 点击Sample进行到随机抽样的设置界面
根据抽取样本的大小(Sample Size),SPSS提供了2种方法:
一种是近似法(Approximately),它允许用户按照自己设定的比例进行不重复的抽样,用户不用告诉SPSS抽样的总体有多少个,只需要输入抽取的百分比是多少,SPSS就会按照这个比例从总体中进行抽样。
另一种是精确法(Exactly),对抽取的样本含量的控制是精确的,当用户设定了一个具体的样本大小后,SPSS会严格按照这个数字从总体中随机抽取样本。例如本例中,第一个对话框填入33,第二个对话框中填入330,即33 cases from the first 330 cases,表示在330个总体中随机抽取33个样本。
随机抽样SPSS操作(方法二)
第一种方法我们介绍的是利用SPSS自带的选取样本的功能,下面我们介绍第二种常用的手动设置的随机抽样操作过程。其基本思路为:
1. 对抽样框中的每一对象产生对应的随机数字;
2. 按随机数字由小到大(或由大到小)进行排序;
3. 根据所需样本量,选择相应的排在前面(或后面)的研究对象
一、设定随机数字种子
操作过程同上,目的也是为了保证抽样结果具有可重复性。
二、生成随机数字
1. 点击Transform → Compute Variable
2. 生成一列随机数字,并将其命名为Random。
在Function group(函数组)框中找到Random Numbers(随机数字),并在该组函数中找到Rv.Uniform函数,双击将其选入到Numeric Express(数字表达式)的框中。在函数中分别预设随机数字的最小值(min)和最大值(max),Rv.Uniform函数会在设定的范围内随机生成一系列的数字。
三、根据生成的随机数字进行排序,并选取样本
在新生成的一列随机数字Random处,点击右键选择Sort Ascending(升序排列)或Sort Descending(降序排列),选择前33例或后33例研究对象作为样本即可。
在本期内容中,我们向大家介绍了各种各样的随机抽样方法,并结合SPSS软件介绍了如何进行最基本的简单随机抽样,那么对于较为复杂的随机抽样方法,又该何如用软件实现呢,且听下回小咖分解!
(如果想使用文中数据进行练习,请使用电脑打开以下网址:
http://www.mediecogroup.com/method_article_detail/251/
点击左侧“数据下载”免费下载原始数据)
更多阅读
关注医咖会,轻松学习统计学~
快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看60种SPSS教程。