查看原文
其他

大数据的精细化革命:超越传统抽样的洞见 |【研究方法】专题

The following article is from 群学经纬 Author 许琪


编者按

在新时代信息化技术的浪潮中,大数据研究的重要性日益凸显。与传统的随机抽样方法相比,它提供了一种全新的视角和研究工具。大数据以其庞大的数据量,有效减少了抽样误差,但同时也带来了覆盖偏差的挑战。无论是传统的抽样调查还是号称是“全体数据”的大数据,都可能存在覆盖偏差,即抽样框与调查目标不一致所带来的偏差。


然而,对大数据这种争议不断的方法,方法论相对主义的研究立场更加重要。正如萨尔加尼克所言,没有一种方法是绝对正确的,也没有一种方法一无是处。大数据研究与传统随机抽样方法各有所长,尽管一个中等规模的样本足以满足基本分析需求,甚至在某些情况下可以媲美普查,但这并不意味着大样本就没有其独特的价值。


大数据的真正价值在于其能够提供对稀有事件的深入分析,揭示总体异质性,并发现细微的差异。这种精细化的研究能力,是传统随机抽样难以企及的。在大数据的驱动下,研究者可以超越简单的统计推断,实现对复杂现象的全面理解和预测,大数据研究方法正逐渐成为探索未知、验证假设、指导决策的重要手段。在挖掘与探索的过程中,大数据的精细化分析能力,将成为推动知识发现和创新的关键力量。


大数据的精细化革命:超越传统抽样的洞见

(原标题为:《大数据大在何处:数据量大的价值及分析策略》,现标题为编者所拟)


作者:

许琪,南京大学社会学院


引文格式(GB-2015):

许琪.大数据大在何处:数据量大的价值及分析策略[J].社会研究方法评论,2022,1(01):89-110.

内容提要

本文从“数据量大”这一个角度分析了大数据相比抽样调查的优势以及研究者应该如何利用好这一优势开展大数据研究。主要结论为:第一,大数据可以消除随机性抽样误差,但由此带来的估计精度上的提升并不大,而大数据在覆盖偏差方面的缺陷使其在代表性上往往不如传统抽样调查;第二,大数据是一个非概率样本,但因为其数据量极大,研究者可以通过非常精细的事后分层调整获得对总体真值的有效估计;第三,利用数据量大的优势,研究者可以使用大数据更好地研究稀有事件,分析总体异质性并发现细微差异,所以,数据量大的真正价值在于“细”,即研究者应当使用大数据开展更加精细化的研究。

关键词

大数据;抽样误差;覆盖偏差;非概率样本;事后分层


一、引言


近年来,随着移动互联网、电子传感器等电子信息技术和通信技术的迅猛发展以及计算机在存储和分析大规模数据方面能力的增强,大数据正以一股不可逆转之势席卷商界、政界和学界。与商界和政界对大数据相对开放和包容的态度不同,学术界关于大数据的争论始终不绝于耳。一些学者旗帜鲜明地指出,社会科学应当“拥抱大数据”(孙秀林、施润华,2016),认为大数据为社会科学研究提供了新的数据来源、新的分析工具、新的理论化方向,甚至一种新的研究范式(刘林平等,2016;陈云松等,2016;罗玮、罗教讲,2015)。但与此同时,也有不少学者批评大数据(鲍雨,2016;赵超越,2019),认为大数据剪裁现实生活、忽视社会情境、抹煞主体建构、取消生活意义,以致从其诞生之初就带有“原罪”(潘绥铭,2016)。本文无意对上述争论进行评判,因为社会科学的研究方法本身就是多元的,任何一种方法都有其优势,也有其缺陷,没有一种能绝对压倒另一种。长期以来,社会科学内部就有科学与人文之争,现在则有定性与定量之争、小数据与大数据之争等,这种争论永远不会停止。与其进行无休止的争论,不如充分认识并利用好每一种方法的优势,使其更好地为社会科学研究服务。基于上述认识,本文旨在从“数据量大”这一个角度探讨大数据的价值以及如何正确利用大数据的这一优势开展社会科学研究。


当下关于大数据的研究普遍认为,数据量大是大数据的一个本质特征,也是大数据和抽样调查数据在直观上最明显的区别。例如,维基百科就是根据数据的量级来定义大数据的,认为大数据是“数据量规模大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息”的数据(转引自:张文宏,2018)。在一些关于大数据的著作中,学者们通常用3个、5个或7个以V开头的英文单词概括大数据的特点,但无论如何,数据量大(volume)始终是其中之一,且通常排在首位(Salganik,2018)。这种对数据量大的强调结合“大总比小好”的一般性认知使得社会各界都对大数据存在一种普遍乐观的判断,即大数据至少在数据量上拥有小数据无可比拟的优势。但是,这种判断却很少经过充分的理论思考和实证检验。如果说数据量大是大数据的一种内在优势,那么它体现在哪里?与传统的抽样调查相比这种优势有多大?社会科学家该如何利用大数据的这一优势开展社会科学研究?对这些问题,以往的研究不仅很少涉及,而且包含不少认识上的错误。本文将结合理论和案例论证数据量大对大数据的真正价值,反思一些研究对大数据的盲目崇拜,指出数据量急剧提升之后的研究进路和分析策略,从而为更好地开展大数据研究提供帮助。



二、大数据与抽样误差


如前所述,大数据的一个显著特点就是“大”。而且,大数据的“大”不仅是就其数据量本身而言,更重要的是其所宣扬的“要总体而非样本”的数据采集理念。正如维克托·迈尔-舍恩伯格和肯尼斯·库克耶(2013)所指出的,大数据相对于抽样调查数据的一个本质特征就是大数据“不是随机样本,而是全体数据”。换句话说,大数据的采集可以跳过抽样环节,而直接面对总体本身。正因如此,很多大数据的使用者宣称自己采集的数据没有抽样误差。但事实果真如此吗?要回答这个问题,就必须先弄清楚什么是抽样误差。


(一)大数据与随机性抽样误差


抽样误差是抽样调查领域的一个专业术语,它有广义和狭义之分。狭义上的抽样误差特指在抽样环节产生的随机性误差(Groves et al.,2009)。这种误差是样本的随机波动导致的,只要采用抽样,就必定会有随机性抽样误差。而要彻底消除这种误差,就必须进行普查。大数据的支持者认为,大数据是一个“全体数据”,也即普查数据。所以从这个角度来说,大数据确实没有随机性抽样误差。但是,这仅仅是基于抽样理论的推演,在实践层面,我们还需追问的一个问题是,大数据能将随机性抽样误差降低多少?或者说,与通常使用的抽样调查数据相比,大数据在降低随机性抽样误差方面的优势有多大?


要回答这个问题,我们首先看一下表1。这张表描述了在简单随机抽样条件下在不同的置信水平和允许误差范围内所需的最小样本量。从该表可以发现,如果置信水平为95%、允许误差为3%,我们只需调查1067人就足够了。这并不是一个很大的样本,但是就一般的分析和预测来说已经足够精确了。所以在一些抽样调查专家眼中,抽样是一个非常经济且有效的方法,以至于基什早在20世纪60年代就建议美国政府,没有必要再做十年一次的人口普查,而应改为更加频繁的抽样调查(Kish,1965)。因为在基什看来,一个设计良好的抽样调查完全能够胜任普查的基本功能,而且比普查便宜得多。


表1 简单随机抽样条件下不同的置信水平和允许误差范围对应的最小样本量

资料来源:袁方、王汉生,1997,《社会研究方法教程》,北京:北京大学出版社。


抽样调查真的能替代人口普查吗?不熟悉抽样调查的读者可能会对此感到疑惑。但事实确实如此,我们可以通过北京大学社会科学调查研究中心执行的2010年“中国家庭追踪调查”(CFPS)数据与第六次人口普查数据的对比来说明这一点。图1的左半部分是根据2010年第六次人口普查数据绘制的中国人口的性别年龄金字塔,而右半部分则是根据2010年的CFPS数据绘制的性别年龄金字塔。从肉眼来看,二者几乎没有差别。但是,右图是基于一个3万余人的样本得到的,而左图基于的则是13亿多人的人口普查。


通过上述分析可以发现,如果抽样方法使用得当,一个中等规模的样本完全可以满足基本的分析需求,甚至不输于普查。这是不是意味着大样本就没有用处呢?当然不是,从表1可以发现,样本量越大,抽样的随机误差就越小,同时我们进行统计推断的把握性也越高,所以大样本还是能提高抽样精度的。不过,样本容量增加所能带来的抽样精度的提高是边际递减的。从表1可以发现,同样是95%的置信水平,允许误差从3%降到2%只需额外调查1300多人,从2%降到1%就需额外调查7200多人,而要从1%降低到0就要进行普查。总而言之,大样本虽好,但一味追求大样本并没有太大必要。特别是将调查成本与收益合在一起考虑以后,传统的抽样调查一般不会选择太大的样本。


图1 2010年人口普查和CFPS2010的性别年龄金字塔


但是,大数据与传统抽样调查的一个重要区别在于,它的采集成本不会随数据量的增加而急剧上升。这导致在很多情况下,大数据的使用者没有必要在已获取的全体数据中再抽一个样本。但是,我们不该因此就对大数据在估计精度上抱有太高的期待,也不该因此对抽样调查数据过分贬损。因为从前文的分析不难看出,大数据虽然可以消除随机性抽样误差,但因此带来的好处并不大。而且,一旦我们综合考虑更加广泛且隐蔽的抽样偏差(sampling bias),那么大数据在降低随机性抽样误差方面的优势可能根本不值一提。


(二)大数据中的覆盖偏差


前文曾指出,狭义上的抽样误差特指随机性抽样误差,但从广义上讲,抽样误差还包括非随机性的抽样偏差。这种偏差不是因为抽样所致,所以也不会因为样本量无限增大或采用普查而得以消除。因此,即便是以“全体数据”著称的大数据也依然会存在抽样偏差,特别是覆盖偏差(coverage bias)。


覆盖偏差指的是调查总体与抽样框不一致导致的偏差。在调查研究中,调查总体是研究者想要推论的目标总体,这个总体往往过于抽象,在实践中必须先操作化为一份具体的名单,才能实施后续的抽样。这份名单就是抽样框。在理想情况下,抽样框要与调查总体中的元素做到一一对应,不重不漏。但实际上,这种完美的抽样框很难获得,因此,几乎所有抽样调查都或多或少存在覆盖偏差。以前文所说的CFPS为例,该调查的目标总体是2010年拥有中国国籍且居住在中国的公民。但因为各种缘故,实际使用的抽样框仅覆盖了25个省、市和自治区的人口,覆盖面约占调查总体的94.5%(谢宇、胡婧炜、张春泥,2014)。那些没有被抽样框覆盖到的部分就有可能产生覆盖偏差,只不过因为CFPS的抽样框与调查总体很接近,这种偏差并不严重。但是,如果使用的抽样框与调查总体差异很大,就有可能产生非常严重的覆盖偏差。


1936年发生的“兰顿总统”事件是说明覆盖偏差的一个绝佳案例。虽然这个案例发生于80多年之前,但它对当下大热的大数据依然有很多启示。在1936年美国总统大选前夕,一个叫《文学文摘》的杂志想要通过民意调查来预测大选结果。为了达到这个目的,野心勃勃的《文学文摘》决心开展一次史上规模最大的民意调查——调查1000万人(这在当时绝对可以称得上大数据了)。调查结果显示,兰顿的支持率高达57%,而作为竞争对手的罗斯福的支持率只有43%,因而该杂志放出豪言,说兰顿将以史上最大的优势击败罗斯福成为新一任美国总统。然而,实际的结果却是罗斯福以史上最大的优势(61%的得票率)击败了兰顿。结果公布以后,舆论一片哗然。作为调查发起者的《文学文摘》自然英明扫地,这连带整个抽样调查界都受到了波及。既然一个覆盖1000万人的调查都能出现如此大的偏差,那还有什么调查是可以相信的呢?为了挽回声誉,抽样调查界开始彻查这次调查失准的原因。结果发现,其中最重要的一个原因是调查的抽样框选择不当。《文学文摘》的调查样本是从美国当时的电话簿和车牌登记名单中选出的,这大概只覆盖了全美35%的人口。更为糟糕的是,在1936年美国经济大萧条时期,能用得起电话和开得起汽车的都是高收入者,这些人的政治态度比较保守,大多反对罗斯福的新政;相比之下,罗斯福的改革赢得了很多穷人的支持,当占美国人口主体的穷人都把票投给罗斯福以后,罗斯福以压倒性的优势当选也就不足为奇了。“兰顿总统”事件在抽样调查史上具有极为重要的意义。一方面,这次事件以后,覆盖偏差作为一个重要的误差来源开始进入抽样调查研究的视野;另一方面,这次事件也破除了调查界对大样本的迷信,自此之后,抽样调查界开始更加理性地看待样本容量问题。而这两方面也可以帮助我们更加清醒地认识以数据量大著称的大数据。


前文提到,覆盖偏差是抽样框与调查总体不一致而导致的偏差。在“兰顿总统”事件中,《文学文摘》想要调查的目标总体是所有美国选民,而抽样框则是电话簿和车牌登记名单,由于二者存在很大出入,这导致其调查结果与最终票选结果存在很大偏差,而且,这种偏差不会因为《文学文摘》把电话簿和车牌登记名单上的美国人都调查遍(即不抽样)就能消除。总而言之,有无覆盖偏差与普查还是抽样调查没有直接关系,因此,无论是传统的抽样调查还是号称是“全体数据”的大数据,都可能存在覆盖偏差。而且在很多时候,大数据的覆盖偏差问题比传统抽样调查更严重、更隐蔽。


举例来说,当下很多学者使用的大数据源自互联网,如使用微博数据研究社会心态。当然,微博数据确实包含很多有价值的信息,而且相比抽样调查数据在很多方面具有得天独厚的优势(如实时性和低成本)。但不可否认的是,使用微博的只是一部分人,而且在所有微博用户中也有活跃和不活跃之分。既然如此,那么微博数据真正反映的是谁的心态呢?微博用户?网民?还是其他未知的总体?我想这个问题很难回答,但有一点是确定无疑的,它肯定不是一些研究者所宣称的全体公民。这些研究者的错误在于偷换了一个概念,即:将微博数据的总体(抽样框)等同于全体公民(调查总体),而且这个错误无法通过搜集全体微博数据来弥补。就像在“兰顿总统”事件中,即使《文学文摘》能够将电话簿和车牌登记名单上的美国人一网打尽也不能扭转其预测失败的结局。


在大数据应用领域,类似这样无视覆盖偏差的例子并不罕见。而且,大数据本身的数据量极大,这很容易使研究者和受众产生一种幻觉,即大数据不存在代表性问题,就像1936年的美国民众在看到《文学文摘》做的1000万人调查时产生的幻觉一样。我想,在一个数据量爆炸的时代,我们只有比1936年的美国人更加清醒,才有可能从琳琅满目的大数据中获取有价值的东西。



三、作为非概率样本的大数据


综上所述,从降低抽样误差的角度看,大数据并未因为数据量大而比抽样调查高明很多。虽然以全体数据著称的大数据可以将随机性抽样误差降为0,但只要抽样方法使用得当,抽样调查也可将这种误差控制在一个可接受的范围内。而且,如果考虑非随机性的覆盖偏差,那么大数据相比抽样调查反而处于劣势。由于大数据往往缺乏定义明确的目标总体,一些学者甚至认为,大数据在本质上就不是概率样本,而是非概率样本(金勇进、刘展,2016)。


众所周知,抽样调查领域存在两种不同的抽样方法:一是概率抽样,二是非概率抽样(巴比,2020)。尽管在调查研究发展的早期,这两种抽样方法都在被使用,但如今概率抽样已处于绝对的主导地位,而且很多研究人员对基于非概率抽样得到的结论持极度怀疑的态度(Salganik,2018)。这主要是因为通过非概率抽样得到的样本缺乏明确的目标总体,更无法对总体进行严格的统计推断。正因如此,一些大数据的支持者不愿意接受大数据是非概率样本的事实。然而,正如下文将要指出的,大数据由于其数据量大这一得天独厚的优势,反而使非概率样本具备了推断总体的条件。而且,随着大数据的流行,非概率抽样这一逐渐被学界摒弃的抽样方法有可能在不久的将来重获新生。


(一)对非概率样本的事后分层调整


从理论上讲,非概率样本无法推断总体。但是,基于一些假定,并通过恰当的统计调整,基于非概率样本依然可以得到对总体的准确推断。现有研究已经提出了多个基于非概率样本的统计调整方法(金勇进、刘展,2016),本节要着重介绍的一种方法是事后分层(post-stratification)。


对非概率样本的事后分层调整并不复杂。首先,我们需要根据一定标准将样本分为k个层,并计算样本中每个层占样本的百分比(p1、p2…pk)以及研究的核心变量(如Y)在每个层的均值( Ȳ1、Ȳ2 … Ȳ k )。然 后 , 我 们 还 需 再 算 出 总 体 中 每 个 层 的 占 比( P 1 、P 2 …P k )。最后,基于以下公式,就可以得到经过事后分层调整以后的 Y 的总体均值的估计值。


从公式1不难看出,事后分层在本质上就是一个加权平均,其权重 (wi ) 为各层在总体中的百分比与样本百分比之比。

该方法得以成立的一个前提条件是基于样本计算得到的层内样本均值( Ȳi )与总体真值 ( μi ) 相等。那么在什么情况下,这个前提条件才能得到满足呢?这个问题很难回答,但学者们普遍认为,层的划分越细,Ȳi = μi 越可能得到满足(Salganik,2018)。


举例来说,我们想要通过一个非概率样本估算育龄妇女的意愿生育水平。考虑到直接计算会产生较大的偏差,所以参照以往研究,我们决定采用事后分层法进行调整。首先,考虑到城市和农村的生育意愿差异很大,我们先将样本分为城市和农村两个层,并计算出样本中城市和农村的占比,总体中城市和农村的占比以及样本中城市和农村育龄妇女在生育意愿上的均值。根据公式(1),我们可以很容易地算出对城乡这一个变量进行事后分层调整以后的平均生育意愿。但是,这步调整是否有效在很大程度上取决于总体中分城乡的生育意愿与样本中的结果是否相同。考虑到除城乡之外,样本中育龄妇女的构成与总体还存在很多其他方面的差异,如样本中育龄妇女的年龄可能偏小,而年龄也是影响生育意愿的一个重要因素,因此,仅根据城乡分层无法得到准确的结果。那该怎么办呢?通常的做法是在城市和农村内部继续分层。例如,我们可以在城市和农村内部再按受访者的年龄分层,并按照与之前类似的方法,算出对城乡和年龄两个变量进行事后分层调整以后的平均生育意愿。这样,我们就可以完全排除城乡和年龄两个变量对估计结果的干扰。但是,这样可能还不够,我们可能还需要继续根据教育、收入、职业、地域等多个变量分层,以排除尽可能多的干扰因素。如果这一过程可以无止境地进行下去,那么事后分层的效果必然会越来越好。但是,随着分层指标的增加,层也会变得越来越细,如果层分得过细,每个层内部的样本量就会不足,甚至出现空层。这是一个矛盾,特别是在样本量有限的情况下,这种矛盾没有办法得到解决。但是,如果我们面对的是一个大数据呢?


(二)大数据如何助力事后分层


为了说明大数据如何助力事后分层,我们先看一个案例。这个案例也与美国的总统大选有关。前文曾经提到1936年的“兰顿总统”事件,这一事件告诉我们,如果使用的是一个非概率样本,那么样本量再大也无济于事。但是,接下来将要介绍的这个案例将在很大程度上改变这种看法。


事情发生在2012年,这次竞争的对手是罗姆尼和奥巴马。与以往的美国总统大选类似,在结果公布之前,很多民意调查公司都在通过传统的电话调查法对大选结果进行实时预测。与此同时,王伟等四名学者(Wang et al.,2015)也在进行预测。但是与那些民调公司的做法不同,他们基于一个由游戏用户组成的非概率样本进行预测。尽管他们所用的样本量很大(345858人),但早年《文学文摘》的惨败经历使得他们的预测结果并不被同行看好。特别是,他们的样本构成与美国选民差异很大。例如,18~29岁选民在总体中占19%,而在王伟等学者的样本中却占65%,男性选民在总体中占47%,而在他们的样本中则占93%。基于一个偏差如此之大的样本,直接计算必然会产生非常有误导性的结果。王伟等人直接从样本计算发现,罗姆尼将以绝对优势战胜奥巴马(事实上最终获胜的是奥巴马),这样的结果很容易让人想起1936年的“兰顿总统”事件。但是,在使用一种被他们称为基于多层次回归模型的事后分层调整法(multilevel regression with post-stratification,MRP)之后,王伟等学者得到了与实际大选结果非常接近的样本估计值,其估计精度甚至比民意调查公司还要高。


具体来说,他们首先按照性别(2类)、种族(4类)、年龄(4类)、教育程度(4类)、州(51类)、党派(3类)和意识形态(3类)以及2008年大选时的投票选择(3类)将样本分为了176256个层,然后采用上一节介绍的事后分层法对计算结果进行调整。值得注意的是,由于他们的样本量很大,这使得他们可以进行非常细致的分层。但即便如此,仍有一些层的样本量很小,甚至为0。为了避免这些层对估计结果的干扰,他们使用了多层次回归模型,以对那些样本量很小的层进行更加稳健的估计。在这个例子中,王伟等学者使用的仍是一个样本量有限的调查数据,而不是真正意义上的大数据。可以想象,如果他们可以获得大数据,那么完全可以进行更加细致的分层,甚至无需使用多层次回归模型就可得到最终结果。由此可见,数据量大是进行有效事后分层调整的必备条件,而以数据量大著称的大数据无疑在这个方面具有得天独厚的优势。因此,虽然大数据在本质上是非概率样本,但依然可以对总体进行较为准确的推断。



四、大数据的三种分析策略


上文的各种讨论都是围绕代表性问题展开的。我们认为,大数据在代表性上并不比传统的抽样调查更有优势,如果真要说有什么优势的话,那么它也只是针对非概率样本而已。因此,数据量大并不能确保研究者基于大数据就一定能得到比传统抽样调查更加准确的结论。但是,当研究者面临以下三种情况时,大数据却会拥有小数据所无法比拟的优势(Salganik,2018)。


(一)研究稀有事件


首先,大数据特别适合用于研究稀有事件。稀有事件指的是发生率很低的事件,因为发生率低,抽样调查的代表性往往出现不足。举例来说,笔者曾使用2005年全国1%人口抽样调查数据研究中国人使用母亲的姓和新复姓(将父姓和母姓结合起来)给子女命名的趋势和影响因素(许琪,2021)。在中国“子随父姓”传统的影响下,随母姓和新复姓的发生率都很低(约1%),如果我们使用传统的抽样调查数据,很难得到什么有价值的发现。这主要是因为抽样调查数据的样本量多在1万人左右,基于这样的数据规模,我们根本无法准确估算总体中随母姓和使用新复姓的百分比,更不用说去研究这两种现象随时间的变动趋势和地区差异了。而2005年全国1%人口抽样调查数据的样本量达到了258万,这就为我们全面研究中国人随母姓和使用新复姓这两个稀有事件提供了便利。


上文所举的例子使用的不是一般意义上的大数据,但也足以说明数据量大对研究稀有事件的好处。下面,我们将再举一个大数据的例子。米歇尔等人曾使用谷歌图书大数据研究不同词汇的使用趋势(Michel et al.,2011)。他们所用的语料库包含超过5000亿个单词,时间跨度超过4个世纪,如果将这些单词写成一行,其长度大约可在地球和月球之间往返10次。面对这样一个大数据,无论其使用者还是读者都会感到无比惊叹。但在惊叹之余,使用者和读者们也必须思考一个问题,即如果数据量没有这么大会怎么样?正如萨尔加尼克所指出的,使用者和读者必须思考:如果数据量只够从地球和月球之间往返一次或者更少,结果又会如何(Salganik,2018)。仔细阅读米歇尔等人的研究可以发现,他们确实需要这样大的数据,因为他们的一个核心议题是不规则动词的使用率如何随时间变化,考虑到一些不规则动词的使用率非常低,寻常的语料库根本无法支撑起这样一项研究,所以,他们必须使用像谷歌图书这样的大数据。


(二)分析异质性


其次,适合使用大数据研究的第二种情形是分析异质性。在这个方面的典型案例是切蒂及其同事对美国社会流动率的研究(Chetty et al.,2014)。萨尔加尼克曾对之进行了非常充分的介绍(Salganik,2018)。


父母社会经济地位对子代地位获得的影响是社会学研究领域的一个经典议题(Hout&Di Prete,2006;Blau&Duncan,1967)。很多研究人员通过对比父子两代的社会经济地位来分析社会流动,其基本研究结论是:父母社会经济地位越高,子代的社会经济地位也越高。但是,代际之间在社会经济地位上的关联程度在不同时期和不同社会也存在非常明显的差异。受限于研究数据,以往的研究很少对这种异质性进行深入分析,而切蒂及其同事使用4000多万美国人的纳税记录对这个问题进行了开创性研究。他们发现,在美国的不同区县(county),社会流动率之间的差异很大。例如,在加利福尼亚州的圣何塞,如果一个小孩出生于全美收入等级最低1/5的家庭,那么他的收入跃居全美收入水平最高1/5的概率约为13%;而在北卡罗来纳州的夏洛特,这一概率仅为4%。而且,他们的进一步研究还发现,一个地区的社会流动率与该地区的居住隔离程度、收入不平等水平、教育资源、社会资本和家庭稳定性等指标密切相关。毫无疑问,这项研究为深入研究社会流动率的地区差异及产生原因具有重要意义。但是,使这项研究得以可能的一个重要前提是,切蒂及其同事获得了样本量极大的收入数据,基于这个数据,他们可以计算出更小地理空间范围内的代际流动率,并将之与其他地区层面的社会经济指标相匹配,而这在以往的小样本研究中是不可想象的。


(三)发现细微差异


最后,使用大规模数据还有助于发现细微但依然有重要价值的差异。以往的很多研究已经发现,随着数据量的增加,统计显著性的价值逐渐下降,因为在一个规模近乎无限的样本中,几乎所有差异都是统计显著的(Blalock,1979)。因此,在大数据研究中,我们更应关注实际显著性,而非统计显著性。但是,对实际显著性的强调在小样本研究中也很重要,只不过与小样本相比,大数据的价值在于能够发现那些小样本无法检验的细微但依然重要的组间差异。


我们在前文曾介绍了王伟等学者对2012年美国总统大选的预测研究(Wang et al.,2015)。这项研究的一个重要贡献是采用了基于多层次回归模型的事后分层法准确估算出了不同候选人的支持率。但是,上述贡献依然不足以充分说明这项研究的价值,因为在王伟等学者进行这项研究之前,美国就已经发展出了非常成熟的民意调查法,并成功预测出了多年的总统大选结果。那么,相对传统的民意调查,王伟等学者的高明之处体现在哪里呢?


一般来说,名义调查的样本量都在2000人左右,这样的样本足以应付一般情况下的总统大选预测(巴比,2014)。但是,如果竞选的双方势均力敌,民意调查的缺陷就暴露出来了,因为基于2000人左右的调查数据,研究者无法准确推断出支持率上的细微差异。2012年的美国总统大选正是这种情况,罗姆尼和奥巴马的支持率一直相持不下,这导致各大民意调查机构始终无法给出一致的预测结果。而王伟等学者使用的样本比一般的民意调查大很多,这使他们能够得到比民意调查更加准确的结果。


通过这个例子不难发现,大数据在发现细微差异方面拥有小数据无法比拟的优势,特别是在这种细微差异足以影响最终结论的情况下。在商业领域,1个百分点的差异可能会影响数以百亿计美元的投资决定;而在公共卫生领域,0.1个百分点的差异就可能关乎成千上万人的生命(Salganik,2018)。因此,当研究者面临类似决策的时候,无疑将更加偏爱大数据。这也是在大数据兴起之后,业界普遍对大数据时代的到来感到兴奋不已的真正原因。



五、总结与讨论


本文从数据量大这一个角度分析了大数据相比传统抽样调查的优势以及研究者应该如何利用好这一优势开展大数据研究,主要结论如下:


首先,从理论上看,作为“全体数据”的大数据确实可以彻底消除随机性抽样误差,但由此带来的估计精度上的提升并不大,一个设计良好的抽样调查也可将随机性抽样误差控制在一个可接受的范围内。而且,如果综合考虑系统性抽样偏差,特别是覆盖偏差,那么大数据在代表性上可能还不如抽样调查。抽样调查往往有定义明确的调查总体,且对抽样框的要求也比较严格,而大数据与目标总体间的关系往往比较模糊,因此,我们不能仅凭数据量大这一点就认为大数据没有抽样误差。实际上,大数据中的抽样误差问题比传统抽样调查更复杂,也更隐蔽。如果大数据与目标总体间的差异过大,那么基于大数据发现的很可能仅是一个更加精确的错误,而不是真理。


其次,由于大数据往往缺乏一个定义明确的目标总体,所以严格来说,很多大数据并不是概率样本,而是非概率样本。以往的研究通常将大数据和基于概率抽样得到的抽样调查数据进行比较,但这种比较实际上是不合适的,对大数据来说,比较合适的比较对象是基于非概率抽样方法得到的非概率样本。与传统的非概率样本相比,大数据的优势非常明显。其原因在于,大数据的数据量极大,这使得研究者可以使用大数据进行非常精细的事后分层并基于事后分层对原始计算结果进行统计调整。由此可见,大数据虽然是一个非概率样本,但数据量大这一内在优势使其可以有效避免一般的非概率样本无法推断总体的缺陷。


再次,本文还指出了研究者使用大数据的三种分析策略:研究稀有事件、分析异质性和发现细微差异。我们认为,大数据相比小数据的一个显著优势在于可以使研究者进行更加精细化的研究。因此,数据量大的真正价值在于“细”,而不在“大”本身。以往的研究通常认为,使用大数据可以提高对研究总体的代表性,但这个观点是不准确的。我们认为,数据量大的真正优势在于提高总体中每个细节的代表性,因此,基于大数据,我们可以分析重要但发生率很低的稀有事件、分析总体内部不同构成部分之间的异质性和细微差异。我们可将这种研究策略称为“精细化研究”,从这个角度说,上文提到的精细化事后分层也可视为精细化研究的一种。我们认为,只有充分认识到数据量大的真正价值,才能正确利用好大数据为社会科学研究和社会经济发展做出更大的贡献。


最后还需说明的一点是,本文的所有分析都围绕“数据量大这一个方面展开,对一些大数据研究的批评也仅针对这一个方面众所周知,大数据作为一种新兴的数据来源,其优势和特点体现在多个方面,如实时性、非反应性、低成本等。本文因篇幅限制,不能面面俱到,但仅从数据量大这一个方面来看,学术界对大数据的很多认识依然流于表面,甚至包含不少错误。因此我们认为,研究者在讨论和使用大数据时一定要保持清醒的头脑,不能被其表面现象所迷惑。最重要的是,要保持一种方法论相对主义的立场。就像本文在开头所提到的,社会科学的研究方法是多元的,没有一种方法具有绝对的压倒性优势。因此,在使用任何一种方法时,都必须先思考一下,是不是一定要用这种方法?与其他方法相比这种方法的优势在哪里?目前正在进行的研究是否能充分发挥这一优势?我们认为,方法论相对主义的研究立场不仅有助于避免对某一种方法的盲目跟风,也有助于避免对某些方法不切实际的批评。对大数据这种依然存在争议的方法,方法论相对主义的研究立场更加重要正如萨尔加尼克所言,没有一种方法是绝对正确的,也没有一种方法一无是处。只要一种方法适用于当前的研究问题,无论其本身是否完美,就是应当采用的方法(Salganik,2018)。我们认为,这样一种方法论相对主义的研究立场对大数据同样适用。


(因篇幅限制,参考文献从略)


〇 荐稿:陈茜

〇 排版:汪悦如

〇 审校:胡文江 大兰

继续滑动看下一个
比较中的政治研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存