查看原文
其他

基本无害 | 实证研究中必须要“自问自答”的四个问题

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第一部分 预备知识

关于问题的问题


正文共3980个字,预计阅读时间12分钟。感谢阅读!

原文位置:第一章,页码范围:pp.3-8。


“我非常详尽地验算过了,”电脑说,“这确实就是答案。我想问题在于——我跟二位实话实说——在于你们其实没弄明白问题究竟是什么。”

——道格拉斯·亚当斯,《银河系搭车客指南》

本章简要地讨论了一个成功的研究项目所应具备的基础。就像圣经故事《出埃及记》一样,一项研究议题可以围绕以下四个问题展开。这些问题是实证研究者需要经常问自己的问题(简称FAQs),它们也确实值得我们这么做。这些问题是:我们感兴趣的因果关系是什么,理想实验是怎么样的,识别策略是怎么样的以及推断模式是什么。
首先,我们应该问,我们感兴趣的因果关系是什么?虽然单纯的描述性研究可以发挥重要的作用,但我们认为,社会科学中最有意义的研究是关于因果关系的问题,例如在第2章和第6章讨论的班级规模对学生考试成绩的影响就是这样的例子。在预测环境或政策的变化所产生的后果上,因果关系是有用的;它告诉我们,在另一个(或“反事实”)世界将会发生什么。例如,作为研究人类生产能力(劳动经济学家称之为人力资本)的议题的一部分,我们两个人都曾研究过学校教育对工资水平的因果效应(参见这个领域的研究综述:Card,1999)。学校教育对工资水平的因果效应,是指一个人如果接受更多的学校教育,他或她将会获得的工资增量。一系列研究表明,大学学历的因果效应是使得平均工资高出40%,这可是相当可观的回报。学校教育对工资水平的因果效应有助于预测诸如改变上大学的成本或强化义务教育法对收入的影响。这种关系也具有理论意义,因为它是可以从经济模型中推导出来的。
作为劳动经济学家,我们最常在劳动者样本中研究因果效应,不过因果研究中的观测单位并不一定是个体的人。因果问题也可以针对企业或国家提出来。例如,Acemoglu、Johnson和Robinson(2001)关于殖民制度对经济增长的影响的研究。这项研究关注的是,从殖民统治者那里继承了更多民主制度的国家,后来是否因此享有更高的经济增长。这个问题的答案,对于我们理解历史以及当代发展政策的后果而言意义深远。今天,我们可能想知道,新形成的民主体制对伊拉克和阿富汗的经济发展是否重要。民主的理由并不是明确无疑的;当下的中国在没有完全政治自由的情况下却享受着强劲的经济增长,而拉丁美洲的大部分地区实现了民主化,却没有取得巨大的增长回报。

实证研究的第二个需要常问的问题,是关于用来测度我们所感兴趣的因果效应的理想实验的。在学校教育和工资水平的例子中,我们可以这样来设想,奖励那些潜在的辍学生以完成学业,然后研究这样做的后果。事实上,Angrist和Lavy(2008)就曾做过这样的实验。虽然他们的研究关注的是短期影响,比如对考入大学的影响,但更长期跟进的话,其影响可能也会很好地体现在工资水平上。在政治制度那个例子里,我们可以想象我们能够穿越回过去,并在前殖民地的独立日为它们随机分配不同的政府架构(这样的实验更有可能被拍成电影,而不是得到国家科学基金会的资助)。

理想实验通常只能是假设性的。尽管如此,假设性实验还是值得考虑,因为它们有助于我们挑选到富有成效的研究主题。我们希望,作为一名研究者,你能接受这样的要求:在假设不存在预算约束以及没有人类被试委员会(Human Subjects Committee)监督你是否违反实验伦理的情况下,问问自己该如何擘画自己的研究:就好像是一位不愁钱的斯坦利·米尔格拉姆(Stanley Milgram),作为一名心理学家,他在20世纪60年代针对人们对权威的反应做出了开创性的研究,所使用的实验设计极具争议性,如果今天他敢这样来研究,可能会令他丢掉工作。

为了理解人们对权威的反应,米尔格拉姆(1963)表明,他能够说服实验受试者对可怜的、处于抗议中的受害者实施令其痛苦的电击(电击是假的,受害者是演员扮演的)。这种做法既聪明也富于争议:有些心理学家认为,对他人实施电击的受试者在心理上受到了创伤。即便如此,米尔格拉姆的研究仍然表明,虽然我们对有些实验的擘画只能停留在纸面上而不能具体实施,我们仍然可以对其多加思量。[1]如果你不能在一个无所约束的世界中设计出一个可以回答你的问题的实验,那么,在有限的预算和非实验调查数据情况下,你能得到有用结果的可能性非常微小。对理想实验的描述,也可以帮助你精确地阐明因果关系问题。理想实验的设计机制,可以把那些你想要控制的力量和那些你想要保持不变的因素突出出来。

任何实验都无法回答的研究问题被称为根本无法被识别的问题(简称FUQs)。一个根本无法被识别的问题到底是什么样子的呢?乍一看,关于种族或性别的因果关系问题似乎是这类问题的一个好例子,因为这些特征是很难单独操作的(你能想象,你的染色体在你出生时被调换了吗?)另一方面,在种族和性别研究领域,经济学家最关心的是劳动力市场歧视问题。这类歧视体现在,因为人们认为你是黑人或白人、男性或女性,他们就会有差别地对待你。在一个反事实的世界里,把男人看成是女人,把女人看成是男人,这样的想法由来已久,并不需要道格拉斯·亚当斯式的搞怪来娱乐大众(在莎士比亚的《皆大欢喜》一剧中,罗莎琳假扮成盖尼米德,愚弄了所有人)。改变所属种族的想法也同样近乎不可思议:在电影《人性的污点》中,菲利普·罗斯想象了一个主人公科尔曼·希尔克的世界,希尔克在其职业生涯中是一名冒充白人的黑人文学教授。劳动经济学家一直在想象着同样的事情。有时,为了推动科学进步,我们甚至会构建这样的场景,比如在使用假工作申请和假简历的审计研究(audit studies)中所做的那样。[2]
当我们进行研究设计时,有点想象力会大有帮助,但想象力不能解决所有问题。假如我们想知道,孩子们年龄大一点再入学会不会使他们在学校表现得更好?也许,七岁时的大脑比六岁时的大脑更适合学习呢。这个问题是有一个政策角度的,该角度来自这样一个事实,即有些学区为了提高考试成绩,正在强制提高入学年龄(Deming和Dynarski,2008)。为了评估延迟入学对学习的影响,很具有代表性的做法是,我们可以随机选择一些孩子在七岁开始上一年级,而另一些孩子在六岁开始上一年级。我们感兴趣的是,以那些晚入学孩子的小学成绩来证明,他们是否能在学校学到更多。我们具体来看看他们一年级时的考试成绩。
关于这个研究,即入学年龄对一年级考试成绩的影响,其问题等同于七岁入学的那组孩子年龄更大,而年龄更大的孩子成绩更好,这纯粹是由身体发育更成熟带来的效应。现在,我们似乎可以通过保持年龄不变而不是年级不变来解决这个问题。假如我们等六岁入学的孩子到了二年级再来对他们进行考试,而在一年级就对那些七岁入学的孩子进行考试,这样每个孩子的考试成绩就都是在七岁时给出的。但前一组孩子在学校花的时间更长,如果学校本身是有助于取得好的考试成绩的话,事实上待在学校更长时间就会提高考试成绩。只要孩子们还在上学,就没有办法把入学年龄对学习的影响,与身体发育更成熟和在校时间的影响分开。该问题就是,对于学生来说,入学年龄等于现在的年龄减去在校时间,而这种确定性的联系,在成年人的样本中就消失了,因此我们可以研究入学年龄对成人后的影响结果,比如对收入或最高学业等级(参看:Black、Devereux和Salvanes,2008)。但是,即使是在随机实验中,我们也不可能解释小学入学年龄对考试成绩的影响,因此,一言以蔽之,这是一个根本不可能被识别的问题。
需要经常问自己的第三和第四个问题,是关于开展具体研究的基本要素的。第三个问题是,你的识别策略是什么?Angrist和Krueger(1999)使用识别策略这个术语来描述研究人员使用观测数据(即非随机实验产生的数据)来逼近真实实验的方式。再看学校教育的例子,Angrist和Krueger(1991)使用美国各州义务教育法和学生出生季节的交互项,作为一个自然实验来估计完成高中学业对工资水平的因果效应(由于义务教育法规定,高中学生只有在年满16周岁后才能辍学,所以他们的出生季节会影响到他们在高中就学的时间长短)。第三章到第六章主要讨论识别策略的概念框架。
虽然对可信的识别策略的关注是现代实证研究工作的标志,但把理想实验与自然实验等而视之,在计量经济学中有着悠久的历史。我们的计量经济学前辈特里格夫·哈维尔莫(Trygve Haavelmo,1944,第14页)曾呼吁对这两种实验设计进行更为明确的讨论:
实验设计(即对物理学家称为“临界实验”的说明)是任何数量理论的一个核心附件。当我们构造理论时,头脑里通常想着某种实验情况。但遗憾的是,大多数经济学家从不明确表述其实验设计。倘若表述出来,他们就会发现其头脑中的实验可以归为两类:(1)一类是我们为了考察某些真实经济现象,在经过人为分离掉“其他影响”后,是否能证实某些假设而想要做的实验;(2)另一类则是大自然从她自身宏大实验场中持续地产生的实验流,而我们只是被动的观测者。对于这两类实验,理论的目的都是同样的,即成为真实生活的主宰。[3]
对自己的研究第四个需要常问的问题,借用Rubin(1991)的话来表述就是:你的统计推断模式是什么?这个问题的答案描述了所要研究的总体、所要使用的样本以及在构建标准误时所做的假设。有时推断非常简单,比如当你使用人口普查数据样本来研究美国人口时就是这样。不过,一般而言,推断都要更为复杂,尤其是对于聚类或分组的数据而言更是如此。本书最后一章涵盖了一旦你回答了这第四个问题后就会出现的那些实际问题。虽然推断问题很少令人感到振奋,而且往往非常技术性,但即使一个构思精巧、在概念上令人激动不已的研究项目,其最终的成功也取决于统计推断的那些细节。这个有时令人沮丧的事实,启发了平野圭佑(Keisuke Hirano)在完成论文后写的以下计量经济学俳句:[4]

t统计量赏心悦目

试了下聚类标准误——

显著性踪影全无

从上面的讨论可以清楚看出,实证研究过程中的这四个需要常问的问题,是研究项目开展过程中的一部分。本书后续章节主要关注的是你回答了这些问题之后所遇到的计量经济学问题——换句话说,一旦你的研究议题设定好,本书中讨论的这些计量经济学问题就会出现。不过,在转向经验研究工作的具体细节之前,我们首先要更详细地解释为什么随机实验为我们提供了基准框架。


注释

[1]

后来,在一档电视特别节目中,米尔格拉姆由演员威廉·夏特纳(Willam Shatner)饰演,这样的荣誉,目前为止还没有哪位经济学家获得过,不过本书作者之一的安格利斯特有望获此殊荣。

[2]

有关于此,最近的一个例子是Bertrand和Mullainathan(2004),他们制作了两类简历,一类简历的申请人名字听起来像白人,比如艾米莉,一类简历的申请人名字听起来像黑人,比如拉卡莎,然后比较雇主们对这两类简历的回复情况(虽然Fryer和Levitt(2004)提到,名字还可能携有有关社会经济身份方面的信息,而不仅是关于种族的信息)

[3]

这一段引自牛津大学博士、伦敦大学亚非学院秦朵教授早年的译文,请参阅:《经济计量学的概率论方法》,[挪威]T.哈维尔莫 著,秦朵 译,北京:商务印书馆,1994,第19页。——译者注

[4]

俳句是日本的一种古典短诗,用日文表示要受到诸多限制,此处译诗只敢求其神似与押韵,其他的约束就不敢奢望了。——译者注


本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。



星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


基本无害 | 前言:关于计量的基本观点与本书主要特点

基本无害 | 专栏发刊词

数据治理 | 数据分析与清洗工具:Pandas 数据合并

论文写作 | 毕业季:如何修改你的毕业论文?

数据治理 | 数据分析与清洗工具:Pandas 创建新字段( 赠送本文同款数据!)

数据治理 | 数据分析与清洗工具:Pandas 数据类型转换(赠送本文同款数据!!)





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存