查看原文
其他

如何做好实证经济学研究(上)

论文导向实证社区 学术苑 2023-01-01

本文素材由小编整理发布。所发内容仅供学习、交流之目的。版权归原作者所有,如对版权有异议,请后台联系,议定合作或删除。

翻译:任婉婉老师


FRANCIS KRAMARZ (Editor)

(法国国家统计局)

Joshua D.ANGRIST

(麻省理工学院)

DAVID M. BLAU

(北卡罗来纳大学)

ARMIN FALK

(波恩大学)

JEAN-MARC ROBIN

(巴黎大学)

CHRISTOPHER R. TABER

(西北大学)


本文就如何在经济学中进行实证研究,在主要经济学家之间展开了一场对话。与会者讨论了他们启动研究项目的原因,数据库建设,使用的方法,理论的作用,以及他们对主流实证方法的看法。本文最后讨论了一组文章,这些文章举例说明了实证工作中的最佳实践。



1

由客座编辑进行的介绍性说明

“经济调查”(Investigaciones econÓmicas)邀请我组织一场主要实证经济学家关于“如何做好实证经济学研究”的讨论。事实上,他们回答的问题都涉及到一个更个人化的问题:“您是如何实践您的经验研究的”。这是个有品味的问题吗?我们是在研究经济学,还是在研究一门更一般化的社会科学?显然,专业中的观念存在很多异质性,我们在选择受访者时试图体现这种异质性。我猜想杂志的编辑们也选择了一位可能在辩论中处于中间立场的人来组织这场辩论。事实上,将社会科学与经济学对比可能是重新考虑实证策略时的一个有用的起点。

在经济学中模型比比皆是。检验它们是很自然的,至少对于某些人而言。例如,对求职模型感兴趣时,结构估计是一种自然的研究策略,该方法让Jean-Marc Robin刚刚获得了弗里施奖章。但是,当人们离经济学越来越远,理论机制会越来越不清晰。更重要的是提供明确的事实,即清晰而稳固的因果关系。

数据质量和识别质量已成为我们提供科学证据的能力的基本要素。Josh Angrist引领我们进入了10或20年前未曾预料到的方向。另一个辩论围绕数据和实验的作用展开。因此,很高兴能与Armin Falk在一起。List and Levitt(2005)最近发表的一篇文章很好地补充了Armin在我们的讨论中的回应。特别是,由于我们的问题更个人化,List和Levitt更详细地讨论了实验研究的优势和局限性。尽管David Blau和Chris Taber都是经济模型的坚定信徒,他们仍用广泛的方法论提供了平衡的观点。我们所有的受访者都是优秀的计量经济学家,他们使用最先进的技术,或者,如果他们认为这样做对实现自己的经验目标是必要的,他们提高了技术水平。他们都是经验经济学家的榜样,即使我们有时可能不同意他们研究策略的一个要素或一个细节。但在阅读时,即使我们可能采用了稍微不同的路线,我们也会向他们学习。


2

启动项目

2.1.

您为什么要开始一个经验性的项目?大多数是因为想评估一项公共政策,想检验经济理论,想估计一个参数,一种在模型中起核心作用的弹性,想回答一个经济或社会问题;想要了解代理人的微观行为,想要了解一个经济体的宏观行为等等。

Angrist:我通常会因为我对因果关系感兴趣而启动一个研究项目。我把因果问题放在议程的首位,因为这些问题的答案可以直接用于预测经济结果和进行政策分析。例如,今年我一直在研究量质权衡,即兄弟姐妹规模和儿童福利之间的因果联系。显然,理论在这里是一个很大的推动力,Becker的研究提供了主要的理论背景。另一方面,世界各地的发展政策都是建立在大家庭不好的观念上的。中国实行独生子女政策,印度强制绝育,很大程度上是因为随意的经验主义将大家庭和人口快速增长等糟糕的结果联系在一起。我不认为贝克尔和这件事有太多关系。不管有没有这个理论,有必要弄清楚这些政策是否被误导了。

有时,新的制度特征提出了一种回答有趣问题的新方法。在了解该制度的特征后,我会对一个特定的因果问题感兴趣。例如,我是在Orley Ashenfelter的研究生班上首次学习彩票的。Orley有一天上课描述了他是如何听说流行病学家比较由于抽签导致的军队中服役的高风险和低风险的男性死亡率。他说:“有人应该为这些流行病学家做这件事。” 因此,我从Orley的班级去了图书馆,然后开始工作。这种精神的另一个例子是我与Victor Lavy的关于迈蒙尼德(Maimonide)规则的论文。在发现班级人数与入学率之间的棘手的迈蒙尼德模式之后,Victor和我决定写一篇关于班级人数的论文。

有时候,我对一个项目或问题的动机来自于对之前的工作和完成计划的愿望。例如,Alan Krueger和我曾经讨论过二战老兵是否真的赚得更多,还是这仅仅是一种选择性偏误,正如越战结果所表明的那样。我们在普林斯顿图书馆的政府文件部分翻了翻,直到我们从还是基于生日征兵的现实中中找到了一个工具变量(IV)。后来,我觉得我应该谈谈自愿兵役,因为早期的征兵工作很自然地提出了自愿兵役是否也有负面影响的问题。然后,我了解了ASVAB的“失范”(当美国军事入学考试成绩不正确时),这似乎提供了解决办法。

Blau:我开始实证项目的原因有很多。我可能会受到一篇非常好的论文的启发,去复制或扩展论文中的方法。有时我在数据中注意到一些似乎没有得到太多关注但似乎很有趣的东西(例如,美国自雇率长期下降趋势的结束)。考虑到我对家庭经济学的兴趣,我可能会阅读人口学家或社会学家对某个问题的研究,我可以运用经济学推理和分析(例如,育儿成本对有年幼孩子的母亲就业行为的影响)。有时候我看了很多关于一个主题的文章,对文章的方法不太满意,或者对文章的结果不太信服,我想我可以做得更好(比如退休消费难题)。我通常不会以评估特定政策为目标开始一个项目,但我会从一开始就考虑研究的政策含义。

Falk:好奇心与探索社会或经济相关问题的愿望的混合。发现某些东西并检验自己的直觉和假设是有益的。如果所分析的问题在政治上具有相关性,那就更是如此。总的来说,我认为不乏有趣的问题。我经常难于决定的是,首先追求哪个项目,或者根本不追求哪个项目。

Robin:机会在决定一个经验性的项目中起着很大的作用。您审阅的一篇论文,与同事的聊天,您在做前一个项目时搁置的想法,研讨会上或推荐人提出的问题等等。

我的博士论文是关于等效量表的。我使用的数据是法国家庭食品消费调查。我偶然得到了这些数据,多亏了我以前的某位顾问。由于特殊的调查设计,我从等价量表转向了不常见的购买模型。那里的经济理论很少,但是有很多统计模型可以从家庭购买中推断出家庭消费。稍后,我将尝试设计一个购买续约的结构(S,S)模型,以填补理论上的空白。

再次发言:Richard Blundell 和 Costas Meghir当时也在研究等效量表(1980年代末)。我遇到了他们,并开始与Costas合作,研究一些不经常购买的多元统计模型。与Richard一起,我们致力于设计简单的经济计量程序来估计需求系统。由于家庭支出数据总是在一定水平上合计消费(例如,无法确定哪个部分的能源消耗用于取暖、烹饪或其他),我们提出了潜在可分性的概念等等。

机会在触发一个新的实证研究项目中扮演着重要角色。如果您幸运的话,一个简单的初始想法会让您工作很多年。在某种程度上,要么您厌倦了某个特定的话题,要么您觉得您已经说完了所有您想说的,然后您开始做其他的事情。

我不记得当时感觉写作遇到了瓶颈。这是因为一个人对论文的想法总是比他所能追求的多得多。当我对消费计量经济学感到厌倦时,我开始对劳动经济学感兴趣,我发现其他人和其他学科一起工作非常自然。

Taber:问题中的所有要点都可能激励我。当我有一个感兴趣的问题,并且我对如何回答有洞察力时,我通常会开始一个经验性的项目。这些问题可能来自三个不同的来源。首先,这可能是我偶然发现的。我可能正在读一篇论文或参加一个研讨会,我突然想到事情可以做得更好。或者,我可能会更有目的地想出一个想法,我从一个普遍感兴趣的领域开始,然后阅读文献,看看是否可以改进它。第三,在写以前的论文时可能会出现问题。

2.2.

现在,关于如何进行实证研究。当您开始一个项目时,您能描述一下您的总体方法论吗?

Angrist: 实证工作中最困难的两件事就是挑选项目,以及知道什么时候为那些进展不顺利的项目纾困。当我第一次搜索一个项目的时候,我会读很多书,试图找出做了什么。我担心这个问题以前已经被提出过,即使在最好的情况下,我也没有什么要补充的。在早期阶段,我也会找借口放弃一个项目,比如说一个虚假的检验,将其就会把它否决掉。另一个重要的障碍是,广义而言,是否存在一个可行的第一阶段。例如,Daron Acemoglu和我曾着手研究提前通知条款(通知工人即将发生的裁员的要求)的影响。我们找不到任何证据表明被解雇的工人确实得到了提前通知,尽管我们对结果变量有一些很好的简化形式。但是我们克服了它。当然,情况并不总是如此能处理。有时候挫折是暂时的,我错误地判断了它们的严重性。我经常犯错误,要么太早,要么太晚。

Blau:我仔细阅读了现有研究,并总结了发现,局限性以及我们想知道的内容。我经常寻求一笔赠款来支持一个新的研究项目,并且发现写出一个连贯而令人信服的建议可以帮助我集中我的想法。我写下了一个简单的理论模型来帮助阐明关键问题。如果可能,从理论推导假设。探索该理论对所需数据和经验方法的启示。查看最明显的数据源中的可用内容。鉴于数据的局限性,修改经验方法。

Falk:一开始总有一个想法。这个想法可以来自很多方面,例如阅读论文、参加研讨会或与研究人员讨论。除了这些相当传统的来源,原则上它们可以来自任何地方。由于我对经济行为的心理基础感兴趣,所以我日常生活中的各种社会交往形成了我的研究议程。从这个意义上说,数据收集和想法生成与我所经历的几乎所有事情都密切相关。这个想法一旦诞生,就在新颖性和相关性方面受到了批判性的质疑。我试图找出这个想法是多么令人兴奋或直观。如果它通过了这个检验,我就开始设计一个实验来检验这个想法。当然,我刚才所描述的一系列事件可能是有序的,但也可能是混乱的,可能会在一秒钟或几年内发生,有时会导致一些有用的东西,有时却毫无用处。

Robin:没有万能的方法。在某些情况下,我只想提供证据。例如,我研究了不频繁的购买模型,以给出给定购买数据的消费情况。我研究终身收入不平等是因为我想对横截面收益不平等和收益流动性进行综合分析。其他项目在理论上有更深的渊源。我之所以设计具有拍卖式工资设定机制的均衡搜索模型,是因为我认为Burdett-Mortensen模型所做的假设并不完全正确。

我目前正在做一些关于独立因子模型理论的计量经济学工作,因为我认为在不久的将来,识别具有多维异质性来源的微观计量经济学模型必将成为一个非常重要的课题。

所以有时候我的工作是非常描述性的,其他时候似乎是由理论考虑决定的,或者看起来像是统计方法。现在,我的深层动机总是为了应用。我几乎没有一篇论文是在没有实际数据应用的情况下写的。

Taber:当然,这在不同的论文里是不同的。作为一般规则,我试着首先写下这个一般性问题的计量经济学模型(通常大大简化)。在模型的背景下,我考虑了实证项目的目标。然后,我考虑可以从我可能获得的数据中识别出该效果的条件问题。

2.3.

深入细节

a.更准确地说,您需要花多长时间来收集和构造数据源?

Angrist:与国家青年纵向调查(NLSY)甚至当前的人口调查(CPS)相比,使用新数据通常更令人满意。当然,新的数据也是更多的工作。但是,当数据是新的时,有令人兴奋的话要说的几率会大大增加,当您构建数据集以服务于您的特定议程时,这种可能性会更大,而不是被别人对世界研究议程所限制。而且,有了新的数据,别人打败您的几率就会下降。另一个考虑因素是,对于我从事的工作类型,大多数数据集都太小。例如,就IV策略而言,我无法想象从收入动态的小组研究(PSID)或NLSY中获得多少实质性的价值,尽管它们很适合计量经济学家练习。在公用数据集中,我特别喜欢公用微观数据样本文件,因为它们的规模和简洁。但由于多年来的变化,或者需要在家庭内部建立联系,把这些东西放在一起仍然需要很长的时间。

Blau:这显然取决于数据。对于某些涉及复杂数据的项目(例如,健康和退休研究与雇主提供的养老金和健康保险记录以及行政社会保障记录相匹配),至少需要为期两年的数据。对于其他项目来说,几个月(例如CPS,NLSY)就足够了。

Falk:我最喜欢的研究工具是实验,在实验室和实地都有。我非常重视这种方法,因为它有一种独特的可能性来控制混杂因素,并允许进行因果推论。在实验室实验中可用的控制可能性大大超过了在现场的相应控制。在一个精心设计的实验中,您控制策略集,信息集,权衡,技术,禀赋和框架等。在一个实验中,您很清楚哪些变量是外生的,哪些是内生的,您可以实施外生的处理变化,您可以研究平衡调整的程度和动态,如果有人不相信您的结果,他可以很容易地重复这个实验,建立坚实的经验知识。然而,一些对实验持批评态度的人担心所谓的外部有效性。实验室实验经常被批评为不切实际,因为潜在的受实验者群体(本科生)或实验中使用的相对较低的风险水平。此外,有人指出,受试者通常知道他们是在实验中行动,他们的行为被实验者观察到,这可能会导致不切实际的行为。此外,在大多数经济实验中,受试者通常选择数字或分数,而不是例如质量或经济水平。对这种批评,我们有什么回答呢?首先,对我来说,外部效度到底是什么以及为什么它是一种批评是完全不清楚的,因为实验中的对象都是真实的人,他们会为了真正的风险做出真实的决定。第二,一切都取决于您的研究问题。就像经济模型一样,实验是不现实的,因为它们忽略了现实的许多方面。然而,模型或实验的简单性往往是一种优点,因为它增强了我们对相关变量相互作用的理解。此外,实验的目的通常是检验一个理论或理解一个理论的失败。那么证据对于理论的建立是重要的,而不是对现实的直接理解。第三,对实验的外部有效性提出质疑的学者认为实验没有捕捉到现实中普遍存在的重要条件。然后,适当的回击是尝试考虑实施那些被忽视的条件。第四,实地实验(这里我不是在说自然实验)是一种将相对高水平的控制与有效决策结合起来的简洁方法。让我给您举一个例子:在最近的一项研究中,我与一个慈善组织合作,使我们能够在可控的、但又自然的环境中研究社会偏好的性质。我们简单地观察捐赠者是否在收到礼物的同时还收到了邀请函,研究发现包含的礼物越大,捐赠的可能性就越高(FALK,2004)。可见可以进行观察非学生受试者池行为的实验,其中参与者不知道他们在实验中的行为,赌注的大小不是由实验者预先确定的,并且行为涉及真实项目而不是抽象数字的选择。第五,也有可能结合实证方法来克服外部效度批判,进行有价值的补充。实验和代表性调查相结合就是一个很好的例子。在最近一项关于个人风险态度的研究中(Dohmen等人,2005年),我们分析了2004年德国社会经济小组(SOEP)浪潮中大约22,000人的反应。由于调查问题与激励不相容,它们可能无法很好地预测行为。因此,我们对回答相同问题的450名有代表性的受试者进行了一项涉及真金白银的抽奖的实地实验。结果表明,对问题的回答可以可靠地预测彩票中的行为,这验证了SOEP调查措施的行为相关性。

Robin:我用的数据大多是由其他研究人员收集和构建的。

Taber:这在不同项目中有很大的不同。通常,获取我需要的数据形式来估计模型会花费很长时间。当然,如果它是我以前在相关问题上使用过的数据集,那么它会快得多。


b.这些来源是通用的(例如,CPS、PSID等),是其他人制作的,还是在您的研究助理的帮助下由您设计、收集和构建的?您能举个例子吗?

Blau:通常是普通的。在某些情况下,数据的访问受到限制,这需要跨越许多官僚程序才能获得对数据的访问权限。我和我的研究助理通常花费大量时间提取、检查、清理数据,并将其转换为可用的形式。特别是对于纵向数据,需要进行大量的一致性检查。例如,我正在使用NLSY创建一个包含同居和婚姻的同居数据。大约10%的样本有明显不一致的历史(例如,报告婚姻结束但从未报告结婚)。一个有经验的程序员会检查这些情况,以寻找编码错误,并开发算法来纠正可以修复的情况。

Robin:法国劳动力调查,法国工人工资管理数据来源(DADS)或公司会计数据(BRN),英国家庭支出调查,法国家庭支出调查。

Taber:我通常使用通用数据集,包括NLSY、CPS、1988年国民教育纵向调查和收入和项目参与调查。通常这些数据需要以某种方式使用其他来源进行扩充。


c.您是从理论模型、计量经济学模型还是统计模型入手?

Blau:一个理论模型。这对我来说是必要的第一步,帮助我集中思想,澄清经济问题。如果可能的话,我从这个理论中得出可检验的假设。如果我打算采用一种结构化的方法来进行评估,那么我将扩展理论以纳入重要的制度特征。

Falk:我的实验通常是为了检验理论而设计的。这意味着实验与博弈论的发展密切相关。因此,在非实验主义者中,博弈论学家最先对实验结果表现出极大的兴趣,也就不足为奇了。应用微观经济学中一些最激动人心的最新发展是受到实验室发现的启发。因此,不做理论工作几乎不可能进行好的实验。

Taber:我想说的是,我通常从计量经济学模型开始。然而,从某种意义上讲,按照定义,计量经济模型既是理论模型,又是统计模型。


d.更一般地说,经济理论在您偏爱的方法中扮演什么角色?

Robin:总的来说,经济理论发挥着巨大的作用。我不认为一个正式的模型会限制一个人思考经济事实的直觉能力。恰恰相反,正式的经济模型不仅有助于更好地理解经济机制,还有助于理解个体异质性应该在哪里发挥主要作用,同时性或选择性偏差的潜在来源。我知道有些人对这一切有更好的直觉,需要比我更少的正式经济模型。我羡慕他们。

Taber:这与我正在做的事情有很大的不同。我与赫克曼和洛奇纳的一些工作专门研究了劳动力市场的均衡效应。经济理论是这项工作的核心。其他工作,比如我的经济研究综述论文,关注的是学校教育的回报,所以在阐述这个问题时,我的脑后总是会有罗伊、贝克尔和明瑟的模型。然而,在日常生活中,经济理论并没有发挥核心作用。我也做过纯粹处理的论文,在这些论文中经济学基本上没有任何作用,比如我与阿尔通吉和埃尔德一起研究天主教学校的论文。我可以写下一个人力资本模型来思考这个问题,但我不确定它是否真的对解释有那么多帮助。我应该说,尽管我不认为经济理论对所有的实证微观经济学工作都很重要,但我个人很喜欢研究那些经济理论发挥重要作用的论文。


e.计量经济学在您最喜欢的方法中扮演什么角色?

Angrist:我和其他人一样喜欢新的经济计量方法,也许更喜欢。但计量经济学本身不应与我所说的真正的实证工作相混淆,后者是问题驱动的。大多数因果问题用回归或两阶段最小二乘(2SLS)比花哨的方法更好地解决。这是因为因果关系总是很难确定。使用简单的工具将您的注意力集中在核心的识别和度量问题上,而不是诸如如何处理有限的因变量之类的考虑。它还可以帮助您避免错误(尽管许多著名的论文都犯了2SLS错误)。另一方面,有时新的计量经济学方法会导致有价值的简化。一个例子是分位数回归,用于分析分布上的影响。我更喜欢使用分位数回归框架而不是核密度方法或直接估计分布函数,因为我关于回归工作原理的所有旧观念都以合理直接的方式延续到了分位数回归中。也很容易获得标准误。

Blau:对于眼前的问题,我使用了适当的计量经济学方法。这可以是一个简单的线性模型,它是该理论所隐含的决策规则的近似值,由普通最小二乘(OLS)或2SLS估计(例如,使用横截面数据分析县级母亲就业方面的育儿补贴效应差异)或固定效应(例如,使用纵向数据得出的收入对儿童发展的影响)。如果问题更加复杂,那么我仍应在近似决策规则(例如,母亲选择工作的决定和使用的育儿类型的联合模式,在这两种模式中有共同的不可观察的因素)。如果我打算从结构上估计模型,那么我会从模型中得出似然函数或其他目标函数,以及关于分布和函数形式的假设。

Falk:在实验中,与使用现实数据相比,计量经济学通常不那么重要,因为从某种意义上说,计量经济学是设计中的一部分。如果我只对简单的处理效果感兴趣,我更喜欢使用简单的非参数检验,它最适合于实验数据的分析。如果兴趣超出了这一范围,我会使用标准的计量经济学技术,例如,同时控制多个因素或研究交互作用等。

Robin:我认为自己是一名计量经济学家。我努力跟上最新的技术。

Taber:计量经济学在我曾经从事的几乎每个经验项目中都扮演着非常重要的角色。


f.这些方法应该是简单的还是与时俱进的?

Blau:这些方法应该适合解决感兴趣的问题。如果在一个狭义的问题中,不关注样本的可概括性和外推性,通常会要求一种简单的方法,该方法几乎不需要任何假设。对于更普遍的结果和样本外推法感兴趣的问题,通常将需要结构化的方法和更复杂的计量经济学方法。我的研究中有两个例子:1)我想知道美国现有的托儿法规是否提高了托儿的成本和质量。这是一个相对聚焦的问题,我对使用结果来预测新法规的效果不是特别感兴趣。我使用了简单的线性差分法(跨州和随时间变化)。2)我想知道缺乏退休人员健康保险是否影响了退休的时机。有一个涉及Medicare的重要政策问题,该问题为美国的老年人提供公共健康保险。一个有趣的问题是,更改Medicare的资格年龄是否会影响退休人员健康保险对退休时间的影响。但是,自该计划开始以来,符合Medicare资格的年龄一直没有改变。为了确定和估计对医疗支出风险的厌恶程度以及不断变化的医疗保险政策的隐含影响,需要一种动态的结构方法。

Robin: 适合的就是最好的。

Taber: 我认为他们应该是最新的,因为我认为研究人员应该了解计量经济学的现状,并使用最适合当前问题的方法。

然而,所有其他条件都一样,简单显然更好。没有理由不必要地增加计量经济学的复杂性。然而,我常常认为恰当的方法并不简单(或者在某些情况下最好的方法很简单,但是理解为什么它是恰当的可能是相当困难的)。


未完待续

参考文献

点击阅读原文查看参考文献,提取码:ig7g

暑期计量培训课程

点击链接查看详情

专业师资!论文导向!“学术苑暑期计量培训”报名开始啦!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存