查看原文
其他

最新: 对诺奖得主Esther Duflo最有影响力的研究的结论可信度充满疑惑!

计量经济圈 计量经济圈 2022-11-16

凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的code文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

134篇各种方法的code, 代码和程序文章合集, 必须收藏!今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习!《经济研究》期刊上所有文章按照"计量方法"进行分类汇总,有选择性地学习计量方法,④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章!
正文
2019年诺贝尔经济学奖得主之一的MIT教授Esther Duflo在2001年罕见地使用准自然实验研究了教育回报的问题。这篇文章发表出来之后,受到众多学者的关注,在教育回报率的文献中占据重要地位,现被引量高达2651。

关于诺贝尔经济学奖得主Esther Duflo,可参看:1.诺贝尔奖得主Duflo, 经济学家的角色是管道工!2.2019年诺贝尔经济学奖: 印度裔班纳吉和AER主编迪弗洛夫妇以及克雷默教授,3.诺贝尔经济学奖得主诺贝尔演讲及其文稿,4.2019年诺奖夫妇编写的Field experiments手册公布!5.AER的主编和编委偏好什么, 在哪个领域更容易发表

不过,最近因为诸如DID方法的新进展,以及数据搜集技术的进步,一些学者对Duflo (2001)的实证设计过程和估计结果都提出了质疑。在我们即将引荐的这篇文章中,作者通过对数据的修正和新方法的使用,发现Duflo的结论并不那么让人信服。

作者说道:
在这篇文章中,作者对也许是关于教育促进发展价值的最有影响力的研究进行了再研究。
潜在偏差的一个关键来源:INPRES 的目标地区为受教育程度较低的地方。重返学校的人数随着年龄的增长而上升。因此,即使该计划什么也没做,我们预计旧的(处理前)队列会进一步落后。违反将产生虚假“影响”的平行趋势。
除此之外,在本文的重新分析中,不存在巨大的单一”陷阱”,而是各种叠加起来削弱结果的小问题, 例如,修复转录错误、聚类、使用调查权重。
狂热带来了可能很少有实证论文能够经受住的仔细检查——但我认为这是认真对待有影响力的研究结果意味着什么的一个很好例子。
Duflo的分析也容易受到对使用具有异质性处理效应的固定效应的担忧。

摘要

Duflo (2001) 利用 1970 年代小学教育的扩张来估计印度尼西亚的学校教育回报。在该研究的 (DID) 双重差分设计下,数据中的两种模式——政策处理中的负向选择和年轻工人的较浅工资-教育梯度——可能共同作用使结果出现向上偏差的问题。作为回应,我稍后跟进;检验与干预时间同步的趋势中断;并执行双重变化(change-in-chang,CIC),这放松了平行趋势假设。我还纠正了数据错误、聚类方差估计、合并内生的调查权重,并检验(和探测)出工具变量的弱点。弱识别-稳健性推断产生较弱的正估计结果。而CIC方法产生了较弱的负向估计结果。

简要介绍

1973 年,拥有丰富石油收入的印度尼西亚中央政府开始了一项在其遥远的群岛领土上建造数千座三室校舍的项目。Instruksi Presiden Sekolah Dasar 计划 (Inpres SD) 成为有史以来规模最大的学校扩张计划之一,仅在前六年,该国的小学存量就大约翻了一番(Duflo 2001)。Duflo (2001, p. 812) 对早期受此项政策影响的男性进行了跟踪调查后,得出结论认为 Inpres SD “在提高教育和工资方面是有效的”。
Duflo (2001) 之所以极具影响力有如下几个原因。该文章彰显了思想史上的高光时刻,创造性地利用了因果推断的策略,例如双重差分法 (DID) 和自然实验衍生的工具变量 (Angrist 和 Krueger 1999)。它的创新,部分是通过将这些方法带到发展中国家的环境中进行实证研究。它所带来的自然实验让大多数教育学文献相形见绌。论文中的图形分析通过以适当的时间在数据中显示学校教育冲击来增加可信度。而识别面临的威胁包括,安慰剂检验在它应该返回的地方返回一个空结果,检验工具变量的有效性,其他潜在的偏差来源。很少有研究如此可信地声称发现了大规模学校教育的影响。
尽管如此,我还是重新分析了 Duflo (2001)的文章,以评估其方法在多大程度上改进了对学校教育回报的衡量——改进了,也就是说,超过了不解决内生性的那些方法,例如 Mincer 的普通最小二乘法 (OLS) 拟合(1974)的劳动方程。评估由此文章所产生的“微观层面”和“宏观层面”的评论。微观层面的评论与数据和分析技术有关;大多数是 21 年后重新审视的自然结果。Duflo (2001) 使用经典的方差估计量,Bertrand、Duflo 和 Mullainathan (2004) 表明在微观数据上的 DID 中存在向下偏差问题。该研究没有纳入调查权重,尽管它们被证明是内生的,这意味着未加权的回归在统计上是不一致的(Hausman and Wise 1981)。这些工具变量被证明存在弱工具变量问题,这需要弱识别-稳健的推断。Inpres 处理指标的观察结果中约有十分之一包含转录错误,在少数情况下就会产生极值。
修改数据和方法以解决微观层面的评论并不会极大地改变 Duflo (2001) 中的点估计。但它确实使该研究的置信区间过小。在一个有代表性的两阶段最小二乘法 (2SLS) 设计中,Duflo (2001, Table 7, panel A1, column 1) 估计,一年的额外教育使有薪工人的对数小时工资增加了 0.075,其中双尾的 𝑝 值为 0.03,95% 置信区间为 [0.01,0.14]。数据修正将点估计提升至 0.117。按地理单位对方差估计进行聚类并进行弱识别- 稳健推断将 𝑝 值提高到 0.09 并将置信区间扩大到 [−0.03,0.32]。此外,结合调查权重将点估计转移到 0.108,将 𝑝 值增加到 0.31,并将置信范围扩大到 [−0.69,1.07]。
宏观层面的评论是,Duflo (2001) 识别策略可能不会像希望的那样消除内生性。就学校教育对劳动力市场结果影响的幼稚 OLS 估计所言,在该数据集中存在偏差,这种偏差可能会进入 Duflo (2001)的2SLS 估计,而不仅仅是因为弱工具变量问题。
产生这种潜在偏差的机制具有三个组成部分。第一个是至少自 Mincer (1958) 以来就已知的模式,并在印度尼西亚的数据中发现。在 20 岁出头时,受教育程度较高的工人的收入只是受教育程度较低的同龄人的一小部分。在同一时间观察到的一个横截面的工人中,该比率随着年龄的增长而上升。Mincer (1974) 将这种不同年龄的工资规模扩张解释为经验收益递减的产物:受过更多教育的人进入劳动力市场较晚,因此对他们来说,经验收益递减是在后期出现的。
偏差的第二个组成部分是 Duflo (2001) 的设计。该研究将 DID 应用于 1995 年进行的一项后续调查的数据,当时受试者的年龄为 23-45 岁。为了给该横截面提供 DID 所需的两个维度,受访者按出生地和出生年份分组。Inpres政策上的待遇在两个维度上有所不同:在地理维度上,一些地区和市镇(印度尼西亚的二级行政单位)每名儿童获得的学校更多;在时间维度上,受试者从年龄太大而不能直接接触到学校教育的扩展,到年龄太小而不能完全接触到学校教育的扩展。当 DID 被带到这个结构时,时间的箭头从处理前的早出生群体到处理后的晚出生群体——从老到年轻。关于这个时钟,1995 年观察到的工资随着时间的推移而下降,因为年轻人的收入减少了。受教育程度较高的工人的工资下降幅度更大,因为他们的工资轨迹更加陡峭。即使在 Inpres 从未发生过的反事实情况下,也会出现这种模式。在 DID 的术语中,平行趋势假设不适用于初始教育水平(de Chaisemartin 和 D'Haultfoeuille 2017)。
偏差的最后一个组成部分是负向选择问题。Duflo(2001 年,表 2)记录了 Inpres 政策不成比例地流向了可能更贫穷的地方,因为他们当地男性完成的学业较少,收入也较少。因为,正如刚才提到的,受教育程度较低的人的工资轨迹较浅,撇开 Inpres的影响不谈,我们应该观察到高待遇地区的工资下降幅度较小。
本文采用三种策略来应对这种潜在的偏差。首先,根据数据可得性,本文随后在 2005、2010 和 2013-14 年跟进了 Duflo (2001) 的研究队列。现在,受试者更接近或处于最佳工作年龄,因此受年龄差异工资规模扩张的影响可能较小。后来的调查中测量误差可能增加,例如,在回忆学校教育历史以及出生地点和年份(他们共同决定了Inpres 的覆盖面)时存在测量误差,因此,后来跟进的主要影响是加剧了2SLS 回归的弱识别问题。
第二种策略建立在 Duflo (2001) 中关于时间模式的非正式讨论的基础上,通过检验趋势中断。本文预计工资规模的扩张不会在某些年龄突然加速或减速,因此时间序列中任何适当时间的拐点,特别是在感兴趣的结果和 Inpres政策处理之间的跨地域关联的年龄演变方面——将通过 Inpres表明因果关系。通过对 Duflo (2001) 设置的适度修改,该检验引入了趋势的分段线性方程。令人惊讶的是,它并没有证实 Inpres 对学业成绩的影响,尽管确实支持对小学完成率的影响,以及对 1995 年工资工人小时工资的(减少形式)影响。然而,工资的影响在随后的跟进中持续性并不可靠。这些结果使我们开展了一个更激进的检验,包含一个二次时间控制项。这些数据证实了横截面中某些趋势的斜率随年龄的变化,但不能确信地判断弯曲是否像学校建设受到冲击后所预期的那样是sharp的,或者是渐进的。
最后,本文应用基于分位数的双重变化估计值(CIC),简约形式的 CIC 估计结果表明, Inpres SD 对工资的影响大多接近于0,如果不为0,则多数为负数。
长按以上二维码即可下载全文PDF

关于因果推断书籍,参看:1.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,2.社会经济政策的评估计量经济学, 提供书籍和数据和程序文件,3.诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程,4.全面且前沿的因果推断课程, 提供视频, 课件, 书籍和经典文献,5.从网页上直接复制代码的因果推断书籍出现了, 学会主流方法成效极快,6.推荐书籍"用R软件做应用因果分析", 有需要的学者可以自行下载!7.哪本因果推断书籍最好?我们给你整理好了这个书单!8.“不一样”的因果推断书籍, 很多观点让我们能恍然大悟, 涵盖了不少其他书里没有的因果推断方法!9.搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好!10.一位“诗人”教授写了本因果推断书籍, 现在可以直接下载PDF参看!11.使用R软件学习计量经济学方法三本书籍推荐,12.机器学习与Econometrics的书籍推荐, 值得拥有的经典,13.史上最全的因果识别经典前沿书籍, 仅此一份,14.用R语言做Econometrics的书籍推荐, 值得拥有的经典,15.Stata学习的书籍和材料大放送, 以火力全开的势头,16.USA经管商博士最狂热崇拜的计量书籍震撼出炉,17.推荐使用Python语言做因果推断前沿方法的书籍,18.哈佛教授因果推断经典之作推荐!通过数据,代码和示例手把手教你!

关于DID,参看:1.120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!2.诚实双重差分法DID, 面板事件研究法和Bacon分解的经典应用文!3.前沿: 多期或渐进或交叠DID, 如何进行平行趋势检验呢?4.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习,5.DID前沿: 5种方法估计事件研究的因果效应, 并使用绘制系数和置信区间, 详细代码和数据,6.事件研究法开展政策评估和因果识别, 分享8篇提供数据和代码的文章,7.推荐用渐进(多期)DID和事件研究法开展政策评估的论文及其实现数据和代码!8.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!9.前沿, 模糊双重差分法FDID方法介绍和示例, 附code和数据!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存