发展经济学顶级期刊Journal of Development Economics文章发表经验分享
上一篇文章介绍了在经济学综合期刊The Economic Journal发表文章的经验分享,没想到阅读量超过了一万两千,非常感谢大家的分享和支持。最近有一篇跟厦门大学傅十和教授和长江商学院Brian Viard教授合作的文章被发展经济学顶级期刊Journal of Development Economics (JDE)接受了,这是在JDE上发表的第三篇文章,在这里跟大家分享一下这篇文章的创作历程跟发表经历。文章的链接在这里. https://www.sciencedirect.com/science/article/pii/S0304387821001620。这两篇文章都是讲空气污染如何影响制造业生产率的,但是motivation非常不同。如果没有看过EJ那篇文章介绍,建议先看看之后(《经济学期刊文章发表经验分享》),再看这篇文章。另外,上次在国庆假期举办了两天经济学期刊发表经验分享的课程,根据自己发表的几篇文章从选题、数据、代码、写作、投稿、回应审稿人意见等几个方面跟大家分享讨论,反响很不错,寒假可能还会再开类似的课程,有兴趣的朋友可以加微信号AERQJE。这篇推文还是跟上次一样,重点放在选题上。
上次提到选题是论文里面最重要也是最困难的部分。成功的选题一定建立在大量熟读文献的基础上。空气污染对生产率影响的研究最早由美国加州大学圣地亚哥分校Joshua Graff Zivin教授跟美国哥伦比亚大学Matt Neidell教授两人于2012年发表在American Economic Review上面。该文章用加州一家农场的详细生产数据,发下臭氧浓度越高,工人的生产率越低。此后有一系列的文章有类似的发现,但是侧重角度不尽相同。我们EJ的文章主要的贡献在于用中国工业企业数据库来估算空气污染对一个国家整个制造业部门生产率的影响,而之前文章用的数据大部分是一两家工厂或者企业,所以我们在外部有效性(external validity)有较大的的突破。这篇JDE文章其实也是用工业企业数据库来看空气污染对制造业生产率的影响。不同的是EJ那篇文章我们用了逆温(thermal inversion)作为空气污染的工具变量(IV),而JDE这篇文章用了风向的变化。但IV的不同并不能作为文章的主要卖点,因为回答的都是同样的问题,即空气污染如何影响制造业生产率。
这里先给大家讲一讲为什么我们会有两篇类似的文章,但是用的是不同的IV。我2016年博士毕业的时候工作市场论文(job market paper)是用工企数据库看温度如何影响制造业生产率以及劳动力和资本的要素分配,文章后来发表在环境经济学顶级期刊Journal of Environmental Economics and Management上面。当时我就想用同样的数据库看看空气污染对制造业生产率的影响。不同于温度通常是外生的,空气污染受经济活动的影响比较大,所以一定要找IV。2016年正好有一篇EJ的文章第一次提出了逆温可以作为空气污染的IV。逆温是一种大气现象。正常情况下海拔越高温度越低,而空气会从高温处向低温处传输,所以这样地表产生的污染会往上扩散到较高的大气层,并进而扩散出去。而逆温发生的时候,高处空气温度比地表附近空气温度高,这样污染就像被罩住一样扩散不出去。逆温的 计算比较简单,只需要知道不同大气层的温度就可以计算,并且第一阶段估算起来非常直接。我于是开始搜集整理逆温的数据,后来得到了中国1980年到现在6小时的逆温格点数据。同时因为中国的城市污染数据从2000年才开始,并且只有不到100个城市,所以我又开始搜集整理卫星反演数据,并最终得到了中国1980年到现在月度的PM2.5格点数据。
当时我还不认识Brian和十和。后来认识了他们之后了解到他们也在做同样的题目,于是跟他们沟通了我的想法和目前的进展。大家应该知道,工企数据库覆盖了全国1998-2007所有国有企业以及规模以上企业(即年销售额大于500万人民币的企业)详细的年度财务数据,即每个企业每年只能被观测到一次。企业的生产率通常用全要素生产率(TFP)或者劳动生产率(value added per worker)来衡量。卫星反演的污染数据在月度层面,而逆温在6小时层面。所以最简单的做法是把污染数据从月度平均到年度层面上,把逆温数据从6小时层面加总到年度层面上,即数下每年发生逆温的天数,然后把污染和逆温数据按照县-年层面跟企业数据匹配。这样第一阶段看的是某家企业当年所在的县的逆温的变化如何影响污染的变化,而第二阶段看的是由于逆温导致的污染的变化进而如何影响生产率的变化。
Brian跟十和他们当时并不了解卫星反演数据,所以用的是常见的中国60-100个城市的日值空气质量指数 (API)。这套数据从2000年开始,好处是日值数据,所以在时间尺度上比卫星反演数据(月度)要更精细一些。因为中国在2000-2007这一阶段主要的污染物是PM10,所以可以用API反推出大部分日期的PM10浓度。同时他们考虑主要用风向的变化作为空气污染的IV。这个识别策略在文献中用的也非常多,因为风向的变化也是一种天气现象,大家相对来讲比较能接其外生性的假设。同时,风向的变化也会有较强的一阶段,因为如果风向是从污染源的方向吹过来,会较大地增加当地的污染程度。
但是跟别的文章相比,这里有一个非常麻烦的问题。其他用风向变化做IV的文章,他们的污染数据跟研究的被解释变量(通常是死亡率)都是非常高频的,一般都是在日值层面。这样可以看当天风向的变化导致当天污染的变化进而如何影响当天的健康。但是工企数据是年度层面的,这就要求在二阶段估计的时候一定要在年度层面上。一个解决办法是在一阶段的时候先数一下每年有多少天风是从污染源吹过来的,在这里我们定义的污染源是邻近的城市,然后在这些天里面,看年度平均之后的邻近城市的空气污染如何影响当地城市的污染。但是我们在实际操作中发现一阶段表现非常差,甚至有的时候影响是负的。一个重要的原因可能是在年度平均的时候消除了很多的variation,并且引入了很多内生的东西。所以我们用了另一个方法,即在年度平均之前先跑一阶段。具体来讲,假设当地城市是A,污染源城市是B,第一步是看每年有哪些天风是从B吹向A的。然后把数据只限于这些天中,用日值数据看城市B的污染如何影响城市A。不同于正常的2SLS两阶段都是在同一层面上,我们一阶段在日值层面,在得到城市A daily predicted value之后我们再取平均,之后再用城市A annualized predicted value看对所在城市年度企业生产率的影响。这样在一阶段可以极大地消除内生性的问题,因为日值风向的变化是非常外生的。这种方法两阶段回归维度不一样的方法叫做Mixed 2SLS,是由2005年一篇JOE的文章开发,之后有一些引用,但是不太多。我们用了M2SLS之后,两阶段表现都非常好。
我们在讨论之后决定合作。具体来讲,用逆温跟卫星反演数据作为主要的模型,而用风跟城市API的数据作为稳定性检验的模型。这样导致文章比较长。我们当时主要的motivation还是在讲external validity。后来把文章发给了几个圈内的朋友看了之后,他们都觉得文章太长,不清楚为啥有了逆温之后还要继续用风做IV,这样反而会导致读者觉得作者对逆温做IV的不自信。我们在反复讨论之后决定删除风做IV的这部分,于是就有了EJ那篇文章。
删除之后我们觉得风那部分其实也做了很多工作,完全放弃似乎有些可惜。但是如果单独做一篇文章还是讲同样的故事肯定不行,所以我们阅读了大量的文献后来决定把故事主要放在污染的外溢性(spillover)上面,这样就跟spillover的文献联系起来了。这样我们JDE这篇文章第一段没有谈到任何跟空气污染有关的内容,而是先提到centralized vs. decentralized policies,谈到两种政策各自的利弊,再进而谈到decentralized policies的一个问题是spillover effect,然后在引入我们的内容。
我们主要有三个方面的贡献。第一个是评估和比较local effect vs. spillover effect。具体来讲,假设某城市A自身的空气污染上升一个单位,会对当地生产率造成多大的影响,这个是local effect。假设某邻近城市B自身的空气污染上升一个单位,在风的帮助下,这一个单位的空气污染对有多少吹到城市A,并进而对城市A的生产率造成多大的影响,这个是spillover effect。之前的很多文献都证明spillover是存在的,但是还没有文献quantify这种效果有多大,尤其是按照距离来测算效果的变化。所以我们这篇文章的题目叫做” Trans-boundary air pollution spillovers: Physical transport and economic costs by distance”。这样就跟EJ那篇文章在贡献上完全区分开了。
文章的第二个贡献是在方法上。我们是第一个argue高频风向的变化可以用Mixed 2SLS的方法来估计污染对低频outcome variable的影响。因为很多outcome variable都是低频的。当时投到JDE之后主编跟其中的一个审稿人都特别喜欢这个角度,主编说”The idea of using different levels of aggregation to estimate the spillovers is interesting and useful. Cross-section applied work too often doesn't think about the fact that differences in frequencies can sometimes help a great deal with identification.” 其中的一个审稿人说” This paper proposes an attractive method to quantify the spillover effect that do not have to rely on context-dependent exogenous events such as municipality mergers, as in Lipscomb and Mobarak (2017) and Wang and Wang (2020). I believe that their methodology can be applied in any countries where reasonable pollution, wind and outcome data exist. It also seems that the use of mixed two-stage least squares can be very attractive in practice. Though papers on the spillover effects already exist, this applicability is a large contribution.”
文章的最后一个贡献其实才是空气污染如何影响生产率的。因为是最后一个贡献,我们并没有特别的强调这部分,只是中规中矩的引用了之前的文献,简单了讨论了我们跟EJ那篇文章的结果的对比。
这篇文章是2018年有工作论文,2022年发表出来,不算太快也不算太慢。回头看看,跟Brian和十和用类似的数据话题但是不同的motivation发出来两篇顶刊也是非常的幸运。从另一个角度也说明选题跟找角度的重要性。这也是我一直跟学生强调的一点。最后,祝大家新年快乐,多发paper。