查看原文
其他

Cohort DID经典之作:大饥荒影响了人们的健康状况和社会经济状况吗?

江河JH 功夫计量经济学 2022-06-25
队列DID(Cohort DID)又被称作“截面DID”,是一种较为特殊的DID类型,常用于评估特殊历史事件对个体和家庭的长期影响(通常使用的都是横截面数据)。之前曾经给大家分享过程令国和张晔(2011)发表在《经济研究》的队列DID论文,详见“截面DID的玩法:大饥荒影响了人们的储蓄行为吗?”这篇推文,今天给大家分享的依然是一篇有关大饥荒对个体影响的队列DID论文,作者是北京大学光华管理学院的陈玉宇教授和周黎安教授(2007)。这是第一篇使用队列DID的方法去评估1959-1961年大饥荒对幸存者的影响的论文,得到了学术界的广泛认可,其研究设计和识别策略也被学者们广泛借鉴,用于评估诸如大跃进、大饥荒、上山下乡和文化大革命等特殊历史事件对个体的长期影响。

原文信息

Yuyu Chen, L A  Zhou. The long-term health and economic consequences of the 1959-1961 famine in China[J]. Journal of Health Economics, 2007.

引言

中国1959-1961年的饥荒是人类历史上最严重的饥荒之一,约有1500万至3000万人死亡。这场灾荒的严重程度令人震惊,促使人们坚持不懈地努力探寻这场灾荒的成因和量化它的灾难性影响。人口与健康方面的文献表明,在胎儿期和幼儿期处于营养不良的状况或其他不利环境,会对个体健康、幸福感和能力产生显著的持久影响,从这个角度来看,了解1959-1961年大饥荒对大量幸存人口(主要是在农村地区)的健康和经济状况产生了多大程度上的影响,就显得既有趣又重要了。

大饥荒情况介绍

1959-1961年的大饥荒是由一系列相互关联的因素造成的,例如自然灾害、国家的过度采购、对粮食短缺的延迟反应、1958年大规模集体化计划导致的生产力减弱以及大规模工业化导致的资源转移。旷日持久的全国性饥荒造成了前所未有的死亡人数,据估计,1959年、1960年和1961年的全国死亡率分别为14‰、25‰和14‰,而1956年和1958年的平均死亡率仅为11‰。1959年到1961年,生育率也急剧下降,在饥荒前的年份,39岁以下的女性平均生育5.6个孩子,但这一数字在1961年降至最低水平3.06。一些估计表明,大饥荒导致2300-3000万人死亡,3000万胎儿死于腹中。直到上世纪80年代初中国政府公布人口统计数据之前,1959年至1961年饥荒的严重程度才在国外引起注意。

数据来源

身高、出生年份和出生地区等个体层面的数据来自中国健康与营养调查(CHNS)1991年的调查数据,1959-1961年饥荒期间的死亡率数据来自林毅夫和杨涛(2001)年的论文《Food Availability, Entitlements and the Chinese Famine of 1959-61》。

计量识别策略

想要识别大饥荒对幸存者的健康状况的因果效应,面临的最大难题就是数据,我们基本不可能获得到个体在大饥荒前和大饥荒后的健康状况数据(追踪调查),我们有的只是一个截面调查数据。于是,这就衍生出了队列DID这种“巧妙”的方法(developed by Duflo(2001)),我们可以根据不同出生队列的人群受到饥荒影响程度的不同来构建DID模型。
在饥荒之后出生的人不会受到饥荒的影响,而那些在饥荒期间出生的人可能会受到饥荒的影响。在这篇文章中,作者将1954年至1962年出生的个体作为处理组,1963年至1967年出生的个体作为对照组。但是,如果直接比较不同出生队列的人群的健康状况的话,就会存在拿“橘子”和“苹果”进行比较的问题,因为可能存在某些无法观测和控制的混淆因素,导致不同出生队列的人群(大饥荒之后出生的人群和大饥荒期间出生的人群)的健康状况本身就存在着系统性差异(cohort trends)。这个时候,一重差分就不能准确识别大饥荒对幸存者的健康状况的因果效应。
我们需要做的是在一些没有遭受饥荒的地区控制同一组人群,观察没有遭受饥荒的地区不同出生队列的健康状况之间的差异,然后再将遭受饥荒的地区和没有遭受饥荒的地区进行一次差分就好了,这样,我们才能得到“干净的”因果效应。不过,1959-1961年大饥荒是一场全国范围内的饥荒,所以基本不存在没有遭受饥荒的地区,但是不同省份遭受饥荒的严重程度是不同的,所以可以使用一个度量不同地区饥荒严重程度的连续型变量来反映地区维度的变化(连续型DID)。
作者在这篇文章中利用的就是出生队列和地区两个维度的变异,构造了如下截面数据的队列双重差分模型(Cohort  DID):
其中,表示个体,表示地区,表示出生队列。表示身高,用以反映个体的健康状况;表示超额死亡率,等于1960年的死亡率与1956-1958年的平均死亡率之间的差值,用以度量地区饥荒严重程度;是表示个体的出生队列的虚拟变量,如果个体出生在年份,则取值为1,否则为0。表示队列固定效应,用以反映不同出生队列的异质性。
参数解释:超额死亡率和出生队列虚拟变量的交互项的系数衡量的就是大饥荒对特定年份(年)出生的幸存者的健康状况的因果效应。
除此之外,作者还研究了大饥荒对幸存者的劳动供给、收入和家庭财富的影响,与上面的模型类似,只是被解释变量不同,并加入了一些控制变量,在此就不再赘述。这里,我主要想给大家分享的是这篇论文的计量识别策略,至于回归结果和结论等后续部分还请大家阅读原文,在此也就不再赘述。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存