查看原文
其他

双胞胎样本解决遗漏变量和测量误差, LIV解决选择偏差

因果推断研究小组 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

最近,我们引荐了关于各种因果识别方法的120份经典实证文献汇总”,哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,看完顶级期刊文章后, 整理了内生性处理小册子工具变量精辟解释, 保证你一辈子都忘不了DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,MIT广为流传的政策"处理效应"读本DID的研究动态和政策评估中应用的文献综述最新政策效应评估的四种方法政策效应评估的基本问题等,在学术同行间引起巨大反响。
上一日,咱们引荐了应用计量经济学现状: 因果推断与政策评估最全综述前沿: 机器学习在金融和能源经济领域的应用分类总结,在学者间引起了很大的反响。
正文
整理组织此文by@因果推断研究小组

教育收益率(the rate of retun to education)也称教育回报率,是教育经济学和劳动经济学研究的重要问题之一,自20世纪60年代人力资本理论创立以来,相关理论和经验研究可谓难以胜数。在估算教育收益率的若干方法中,明瑟收益率是最常用的一种,其估算过程采用明瑟收入方程:

其中,lnW是工资收入的自然对数;S为个人的受教育年限;EXP是个人的工作 一经验,一般用个人的年龄减去受教育年限再减去开始接受教育耐的年龄得到其 数值;EXP2是个人工作经验的平方;u为随机误差项。当然,还可以加入性别、 职业、工作地点等一系列控制变量:

其中,表示其他控制变量,表示这些变量对应的系数。这样,在式(1)和式(2)中,回归系数。的估计值可近似地表示在其他条件相同的情况下,每增加一年教育导致的个人收入增加的百分比,称为教育的明瑟收益率。本文中的教育收益率指的就是明瑟收益率。
明瑟收入方程在经验研究中的应用非常广泛,以至于贝克尔在他的诺贝尔经济学奖演讲词中宣称:“明瑟收入方程可能是微观经济学中最为常用的根据经验得出的回归方程”。在用明瑟收入方程估算教育收益率的过程中,最简单的方法是采用普通最小二乘(ordinary least square,OLS)估计,但这会遇到不少计量经济学方面的问题,使得教育收益率的OLS估计值是有偏的(biased)甚至是非一致的(inconsistent)。本部分将讨论其中的三个问题:遗漏变量、测量误差和选择偏差。对于异质性分析,各位学者可以参看今天推文的第一篇文章。
注意:下方虽然在讨论遗漏变量、测量误差、选择偏差,但我们希望各位多关注基于双胞胎样本(twins sample)解决遗漏变量和测量误差问题,以及基于局部工具变量(LIV)法解决选择偏差。

一、遗漏变量(omitted variable )

有很多因素影响个人的收入,明瑟收入方程式(1)只考虑了教育和工作经验两个解释变量,式(2)进一步加入了其他解释变量。加入的解释变量越多,就能越准确地估计出教育对收入的“净影响”。但是在研究过程中难免会遗漏一 些重要的解释变量,这会对教育收益率的估算产生影响吗?当然会!计量经济学理论表明,如果被遗漏的解释变量与个人的教育水平不相关,那么即便遗漏了这个变量也不会对教育收益率的OLS估计值产生影响。但是,如果被遗漏的这个解释变量与个人的教育水平相关性很高,那么遗漏了这个变量会使教育收 益率的OLS估计值是有偏和非一致的。
下面以能力(ability)这个变量为例说明遗漏变量的影响和纠正的办法。
在估算教育收益率时,能力(ability)是最常见的被遗漏的解释变量。很多时候倒不是因为研究者忽略了能力这个变量,而是因为能力是不可观测的,很难找到一个合适的变量来反映个人的能力。一般而言,一个人的能力与其教育水平是正相关的,而能力与收入也是正相关的,在这种情况下可以证明,采用式(1)或式(2)估算出来的教育收益率会高估真实的教育收益率。譬如说估算出的教育收益率为10%,但实际上的教育收益率小于10%。
如何解决这个问题?
第一种办法是找到能够衡量个人能力的代理变量(proxy variable),比如智 商(Intelligence Quotient, IQ)、考试成绩或者家庭成员的教育水平。把代理变量 加入明瑟收入方程后可以在一定程度上纠正教育收益率的估计偏差。例如, Blackbum和Neumark在对美国的研究中加入IQ或KWW ( knowledge of the world of work)成绩作为能力的代理变量,发现教育收益率的估计值下降了。Card对20世纪90年代以后的主要研究文献进行了综述,发现引入父母和兄弟姐妹的受教育水平作为控制变量后使得教育收益率的估计值分别下降了 5% ~ 10%和10% ~25%。在2002年中国社科院人口与劳动经济研究所对我国的 一项研究中,将测试后的一些个人能力指标引入估计模型,结果没有明显改变教育收益率的系数估计值。
当然,引入代理变量的方法也存在问题,就是未必能够找到合适的代理变量。就智商或考试成绩而言,只能衡量人的能力的某些方面,不足以全面地衛量人的能力。至于家庭成员的教育水平,则常使研究者陷入到底应该将其作为能力的代理变量还是被调査者受教育水平的工具变量的讨论,而且结论往往不一致(关于工具变量的讨论,见下文)。
第二种办法是应用基于双胞胎样本(twins sample)的固定效应模型。具体方法是:收集双胞胎的数据,将之两两对应分为两组,每组中只包括两个双胞胎中的一个。

这样一来,就把能力的影响消除了,根据式(5)估算出来的教育收益率就不受到遗漏能力变量的影响。双胞胎样本还有一个好处,就是家庭因素也是影响个人收入的重要变量,在研究中也因难以被观测到而容易被遗漏。如果双胞胎是在同一个家庭长大,那么可以认为家庭因素的影响也相同,从而通过式(5)还 可以避免遗漏家庭背景变量可能造成的影响。
陶曼(Taubman)的研究可能最早使用双胞胎数据,他发现不控制遗传和家庭环境因素会导致很大的系数估值的偏差,该偏差高达在不控制情况下得出系数的三分之二。⑴基于较大规模的双胞胎数据并进行更细致的计量分析的研究则始于阿什弗莱特(Ashenfelter)和克鲁格(Krueger)对美国的研究。
我国学者李宏彬等利用2002年我国5个城市的调査数据,针对488对同卵双胞胎进行分析,发现用0LS方法估计出的教育收益率为8.4%,而用双胞胎固定效应模型式(5)的方法得到的教育收益率仅为2. 7%。他们还使用了广义最小二乘估计(GLS)对双胞胎样本进行估计,同样得到2.7%的教育收益率。Card在对西方国家几项利用双胞胎数据解决遗漏能力变量的研究进行总结之后,发现0LS估计一般会使教育收益率高估10% ~15%。但李宏彬等人的研究表明0LS估计值是双胞胎样本估计值的3倍!这说明在中国, 能力偏差对教育收益率的影响非常大,换言之,用0LS方法估计出来的教育 收益率中绝大部分应归因于被忽略了的能力和家庭背景的影响。李宏彬等认为,这主要是因为中国的中等教育特别是高中教育完全以升学为导向,竟争非常激烈,只有天资聪明的学生才能接受高等教育,从而使得中等教育特别是高中教育成为非常重要的筛选机制,而不是帮助学生接受知识和技能以 提高个人收入。
双胞胎数据可以控制不可观测的能力和家庭因素的影响,因而受到计量经济学家的欢迎。但问题是,双胞胎数据很难收集,而且往往样本数目偏少,难以保证样本的代表性。另外,鲍德(Bound)和沙龙(Solon)指出,双胞胎固定效应模型未必能完全消除传统横截面估计中的偏差,因为能力并非完全是由遗传基 因决定的,双胞胎之间仍有可能存在能力差异,这样一来,双胞胎之间的能力差

第三种办法是工具变量法(instrumental variable method)。可以证明,如果能够找到一个外生变量(称之为工具变量)与个人的教育水平密切相关但与其能力不相关,并在式(1)或式(2)中用这个工具变量代替受教育年限,那么即便遗漏了能力变量,也不会对教育收益率的估计产生影响。在研究中,常用的工具变量有教育政策(比如个人在上学期间有没有经历过义务教育政策或高等教育扩招政策的出台等)、教育的可获得性(比如个人所在的城市有没有大学),等等。卡德(Card)在对相关研究进行综述后指出,运用工具变量法得到的教育收益率估计值一般都比OLS估计值高。按理说,如果工具变量法的主要目的是解决遗漏能力变量的问题,那么工具变量法的估计值应该低于OLS估计值,但研究的结果却是前者高于后者。卡德强调了导致这一结果的一个原因,即低教育人群的教育行为受到上述政策因素的影响较大,这部分人群之所以接受较少教育不是因为能力较低,而是因为接受教育的成本太高,在这种情况下,通过工具变量法得到的教育收益率就很有可能高于OLS估计值。
在针对我国的研究中,蒙(Meng)和格雷格里(Gregory)考虑了文化大革命 的影响,因为在此期间适龄教育人口的教育程度显著降低了。作者把出生于 1946年到1962年的虚拟变量作为受教育程度的工具变量,以出生于1942年至 1946年和1962年至1966年作为控制变量,发现工具变量估计的教育收益率为 7. 8% ,而OLS估计结果为5. 4% 。盖尔斯(Giles)等则认为在文化大革命期 间,子女能否获得教育与父母的政治地位有很大关系,因而以父母的政治地位 作为工具变量,发现工具变量估计的教育回报率为10. 6% ,而OLS估计为 7.1%。李和罗(Li & Luo)利用中国家庭重男轻女的特殊社会背景,认为一个家庭中儿子的存在会造成对于女儿教育的歧视,因此女性的受教育程度会与她 是否有亲兄弟有关。根据1995年CHIP的城镇调査数据,他们用是否存在亲兄 弟、亲兄弟的数量以及父亲和母亲的教育水平作为女性教育程度的工具变量, 发现对于30岁以下的女性而言,教育回报率的OLS估计值为9. 8%,而利用工 具变量法的估计结果为16.9%。
工具变量法在当前的计量经济分析中应用很广,究竟选择什么样的工具变 量是一个很大难题,如果工具变量选择不当,就很有能在纠正了遗漏变量问题 的同时引发新的问题。

二、测量误差(measurement error)

测量误差是指收集到的数据不能精确地度量模型中的变量。测量误差有两种情况,即被解释变量存在测量误差和解释变量存在测量误差。
在估算教育收益率时,工资收入是被解释变量。工资收入的测量误差可能来源于三个方面:其一,劳动者除了获得货币工资收入之外,还可能从工作单位获得非货币性的收入,如住房、医疗、交通等福利。调査中往往只能获得货币工资收入的数据,而很难得到其他收入数据。因此只使用货币工资收入数据就会低估真实的工资收入,产生测量误差。其二,理论上讲,被解释变量最好是小时工资率,即每小时的工资收入,但在现实中往往获得的是年收入或月收入数据,这也会引起测量误差。其三,被调査者可能谎报自己的收入。计量经济学理论表明,如果被解释变量的测量误差与解释变量相关,譬如,收入的测量误差与受教育水平是正相关的,那么教育收益率的OLS估计就是有偏和非一致的。Li研究了 1995年我国城市劳动力的教育收益率,以小时工资率和年收入作为被解释变量的教育收益率分别为5.4%和4.7%,前者明显高于后者。
受教育年限这个解释变量也很可能存在测量误差。比如,研究者往往根据被调査者填报的学历推算其受教育年限:小学学历的劳动者受教育年限为6 年,初中学历的为9年,高中学历的为12年,等等。但是,由于学制的差异,或者个人有留级、跳级、辍学等情况,通过上述方法推算出来的受教育年限可能与每个人真实的受教育年限不相同。另外,被调査者同样也可能谎报自己的受教

假定与S不相关,那么只有当eS不相关时,的OLS估计才是无偏的。问题是,如果满足测量误差是随机的这样一个经典变量误差(classical error-in-variables)假定,即e与不相关那么可,以证明e与S必然相关,从而,的OLS估计是有偏的,而且会产生向零的偏误。鉴于>0,因此,的OLS估计值会低估真实的教育收益率。
使用工具变量是解决测量误差问题的方法之一。譬如,以母亲的受教育年限MS作为S的工具变量,显然MS与S是相关的,而假定MS与式(6)中的测量误差e**不相关是比较合理的,这样就可以得到的一致估计量。在Li和Luo对我国年轻女性样本的研究中,用是否存在亲兄弟、亲兄弟的数量以及父亲和母亲的教育水平作为女性教育程度的工具变量,得到高于OLS估计值的教育收益 率,由此他们认为测量误差导致的估计偏误大于遗漏能力变量导致的估计偏误。
阿什弗莱特和克鲁格提出了用双胞胎数据解决测量误差问题的一种方法,他们让每一对双胞胎都报告他们自己和他们的享生兄弟(姐妹)的教育水平。假定第一组双胞胎的真实教育水平为;其自我报告的教育水平可能存在测量误差,但这一误差不应与交叉报告的教育水平相关,因此可以用交叉报吿的教育水平作为的工具变量。根据这一思路,李宏彬等利用我国 2002年的双胞胎样本数据对受教育年限的测量误差进行了修正,得到了3.8% 的教育收益率估计值,高于简单地运用双胞胎固定效应模型的估计值。
当然,解决测量误差问题的根本还在于尽可能准确地收集变量信息,譬如不但要询问被调査者的学历,还要询问其在每一个教育阶段各接受了多少年教育,同时尽量获得收入的全面数据,并且记录被调査者的工作时间,等等。

三、选择偏差(selection bias)

在我们通过抽样调査得到的样本中,可以观察到当前正在工作的劳动者的收入信息,但观测不到当前未参加工作的劳动者(如失业者、在家里从事家务劳动的妇女等)的收入信息。如果简单地使用有收入信息的样本数据,而把没有收入信息的样本排除在外,就会使得教育收益率的OLS估计是有偏且非一致 的,这种情况属于内生样本选择偏差(endogenous sampling selection bias) 。纠正内生样本选择偏差的方法是2000年诺贝尔经济学奖获得者赫克曼提出的基于两阶段回归的赫克曼方法(Heckit Method)。
赫克曼方法在关于我国的经验研究中得到了较多应用。例如张俊森等对 1988 -2001年我国城镇地区教育收益率的估计表明,在此期间男性教育收益率的OLS估计值与经过样本选择偏差纠正后的估计值几乎没有差异,但自1997年以后,女性教育收益率的OLS估计值低于经过样本选择偏差纠正后的估计值。陈玉宇和邢春冰(2004)根据CHNS的数据,利用Heckman的两阶段模型,估计出我国农村工业部门1991 ~ 1997年的教育收益率为0 ~5%,但是不显著,而且样本选择偏差对教育收益率估计的影响不大。黄国华同样利用 CHNS数据,同时考虑了对遗漏变量、测量误差和样本选择偏差的纠正,结果表明教育收益率从1989年的不显著上升到2000年的11%,高于OLS的估计值。
选择偏差还有另外一种情况。以高等教育的收益率为例,真正的教育收益率,应该是指对于同一个人而言,将其接受高等教育与未接受高等教育的收入进行比较。但对于一个接受了高等教育的人,我们只能观测到他接受高等教育之后的收入,而无法得知如果他不接受高等教育的收入;同样,对于一个未接受高等教育的人,我们也无法得知如果他接受高等教育后的收入。这一问题在政策分析中尤为重要,譬如,考虑课程改革对学生成绩的影响,我们获得的样本要 么是那些经历了课程改革的学生,要么是那些未经历课程改革的学生,并比较他们的成绩,但严格地讲应该针对同一批学生,比较他们经历课程改革和未经历课程改革两种情况下的成绩。这个问题看起来似乎无法解决——怎么能够知道同一个人在两种非此即彼的情形下的信息呢?李雪松和赫克曼提供了一 种方法解决这一问题,他们根据我国2000年城镇居民的调査数据,运用局部工具变量(LIV)法估计出大学教育的平均回报率为43%,这一结果高于OLS估计结果(29%),而低于釆用进入大学的概率作为工具变量的估计结果(56% ) 。
Source: 刘泽云.教育收益率估算中的几个方法问题[J].北京大学教育评论,2009,7(01):139-150+192.
关于一些计量方法的合辑,各位学者可以参看如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存