顶刊上出现的样本选择偏差vs自选择偏差问题及其处理方式汇编
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
基于选择的内生性(selection-based endogeneity)主要表现为两种形式:样本选择(sample selection)和自选择(self-selection)偏差。Heckman(1976, 1979)的基础性工作主要受样本选择问题驱动,由于样本可能不代表一个真实的总体,因此会影响估计结果的内部和外部有效性,Berk(1983)对上述问题做了一个极好的评论。然而,Heckman(1979)也意识到了类似的自选择问题,他观察到,直接比较管理培训生的工资和非培训生的工资可能导致处理效应的有偏估计。在自选择的背景下,估计偏差不是来自样本选择问题(即,在被研究样本范围内不存在偏差),而是被研究的个体基于一些不可观测因素(unobservables),自主选择分配到互相排斥的处理组与控制组。例如,研究人员无法观察到的员工特征(如勤奋、先天智力等)可能同时决定了管理培训生项目的选择和未来的工资,因此,估计参加培训生项目和管理人员未来工资之间关系的参数,可能会受到参与培训生项目选择过程这一混淆效应的影响。事实上,Wooldridge(2002)认为,在行为和社会科学的实证研究中,自选择是遗漏变量偏差的一个常见来源。
1.1 样本选择偏差问题(sample selection bias)
在进一步探讨自选择偏差问题之前,先了解一些关于样本选择偏差的相关问题,这为更复杂的选择模型提供了基本逻辑。当研究者使用非随机选择的样本来估计因果关系时,可能会出现样本选择偏差。这个问题在实践中经常出现,原因有两点:①当观测单位作出决定,使某一特定总体的一个子集不被观测到;②分析师和数据处理者对观测数据的样本做出选择(Heckman,1979)。因此,当数据中存在截尾(censoring)时,只观察到部分真实样本的结果变量的情况通常会产生样本选择问题。例如,Heckman(1974)在他的动机应用文章中观察到,估计妇女的教育回报涉及样本选择问题和有偏系数估计,因为研究人员只观察到在工作妇女的结果——工资。然而,工作的决定(即选择就业,从而选择进入一个样本)肯定是内生的,可能是由一些决定个人工资(却被被忽略的)的因素所造成。因此,在这样一个选定的样本中,估计的教育回报率存在偏差,它不能代表整个妇女的平均教育回报率。
1.2 自选择偏差问题(self-selection bias)
自选择偏差与样本选择偏差具有不同的性质,在自选择实证研究中,不存在因变量在总体某些子样本不可观测的问题。相反,在自选择问题中,因变量在每个子样本中都可观测,但此时个体的选择行为存在非随机性。Lee(1978)以工人工资为例,研究了工会主义对工资的影响,他有关于工会或非工会工人工资的数据,因此不存在样本选择偏差问题。然而,工人决定是否加入工会的行为是内生的,因为不可观测的因素(如智力、人脉等)会影响工人加入工会的决定,但这种不可观测因素也可以影响未来的工资。Lee(1979:977)总结了上述内容,他说在这种情况下,“决策和结果是相互关联的”。然而,此时若在实证研究中使用标准回归技术(如OLS),则误差项将违反预期均值为零的假设。本质上,上述自选择问题可归结为处理组的非随机分配问题(Antonakis等人,2010)。在管理学研究中,组织的选择(organizational choices)也不能被随机分配给处理组和控制组,而是管理者试图提高管理绩效的一个函数,因此往往存在自选择行为。
注:点击图片看大图。
Clougherty, J. A., Duso, T., & Muck, J. (2016). Correcting for Self-selection Based Endogeneity in Management Research: Review, Recommendations and Simulations. Organizational Research Methods, 19(2), 286–347.
拓展性阅读精选文章
前些日,咱们引荐了①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。
内生性问题的拓展性阅读
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 |
计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 |
数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。