查看原文
其他

顶刊上出现的样本选择偏差vs自选择偏差问题及其处理方式汇编

因果推断研究小组 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

photo courtesy: bing.com
前些日,咱们引荐了“CSMAR所有的数据产品均可免费下载!”,受到金融财务管理领域学者的欢迎。金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS,其中CSMAR数据库于2月29日就会停止免费服务,因此要使用这一数据库的学者得加快进度了。2月19日,咱们又引荐了“疫情期EPS数据库向全社会免费开放!附细致使用指南!”,受到海内外经管学者的一致好评,其工作人员发送了“EPS最新版本使用手册”。2月20日,给各位学者引荐了三门计量课程,系统讲解了最新因果推断,时间序列,面板数据等及在Stata中的实现过程(详见,疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用)。2月21日,给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南CEIC数据库操作指南,参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!。2月22日,引荐了“估计具有两个高维固定效应的泊松回归模型”,里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。
参看本文之前,各位学者可以先行参看一下这些文章:1.Heckman模型out了,内生转换模型掌控大局2.因果推断中遗漏不可观测变量多严重? 通过可观测变量检测3.连续DID, DDD和比例DID, 不可观测选择偏差4.Match匹配估计做敏感性检验的最新方法, 让不可观测变量基础上的选择无处遁形5.Heckman两步法是什么? 及其内生性问题?6.必读|遗漏变量偏误对于因果推断的影响, 及在各种政策评估方法中可能的解决方法7.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题8.忽略干扰因素,内生性,遗漏变量偏差及相关问题下的估计9.内生性问题操作指南, 广为流传的22篇文章10.看完顶级期刊文章后, 整理了内生性处理小册子
1.选择偏差问题(selection bias)

基于选择的内生性(selection-based endogeneity)主要表现为两种形式:样本选择(sample selection)和自选择(self-selection)偏差。Heckman(1976, 1979)的基础性工作主要受样本选择问题驱动,由于样本可能不代表一个真实的总体,因此会影响估计结果的内部和外部有效性,Berk(1983)对上述问题做了一个极好的评论。然而,Heckman(1979)也意识到了类似的自选择问题,他观察到,直接比较管理培训生的工资和非培训生的工资可能导致处理效应的有偏估计。在自选择的背景下,估计偏差不是来自样本选择问题(即,在被研究样本范围内不存在偏差),而是被研究的个体基于一些不可观测因素(unobservables),自主选择分配到互相排斥的处理组与控制组。例如,研究人员无法观察到的员工特征(如勤奋、先天智力等)可能同时决定了管理培训生项目的选择和未来的工资,因此,估计参加培训生项目和管理人员未来工资之间关系的参数,可能会受到参与培训生项目选择过程这一混淆效应的影响。事实上,Wooldridge(2002)认为,在行为和社会科学的实证研究中,自选择是遗漏变量偏差的一个常见来源。


1.1 样本选择偏差问题(sample selection bias)


在进一步探讨自选择偏差问题之前,先了解一些关于样本选择偏差的相关问题,这为更复杂的选择模型提供了基本逻辑。当研究者使用非随机选择的样本来估计因果关系时,可能会出现样本选择偏差。这个问题在实践中经常出现,原因有两点:①当观测单位作出决定,使某一特定总体的一个子集不被观测到;②分析师和数据处理者对观测数据的样本做出选择(Heckman,1979)。因此,当数据中存在截尾(censoring)时,只观察到部分真实样本的结果变量的情况通常会产生样本选择问题例如,Heckman(1974)在他的动机应用文章中观察到,估计妇女的教育回报涉及样本选择问题和有偏系数估计,因为研究人员只观察到在工作妇女的结果——工资然而,工作的决定(即选择就业,从而选择进入一个样本)肯定是内生的,可能是由一些决定个人工资(却被被忽略的)的因素所造成。因此,在这样一个选定的样本中,估计的教育回报率存在偏差,它不能代表整个妇女的平均教育回报率。


1.2 自选择偏差问题(self-selection bias)


自选择偏差与样本选择偏差具有不同的性质,在自选择实证研究中,不存在因变量在总体某些子样本不可观测的问题相反,在自选择问题中,因变量在每个子样本中都可观测,但此时个体的选择行为存在非随机性Lee(1978)以工人工资为例,研究了工会主义对工资的影响,他有关于工会或非工会工人工资的数据,因此不存在样本选择偏差问题。然而,工人决定是否加入工会的行为是内生的,因为不可观测的因素(如智力、人脉等)会影响工人加入工会的决定,但这种不可观测因素也可以影响未来的工资。Lee(1979:977)总结了上述内容,他说在这种情况下,“决策和结果是相互关联的”。然而,此时若在实证研究中使用标准回归技术(如OLS),则误差项将违反预期均值为零的假设。本质上,上述自选择问题可归结为处理组的非随机分配问题(Antonakis等人,2010)。在管理学研究中,组织的选择(organizational choices)也不能被随机分配给处理组和控制组,而是管理者试图提高管理绩效的一个函数,因此往往存在自选择行为。

注:这里关注的是不可观测基础上的自选择问题,而不是可观测基础上的子选择问题。关于可观测基础上的自选择问题,通常使用匹配方法进行处理,例如PSM。
下面是管理学顶刊SMJ上出现的样本选择偏差和自选择偏差问题及其处理方式汇编。

1.管理学顶刊SMJ上(2004-2014)样本选择偏差(sample selection bias)问题及其处理方式:

注:点击图片看大图。


2.管理学顶刊SMJ上(2004-2014)自选择偏差(self-selection bias)问题及其处理方式:

Source: 

Clougherty, J. A., Duso, T., & Muck, J. (2016). Correcting for Self-selection Based Endogeneity in Management Research: Review, Recommendations and Simulations. Organizational Research Methods, 19(2), 286–347. 

拓展性阅读精选文章

前些日,咱们引荐了实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。

内生性问题的拓展性阅读 

0.看完顶级期刊文章后, 整理了内生性处理小册子1.“内生性” 到底是什么鬼? New Yorker告诉你2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题5.毛咕噜论文中一些有趣的工具变量!6.非线性面板模型中内生性解决方案7.内生性处理的秘密武器-工具变量估计8.内生性处理方法与进展9.内生性问题和倾向得分匹配10.你的内生性解决方式out, ERM独领风骚11.工具变量IV必读文章20篇, 因果识别就靠他了12.面板数据是怎样处理内生性的13.计量分析中的内生性问题综述14.工具变量IV与内生性处理的解读15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法17.面板数据中heckman方法和程序(xtheckman)18.控制函数法CF, 处理内生性的广义方法19.二值选择模型内生性检验方法20.2SRI还是2SPS, 内生性问题的二阶段CF法实现21.内生变量的交互项如何寻工具变量22.工具变量精辟解释, 保证你一辈子都忘不了
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle




数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存