顶刊论文:解决内生性问题的24种方法!
The following article is from 学说平台 Author Green
欢迎关注文本分析、爬虫、机器学习、计量分析、可视化科研实战课:
本文内容来自《Journal of Management》2020年4月发表论文“Endogeneity: A Review and Agenda for the Methodology-Practice Divide Affecting Micro and Macro Research”。 包括实验室实验(Laboratory experiment)、田野试验(Field experiment)、自然实验(Natural experiment)、准实验(Quasi-experiment)、控制变量、敏感性分析、固定效应、工具变量、工具变量设定检验、工具变量估计、作为工具的滞后变量、模型隐含工具变量、奇异的技术、动态面板技术、处理CMV、样本选择、双重差分、回归间断、综合控制组等方法。
学术研究人员通常对因果性(Causality)问题感兴趣,而在经济、金融以及管理领域的实证研究中,往往因为研究过程中存在内生性(Endogeneity)问题导致理想的因果推断难以实现。
建立因果关系最清晰的方法是进行一个理想的随机试验,其中x(自变量)对y(因变量)的因果效应通过随机抽样分离出来。
也就是说,对不同水平的预测变量x进行随机抽样,可以确保在足够的样本量下,当理想条件得到满足时,实验效应(研究中已考虑的那些因素)与被忽略的因素无关。随机试验并非没有问题,但原则上,它们不会产生内生性问题。
然而,随机试验并不总是可行的,因此研究人员经常在不可能进行随机试验的情况下使用档案数据、准实验或调查数据等替代方法。在分析这类数据时,问题是我们能否用估计系数近似表示在理想实验中可能确定的因果效应。
为了使因果推断有效,必须满足分析方法的假设(例如,普通最小二乘法[OLS]回归、结构方程建模[SEM])。值得关注的是外生性假设(即内生性不存在)——也就是说,给定预测变量的任何实例,模型中的残差的预期值为零,因此预测变量和残差之间没有相关性。
例如,一个估计方程y = a + Bx +u,其中y是被解释变量,x是解释变量, a是模型中的常数(截距),B是估计系数,u是残差。
内生性问题 (Endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系,即观察到的预测因子x与未观察到的剩余u相关。
学者称u是任何分析中最重要的部分,因为u包含无数可能影响y的不可观察因素。捕捉和定义这种关系的困难在于,理解u本质上是一种理论操作,因为u包含x没有包括的所有信息。
当研究者不能用随机试验的方式来排除内生性问题时,他们必须提供理论、实证证据,证明x与u无关。
产生内生性的四个原因
1
同时性
是否有任何反馈回路连接预测变量和结果变量?也就是说,这种关系是互惠的吗?
示例一:X=研发支出,Y=公司业绩,研发支出可能会影响企业绩效,也可能会受到企业绩效的影响。
示例二:X=酒精消耗量,Y=工作状态,饮酒可能会影响工作状态,并受其影响。
2
遗漏变量
回归方程的残差中还包括哪些其他预测因素或结构?这些因素是否也可能与预测变量相关?
示例一:X=工作满意度,Y=工作表现,个人的负面影响可能与这两个变量相关,例如一个人的坏心情会影响到工作满意度,也会影响到其工作表现,这会导致“员工工作满意度和工作表现之间”的因果推断受到干扰。
示例二:X=广告强度,Y=销售额,公司所在的行业可能与这两个变量都相关。
3
选择偏误或幸存者偏差(处理和/或进入样本)
分析单元或环境的哪些属性可能“选择”预测因子或结果变量的水平(选择处理方式),或者是否存在用于检验的数据(选择样本)?这些属性中是否有一个可能与结果变量相关?
示例一:X=收购的公司,Y=股票升值,收购的公司可能比未收购的公司处于更强的竞争地位(选择处理方式),但我们只能收集关于可以收集收购报告的公司的数据(选择样本)。
示例二:X=个人工作适合度,Y=工作表现,个人将寻找适合的工作(选择处理方式),而不适合的工作可能在衡量工作表现(样本选择)之前辞职
注:X表示预测变量(回归变量、自变量),Y表示结果变量(因变量)。
4
测量误差
预测变量或结果变量是否存在系统误差?这一系统误差是否与其他变量(即预测结果)相关?
示例一:X=公司声誉,Y=股价,对公司声誉的调查可能会系统性地高估股价较高的公司。
示例二:X=工作满意度,Y=工作表现,如果两个变量由同一个人同时评分,它们可能高度相关。
解决内生性问题的24种方法
1
通过设计实验避免/最小化内生性问题
1. 实验室实验(Laboratory experiment):将参与者随机分为实验组和对照组。保持对照组不变,操纵实验组。
条件和局限:必须能够操纵预测变量并随机分配组。这可能不可行,也不合乎道德。研究结果可能缺乏外部有效性和普遍性。
参考文献:Fromkin & Streufert, 1976; Griffin & Kacmar, 1991; Shadish, Cook, & Campbell, 2002
2. 田野试验(Field experiment): 在自然环境中进行,以提高参与者的外部效度。研究人员在实验组而非对照组中操纵预测变量。
条件和局限:缺少随机抽样会增加其他解释的威胁。
参考文献:Podsakoff & Podsakoff, 2019
3. 自然实验(Natural experiment): 自然发生的情况,形成实验组和对照组;研究人员通常不会操纵预测变量。
条件和局限:对照组和实验组可能在系统性方面有所不同。
参考文献:Campbell & Stanley, 2015; Chatterji, Findley, Jensen, Meier, & Nielson, 2016; Grant & Wall, 2009; Greenberg & Tomlinson, 2004; Harrison & List, 2004
4. 准实验(Quasi-experiment): 通过分析干预或意外外部事件前后的数据来确定因果关系的各种方法。
条件和局限:其中许多设计技术与下面描述的分析方法重叠。
参考文献:Shadish, Cook, & Campbell, 2002
2
遗漏变量
5. 控制变量: 研究人员不感兴趣的无关或混杂变量包括在分析中,以解决遗漏的变量偏差。如果被遗漏的变量不可表示,有时可以使用代理变量。
条件和局限:研究人员不太可能意识到所有相关的混杂变量。一些省略的变量可能不可用或不可见。任意加入控制变量也会产生偏差。
参考文献:Becker, 2005; Bernerth & Aguinis, 2016; Breaugh, 2008; Frost, 1979; McCallum, 1972; Pei, Pischke, & Schwandt, 2019; Spector & Brannick, 2011
6. 敏感性分析: 通过分析控制变量的加入如何影响系数估计,估计因可能违反外生性假设而产生的偏差的大小。
条件和局限:灵敏度分析只有在控制满足上述要求时才有意义。
参考文献:Frank, 2000; Oster, 2019; Pan &Frank, 2003; Peel, 2014; Xu, Frank, Maroulis, & Rosenberg, 2019
7. 固定效应: 包括个体或群体效应,以解释未观察到的异质性。
条件和局限:异质性必须在时间或在组内保持不变。无法估计不随时间变化的变量的影响。
参考文献:Antonakis, Bastardoz, & Rönkkö, 2019; Bliese, Schepker, Essman, & Ployart, 2020; Shaver, 2019
8. 工具变量: 两步或联立方程方法,通过用预测值替换内生变量或包含计算的控制变量来解决偏差。
条件和局限:工具变量必须(1)引起内生变量的变化,(2)仅通过内生变量与结果间接相关。弱工具变量可能比没有工具变量更糟糕。
参考文献:Semadeni, Withers, & Certo, 2014
9. 工具变量设定检验: 工具变量的一些假设可以检验。如果工具变量有效,则可以检验外生性。
条件和局限:对限制条件和强外生性的检验都建立在至少有一种有效工具的假设之上。
参考文献: Baum, Schaffer, & Stillman, 2003; Basmann, 1960; Hansen, 1982; Hausman, 1978; Sargan, 1958; Stock, Wright, & Yogo, 2002
10.工具变量估计: 工具变量模型可以用多种方法估计,包括两阶段最小二乘法(2SLS)、三阶段最小二乘法(3SLS)、最大似然法(ML)和广义矩量法(GMM)。
条件和局限:各种估计方法在效率和对各种假设的稳健性方面有所不同。这些估计方法都不能减少对有效和合理工具的需求。
参考文献: Angrist & Imbens, 1995 (2SLS); Antonakis, Bendahan, Jacquart,& Lalive, 2010 (2SLS); Blundell & Bond, 2000 (GMM); Hansen, 1982 (GMM); Newey & West, 1987 (GMM); Wooldridge, 1997 (2SLS)
11.作为工具的滞后变量:使用内生变量的滞后值作为工具。
条件和局限:滞后变量必须预测内生变量,而与因变量无关。
参考文献: Reed, 2015
12. 模型隐含工具变量:潜在变量模型的有限信息估计变量,该模型依赖于现有的观测变量来创建工具。
条件和局限:检验时还需要额外的假设。
参考文献: Bollen, 2019; Bollen & Bauer, 2004; Gates, Fisher, & Bollen, 2019
13. 奇异的技术:有时内生性可以通过假设变量和残差的分布形式来解决。和局限:检验假设可能比传统工具所需的假设更难满足。
参考文献: Bollen, 2012; Papies, Ebbes, & Van Heerde, 2017; Sande & Ghosh, 2018
3
同时性
14. 模型测量误差: 使用潜变量法(SEM)解释测量误差。
条件和局限:在大多数情况下,测量误差的方差必须已知且服从正态分布。
参考文献:Bound, Brown, Mathiowetz, 2001; Durbin, 1954; Fornell & Larcker, 1981; Griliches & Hausman, 1986; Hausman, 1977
15. 工具估计: 将一个有测量误差的变量用作另一个有测量误差的变量的工具。有时称为指标变量法。
条件和局限:这两个变量中的系统性误差必须彼此不相关。
参考文献:Griliches, 1977
16. 处理CMV: 旨在降低CMV的设计和统计技术,CMV是测量误差引起的内生性的来源
条件和局限:偏倚的方向和强度取决于数据收集策略、分析模型的类型、CMV对观察变量的对称效应以及样本数量。
参考文献: Evans, 1985; Lindell & Whitney, 2001; Podsakoff, MacKenzie, Lee, & Podsakoff, 2003; Podsakoff, MacKenzie, & Podsakoff, 2012; Siemsen, Roth, & Oliveira, 2010
17. 样本选择: Heckman处理估计–用第一阶段probit模型来预测“处理”。用来自该方程的逆米尔比率控制第二阶段模型,以估计处理效应。
条件和局限:该模型的一些变差是可用的,但都需要工具变量或其他验证假设。
参考文献: Bascle, 2008; Hamilton & Nickerson, 2003; Wolfolds & Siegel, 2019
18. 双重差分法:面板数据法适用于某些群体在一段时间内被处理,而其他群体则没有被处理的情况下的群体均值集。
条件和局限:只有当处理是外源性选择的,或处理和未处理在一段时间内具有平行趋势时,才能避免内生性。
参考文献: Athey & Imbens, 2006; Bertrand, Duflo, & Mullainathan, 2004
19. 回归间断:如果回归线显示不连续性,即处理和对照之间的截止点处斜率或截距的变化,则推断出效应
条件和局限:处理的选择必须由连续变量(如测试分数)中的临界值或阈值决定。
参考文献: Hahn, Todd, & Van der Klaauw, 2001; Imbens & Lemieux, 2008; Lee & Lemieux, 2010; Thistlethwaite & Campbell, 1960
20. 综合控制组:通过匹配、粗化精确匹配或倾向评分匹配创建对照组。
条件和局限:只有当选择、可观察或处理可忽略的假设适用时,才能避免内生性。
参考文献:Caliendo & Kopeinig, 2008; Dehejia & Wahba, 2002; Li, 2013; Rosenbaum & Rubin, 1983; Stuart, 2010
4
测量误差
21. 工具变量:上述方法也可以解决同时性问题。
条件和局限:在同时性的存在下,工具变量可能更难找到。
参考文献:Bollen, 2012; Papies, Ebbes, & Van Heerde, 2017; Sande & Ghosh, 2018
22. 滞后内生变量:使用滞后版本的内生变量。
条件和局限:如果预测变量或因变量序列相关,则可能无法解决内生性问题。
参考文献:Fair, 1970; Bellemare, Masaki, & Pepinsky, 2017
23. 动态面板技术:估计第一差异的模型。使用滞后的第一差异作为工具。有时被称为GMM或Arellano-Bond估计量。
条件和局限:假设内生性是由不随时间变化的异质性引起的。第一差分方程中的残差不能序列相关。
参考文献:Arellano & Bond, 1991; Ballinger, 2004; Bergh, 1993; Blundell & Bond, 1998
24. 使用外部事件: 使用干预或外部事件来确定因果关系方向的准实验。
条件和局限:关键的识别假设是,事件并非预期中的。
参考文献:Angrist & Krueger, 1999; Angrist & Pischke, 2010
科研实战训练营-文本分析
文本资料丰富了社科研究的数据来源,屡有基于文本分析的论文在国内外顶刊发表,为解决大家在处理文本数据时常遇到的错误及更好的匹配优质期刊的要求,特开发本课程:
易理解:以经管学术需求为导向, 知识点力求通俗易懂,多使用场景和实战讲解
可复制: 提供可重复使用的代码块和案例数据(包括上市公司年报和政府工作报告数据)
文本分析
课程内容
Part1:文本分析在社科研究的应用
Part2:文本分析基本方法
Part3:Python相关语法(1)Jieba分词、关键词提取、词频统计语法部分、Hamlet文本词频统计、三国演义人物出场次数分析
(2)词云制作——Wordcloud库语法部分、40万脱口秀弹幕文本数据词云
(3)PDF提取文本——OCR识别
Part4:实战案例Case1:省市各领域注意力指数构建——基于2005-2021年政府工作报告
Case2:上市公司年报语调测度——基于2001-2020上市公司年报
报名方式
扫码小鹅通进入小程序搜索:文本分析
2)私聊002拉你进答疑群
Python计量特训营录播课程
Python在社会科学前沿研究中应用案例
-Python让你在大数据处理和实证模型理解上有质的飞跃
-前沿论文实证案例助你拥有高水平实证论文能力
-多位老师全程互动答疑,保证你学懂每个知识点
Python计量课程内容大纲
Python与stata的比较及优势A:两者比较;
B:Python的优势展现
数据处理:Python的数据处理
A:数据清洗和整理技巧
B:如何处理大批量数据
一图胜千言,Python的科研作图案例
A:Matplotlib库及案例展示
B:Seaborn库及案例展示
应用篇:系统性学习数据处理、
面板回归、稳健性检验、内生性检验
中介效应IV、安慰剂检验方法
让你快速学会论文写作规范流程
B:论文二:数据、模型及Python代码;论文题目:扶贫改革试验区的经济增长效应及政策有效性评估(2019)
讲师介绍
Miroslav
毕业于UW-Madison
全美Top30的经济学专业
擅长Python数据分析、计量经济学、
图像处理、机器学习等
研究方向为Heterogeneous Treatment Effect Estimation
报名方式
扫码小鹅通进入小程序搜索:Python计量课程
2)私聊002拉你进答疑群
Python爬虫训练营
提供爬虫代码、海量爬虫数据
Python爬虫训练营
课程特色
1)课程内容对新手友好,一定程度上课程内容是自包含的,就算是萌新也能快速上手!
2)掌握自动生成爬虫代码工具(postman)。3)非结构化数据获取和结构化数据获取。4)详细介绍多渠道获取数据的方式,以网页端数据和小程序数据为例。5)详细介绍如何通过数据接口逻辑漏洞获取数据。6)详细介绍多种反爬技巧,以如何避开网站登录以及selenium半自动爬取为主要内容。7)以实践案例为引导。在例子中穿插爬虫理论,边用边学,学以致用。8)详细介绍爬虫应用中的前沿工具,如fiddler。
课程目标
科研数据的顶端也是学术的顶端。从0到1学会Python爬虫:掌握爬虫基本理论,理解并能够熟练运用Python相关的爬虫库,并且能够用于经管研究的数据采集工作。(对于没接触Python的人,附赠6学时Python基础课)扩展实证研究数据视野:手把手全面的案例教学,以爬虫技术获取Web大数据,让一切Web数据触手可及,扩宽社科实证研究范围,让实证研究在数据、方法和视角上具有突破和创新。多渠道寻找数据的能力:教会如何获取数据的途径和方法,多渠道多工具精准寻找数据接口。掌握如何检测接口的可用性以及如何寻找接口漏洞获取尽可能多的纬度数据。掌握前沿爬虫方法,并学会使用数据库存储爬虫数据。
课程基础
• IDE编辑器:pycharm的应用• 爬虫涉及相关Python库介绍• 请求库:request• 解析库:lxml、scrapy.Selector• 数据解析:xpath语法• 调试工具:xpath helper插件介绍• 数据存储:excel/csv, 文档数据库mongodb• 抓包方式介绍:浏览器开发者工具• 抓包工具介绍:fiddler• 爬虫工具的介绍:selenium
实战案例
提供代码和爬取数据
二、铁公基信息网:该案例的主要内容是获取该网站上所有关于铁路、公路和基建招投标数据。该网站上所包含数据是交通经济研究的重要数据。网站网址为:http://www.gonglutielu.com/ (微信公众号)。
三、农批数据/新农村商网:该案例是爬虫微信端口一个事实记录新农商网的农村品价格数据,可以实时获取全样本农产品的价格数据,网站: https://nc.mofcom.gov.cn/ (微信小程序/小程序)。
四、船讯网:该案例的主要内容是通过分布式爬虫技术获取全球所有船只的航行轨迹数据,包括垂直领域和非垂直领域的数据。网站:http://www.shipxy.com/。
导师介绍
刘航远
python开发大牛-7年从业经验
项目经历
全球顶尖智库
大数据平台开发
船讯港口数据库
工商企业数据库
新闻资讯数据库
国家电网数据库
北京国务院发展研究中心
国内外电商数据智能分析系统
北京国研网信息股份有限公司
宁波三星医疗电气股份有限公司
报名方式
扫码小鹅通进入小程序搜索:Python爬虫训练营
2)私聊002拉你进答疑群
002 地级市面板数据1990-2019003 上市公司数据集-慈善、股权、研发、审计、高管004 地级市高新技术企业统计情况2000-2019005 碳交易、碳排放(分行业、国家、省、市、县)006 2008-2018中国上市公司政治关联原始数据007 1936-2018年全国县级以上干部数据008 地级市市长市委书记数据库009 上市公司2006-2018年资产负债收益010 各县接收上山下乡知青数量
011 832国家级贫困县摘帽数据
学习资料:
001 文献利器EndNote教程(视频-PPT)
002 SCI完整写作攻略003 北大空间计量经济学讲义004 博士研究计划范文005 空间权重矩阵和杜宾模型案例数据及分析006 三阶段DEA模型理论与操作手册视频讲解007 SPSS统计分析与行业应用案例详解008 R语言学习资料009 20套学术答辩PPT模板010 实证分析大全011 Fama-French五因子模型数据和Stata代码012 Stata17 win和mac版013 Stata17MP版最新使用指南全书014 时间序列分析入门015 实证研究只是一条路径并非捷径
016 盘点提供数据代码的国内外期刊
计量统计:7种主流数据分析软件及经典教材推荐Stata数据清洗方法回归结果不显著可采取方法与思路面板数据汇总实证模型三步走:数据、模型、结果检验调节变量、中介变量、控制变量七种经典回归方法六种定量方法解决内生性问题(stata代码)Stata双重差分操作流程及代码交互项与异质性分析面板交互固定效应模型详解5种安慰剂检验方法详解DIDM:多期多个体倍分法案例及代码
中介效应检验程序、操作应用政策评估反事实框架及匹配方法开展政策效应评估传统PSM-DID模型改进与应用广义DID超强的政策评估工具中介效应分析的四种方式、原则、方法和应用Stata17中DID、DDD方法及使用策略DID的平行趋势检验步骤和程序
文本相似度计算及政策量化分析政策效应评估的四种主流方法详解数据分析必须要掌握的统计学知识计量经济学术语 (上)
Stata面板数据处理Stata命令cf,数据清洗双录双校利器
Stata:面板格兰杰检验xtranger
读懂Stata空间计量及应用关于stata的面板数据处理常用的27个stata命令常用的stata命令集常用的经济计量学R&stata命令对比汇总
回归分析知识点如何用Stata清洗问卷数据经济学实证研究中常见的40个误区研究生做文献综诉,常犯的4个错误实证常见的五种工具变量实证研究常犯的18个错误
科研论文:经管类CSSCI南大核心来源期刊投稿方式综合社科高校学报CSSCI南大核心来源期刊投稿方式因果推断——现代统计的思想飞跃2020年中国经济学研究热点分析空间计量经济学文献综述陆铭的13个实证研究锦囊碳达峰和碳中和管理研究:进展与综述国内几篇A刊的发表经验陈强:计量经济学实证论文写作全解析刘修岩:城市经济学模型与实证方法进展与趋势刘俏:”碳中和“给经济学提出那些新问题洪永淼:大数据革命和中国经济学研究范式博士如何接受完整、全面的科研训练顶级经济学期刊青睐何种计量方法管理世界投稿经验:如何回应审稿人意见基于195篇实证论文发现期刊编辑的喜好CSSCI期刊主编:论文写作用词八条建议论文参考文献怎么引用才能通过查重给博士生论文投稿实用建议常任轨教职经济学学术刊物目录
洪永淼等:中国经济科学的研究现状与发展趋. SCI论文需要的统计学知识文本分析在研究政策中的五大应用基于词嵌入文本分析的应用