查看原文
其他

实证研究的诀窍——因果识别!

这些诀窍讲的是“如何进行实证研究”,而不仅仅是“如何写实证论文”;但总的来看,“做”和“写”的差别并不大。


实证研究中最重要的三点是什么?是因果识别(identification)!


务必阐明因果识别的策略(当然,首先要理解因果识别的策略是什么)。


许多实证研究可归结为“A 导致了 B”,通常用某种回归估计进行佐证。


你要解释你所看到的数据中的因果关系是如何被识别的。


1. 要描述哪些经济机制导致了自变量(右边变量)的差异。


不过,上天赐给我们的真正的自然实验是少之又少的。


2. 要描述清楚残差中包含了哪些经济机制。


除右边变量(自变量)外,导致左边变量(因变量)变动的因素还有哪些?


3. 因此,需要从经济学的角度说明扰动项为何与右边变量不相关。


除非你做好了前面两项,要不然你无法解释清楚这一关键假设。


4. 从经济学的角度说明为何工具变量与右边变量相关,但与扰动项不相关。


5. 工具变量和控制变量之间的差异是什么?将 y 对 x 回归,何时 z 应作为自变量加到右边, 何时 z 应作为 x 的工具变量?


6. 对你所报告的每一个估计数字,要说明数据中哪些变量的差异导致了估计结果。


例如, 加入固定效应之后,相应的解释会截然不同。在回归方程中加入公司固定效应后,每个公司内部的时变因素会影响回归系数。若回归方程中没有加入公司固定效应,回归系数往往取决于在某一时刻上各个公司之间的差异。


7. 你确信你看到的是需求曲线,而不是供给曲线吗?


要想澄清这一问题,请自问“你在对谁的行为建模?”例如,你感兴趣的是利率如何影响住房需求,并用新增贷款量对利率作回归。但如果其他因素导致住房需求变得很大时,住房抵押贷款需求(以及与住房抵押贷款需求相关的其它贷款需求)也会抬高利率。你的暗含假设是需求曲线是不变的,价格的提高会降低需求量。但数据可能是因为供给曲线不变而产生的,从而增加的需求会抬高价格,或者需求与价格交互攀升。你是在对房屋购买者的行为建模,还是在对储蓄者的行为建模呢(储蓄会如何对利率变动做出反应)?


8. 你能肯定不会是 y 导致了 x?或者 z 同时导致了 y 和 x?


看看下面反向因果关系的例子吧。例如:前一个例子也是一种因果关系:究竟是利率变动导致了住房需求的变动, 还是住房需求的变动导致了利率的变动呢(或者是整体宏观经济状况同时导致了利率和住房需求的变动)?


9. 仔细斟酌自变量中应包括哪些变量,不应包括哪些变量。


大多数论文中引入的自变量过多。大可不必把决定 y 的所有因素都作为自变量。


a. R2 较高通常是坏事—这意味着回归方程是左脚的鞋子数量 = α + β×右脚的鞋子数量 + γ×价格 + 扰动项。右脚的鞋子数量不应该作为控制变量。


b. 不要做这样的回归:工资 = a + b×教育程度 + c ×行业 + 扰动项。固然,加入行业变量是会提高 R2,并且行业变量也是影响工资的重要因素(如果你做好了前述的第 2 项,它应该在扰动项里),但教育的主要目的是帮助人们进入更好的行业,而不是从助理汉堡师傅擢升为首席汉堡师傅。


只报告估计值和 p 值是不够的,要说明数据中导致估计结果的事实或规律。Fama 和 French 1996 年的论文《多因子解释》(Multifactor explanations)便是一个很好的例子。按照过去的文献惯例,只需要报告一个数字:GRS 检验。Fama 和 French 展示了每个投资组合的期望收益和 β 值,并说服读者相信期望收益的规律与 β 值的规律相吻合。虽然 GRS 检验糟糕透顶,但该文提出了近 15 年来最成功的因子模型!他们之所以成功了,是因为他们揭示了数据背后的固有规律。


务必阐明结果的经济上的重要性。除了说明核心数字统计上的显著性外,还应阐明它们在经济上的重要性。特别是对大型面板数据集,即便是极小的经济效应,在统计上也会显著。(对于大型面板数据集,若 t 统计量为 2.10,估计出来的效应确实非常微小!)


当然,每个重要的估计值都要报告其标准误。


来源: 节选自厦门大学《经济资料译丛》

作者:约翰•H•科克伦,芝加哥大学布斯商学院教授


点击查看往期汇编
科研数据:001 中国高速铁路线路&城市高铁开通数据
002 地级市面板数据1990-2019003 上市公司数据集-慈善、股权、研发、审计、高管004 地级市高新技术企业统计情况2000-2019005 碳交易、碳排放(分行业、国家、省、市、县)006 2008-2018中国上市公司政治关联原始数据007 1936-2018年全国县级以上干部数据008 地级市市长市委书记数据库009 上市公司2006-2018年资产负债收益010 各县接收上山下乡知青数量
011 832国家级贫困县摘帽数据
学习资料:
001 文献利器EndNote教程(视频-PPT)
002 SCI完整写作攻略003 北大空间计量经济学讲义004 博士研究计划范文005 空间权重矩阵和杜宾模型案例数据及分析006 三阶段DEA模型理论与操作手册视频讲解007 SPSS统计分析与行业应用案例详解008 R语言学习资料009 20套学术答辩PPT模板010 实证分析大全011 Fama-French五因子模型数据和Stata代码012 Stata17 win和mac版013 Stata17MP版最新使用指南全书014 时间序列分析入门015 实证研究只是一条路径并非捷径
016 盘点提供数据代码的国内外期刊
计量统计:7种主流数据分析软件及经典教材推荐Stata数据清洗方法回归结果不显著可采取方法与思路面板数据汇总实证模型三步走:数据、模型、结果检验调节变量、中介变量、控制变量七种经典回归方法六种定量方法解决内生性问题(stata代码)Stata双重差分操作流程及代码交互项与异质性分析面板交互固定效应模型详解5种安慰剂检验方法详解DIDM:多期多个体倍分法案例及代码
中介效应检验程序、操作应用政策评估反事实框架及匹配方法开展政策效应评估传统PSM-DID模型改进与应用广义DID超强的政策评估工具中介效应分析的四种方式、原则、方法和应用Stata17中DID、DDD方法及使用策略DID的平行趋势检验步骤和程序
文本相似度计算及政策量化分析政策效应评估的四种主流方法详解数据分析必须要掌握的统计学知识计量经济学术语 (上)
Stata面板数据处理Stata命令cf,数据清洗双录双校利器
Stata:面板格兰杰检验xtranger
读懂Stata空间计量及应用关于stata的面板数据处理常用的27个stata命令常用的stata命令集常用的经济计量学R&stata命令对比汇总
回归分析知识点如何用Stata清洗问卷数据经济学实证研究中常见的40个误区研究生做文献综诉,常犯的4个错误实证常见的五种工具变量实证研究常犯的18个错误
科研论文:经管类CSSCI南大核心来源期刊投稿方式综合社科高校学报CSSCI南大核心来源期刊投稿方式因果推断——现代统计的思想飞跃2020年中国经济学研究热点分析空间计量经济学文献综述陆铭的13个实证研究锦囊碳达峰和碳中和管理研究:进展与综述国内几篇A刊的发表经验陈强:计量经济学实证论文写作全解析刘修岩:城市经济学模型与实证方法进展与趋势刘俏:”碳中和“给经济学提出那些新问题洪永淼:大数据革命和中国经济学研究范式博士如何接受完整、全面的科研训练顶级经济学期刊青睐何种计量方法管理世界投稿经验:如何回应审稿人意见基于195篇实证论文发现期刊编辑的喜好CSSCI期刊主编:论文写作用词八条建议论文参考文献怎么引用才能通过查重给博士生论文投稿实用建议常任轨教职经济学学术刊物目录
洪永淼等:中国经济科学的研究现状与发展趋SCI论文需要的统计学知识文本分析在研究政策中的五大应用基于词嵌入文本分析的应用

文本大数据分析在经济学和金融学中的应用:一个文献综述

不可不知的五大工具变量研究方法综述
关于社会学定量研究选题技巧几篇金融C刊被拒(刊)的说法发表英文期刊的经验回归系数不显著怎么办67本核心期刊2022年重点选题大汇总统计计量 政策效应评估的四种的主流方法审核周期不超过30天的10本核心期刊顶刊论文:解决内生性的24中方法经管写作的10个套路SCI官方公布的105本被剔除期刊应用计量经济学常见问题汇总2022年国家基金及各部委重大课题申报时通知及时间汇总空间统计及软件资源2022年经济学&管理学学术会议大合集2022年考研经管类调剂汇总Stata常用命令C刊目录大合集北大中文核心期刊投稿方式汇总2022年应用统计调剂院校部分汇总硕士研究生投稿的常见问题和心态“差评”研究生学位论文的主要特点C刊的“秘密”100个学术网站合集7w篇CSSCI论文高频关键词分析

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存