统计计量 | 稳健性检验的套路:学会后即可一招鲜,吃遍天吗?
The following article is from 功夫计量经济学 Author 江河JH
稳健性检验的套路:学会后即可一招鲜,吃遍天吗?
本文转载自公众号功夫计量经济学(ID:Kungfu_econometrics)
作者:江河JH
原文链接:https://mp.weixin.qq.com/s/QSYcgpdRPi0L20uJUhoKgg
稳健性检验是经济学“八股文”中至关重要的一部分,一般都放在基准回归后面,主要就是为了说明实证结果的稳健性,让自己信服,更重要的是要让审稿人和读者信服。因为,基准回归的结果可能是偶然的,可能是人为操纵的,所以稳健性检验就显得至关重要了,不要以为做几个基准回归就大功告成了,其实那才只是皮毛,稳健性检验会占到实证部分的很大篇幅。
稳健性检验的套路其实很简单,多看几篇论文你也许就发现一些通用做法,稳健性检验的思路大致可以分为以下几类:
Part1变量角度
变量测量问题是计量经济学中至关重要的问题,一个变量可以有多种度量方式,从变量角度进行稳健性检验最常见的方式就是尝试更换被解释变量y或是核心解释变量x,选择较为相似的变量,重新进行估计,看看系数大小和方向的变化。例如,企业全要素生产率的估计方法有OP法、LP法等等,任胜钢等(2019)在估计排污权交易机制对企业全要素生产率的影响时,基准回归部分的TFP使用的就是LP法,而后又使用了GMM法估计的TFP进行了稳健性检验。再例如,很多使用夜间灯光数据的论文,为了说明夜间灯光数据的可信性,都会在稳健性检验中将夜间灯光亮度替换为人均GDP或是其他指标,重新进行估计。
上面两个例子都是有关被解释变量的重新度量,核心解释变量的重新度量也相当重要,例如,陈淑云和杨建坤(2018)在研究住房状况对居民健康的影响时,就使用了两种度量住房状况的方式,一种是是否拥有住房,二是住房的套内建筑面积。之前看到学妹的一篇研究环境治理的政策效果的工作论文,她就在稳健性检验中使用了多种指标去重新度量环境治理,让我印象最深刻的一个指标就是政府工作报告中的环境词频,我也是看到她的那篇论文,才想起来写了“使用环境词汇去度量地方政府环境治理:政府工作报告能告诉我们什么信息?”。
从变量角度,当然还有尝试加入更多控制变量的,例如,钱雪松等(2018)在研究产业政策对企业TFP的影响时,考虑到企业全要素生产率可能会受到企业所在城市特征因素的影响, 就进一步引入城市特征因素作为控制变量进行稳健性检验。当然,还有尝试加入各类虚拟变量的(如时间固定效应、地区固定效应和行业固定效应等等),在此就不再赘述了。
Part2方法角度
计量的工具库十分丰富,能够为我们提供多项方法的选择余地。例如,混合OLS、固定效应or随机效应?静态面板or动态面板?LPM、Logit or Probit?针对不同方法还有一些特殊的稳健性检验,比如对于双重差分法DID,我们首先要做的就是平行趋势检验,很多文章可能都会在稳健性检验中先将样本PSM一下,然后再进行DID估计,再比如DID中我们需要做的安慰剂检验,合成控制法SCM需要做的安慰剂检验。
Part3数据角度
数据角度一种常见的稳健性检验方法就是剔除可能影响结论的特殊样本,很多论文可能都会对样本进行winsor缩尾处理,这是一种最基础的做法。除此之外,还需要根据你的研究对象、变量选择进行具体问题具体分析,一个思路就是从个体视角剔除可能影响结论的特殊样本,例如,杨良松和庞保庆(2014)在研究省级领导对财政支出的影响时,考虑到少数民族自治区的政府主席与其他地区的省长或市长有显著不同的特征,因此就在稳健性分析中删除了五个自治区的样本,重新进行了估计。另一个思路就是从时间视角去剔除可能影响结论的特殊样本,例如,很多学者在使用中国工业企业数据库的时候发现网上流传的2010年的数据存在质量问题,可能就是数据贩子造假造出来的,因此很多使用1998-2013中国工企库数据的论文可能就会在稳健性部分删掉07年之后数据或者删掉10年数据重新进行估计。
还有一种方法就是更换研究数据,不过这种方法实现较为困难,因为搜集处理数据是一件很磨人的事情。例如,佟家栋和刘竹青(2018)研究房价上涨对建筑业和制造业的影响时,不仅基于城市数据进行了中观讨论,而且还基于微观企业数据进行了实证检验,进一步增强了其实证结果的说服力。
Part4内生性处理
当然,除此之外,还有相当重要的一类稳健性检验——内生性处理。内生性主要来源于遗漏变量偏差、双向因果关系和测量误差偏差和动态面板偏差四类问题,有关这四类内生性问题的详细解释,请参见“吾日三省吾身:内生性问题及其解决方案”一文。
对于内生性问题最好的解决方案就是找到一个合适的工具变量,因此,大部分论文的稳健性检验都有对工具变量“浓墨重彩”的一笔。不过,工具变量是一门技术,更是一门艺术,工具变量用的好能够为你的论文增光添彩,用的不好还可能会让你的论文大打折扣,逼格瞬间就下去了。想要找到一个合适的工具变量是相当困难的,是要看缘分的,也许我们可能再做二十年研究都想不出“各府到最近的松木和竹子产地的河流距离”、“殖民时代的死亡率”和“1919年各城市每千人中基督教教会初级小学注册学生人数”这种空谷绝响般的工具变量,也许可能下一秒脑海中就迸发出一个绝妙的工具变量,正所谓“众里寻他千百度。蓦然回首,那人却在,灯火阑珊处”。
所以,我们能做的就是“多读书,多看报,少吃零食多睡觉”,多了解一些历史、地理等方面的知识,接受知识的“熏陶”,这对我们的经济学研究是大有帮助的。大家可能都不想遇到内生性问题这只“拦路虎”,所以大家写论文时都尽可能找外生政策冲击作为核心解释变量,这么做也能省去对工具变量的苦苦求索。当然,稳健性检验的方法和思路肯定不止这些,我只能提供一些简单的思路,希望能帮助到大家,大家还是要学会根据自己的论文具体问题具体分析。矛盾具有特殊性,想要“一招鲜,吃遍天”是不可能的,哈哈哈!
参考资料
[1]任胜钢,郑晶晶,刘东华,陈晓红.排污权交易机制是否提高了企业全要素生产率——来自中国上市公司的证据[J].中国工业经济,2019(05):5-23.
[2]杨良松,庞保庆.省长管钱?——论省级领导对于地方财政支出的影响[J].公共行政评论,2014,7(04):72-111+184-185.
[3]陈淑云,杨建坤.住房是否影响了居民健康?——来自中国综合社会调查(2015)的实证分析[J].华中师范大学学报(人文社会科学版),2018,57(05):55-64.
[4]佟家栋,刘竹青.房价上涨、建筑业扩张与中国制造业的用工问题[J].经济研究,2018,53(07):59-74.
[5]钱雪松,康瑾,唐英伦,曹夏平.产业政策、资本配置效率与企业全要素生产率——基于中国2009年十大产业振兴规划自然实验的经验研究[J].中国工业经济,2018(08):42-59.
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
推荐 | 青酱
欢迎扫描👇二维码添加关注