查看原文
其他

“稳健性检验”到底有何用?

▌本文为“格致方法·社会科学研究方法译丛”新作《定量研究中的稳健性检验》的中文版推荐序,作者为复旦大学特聘教授、教育部“长江学者”特聘教授唐世平。

对于任何一位刚开始阅读定量实证研究的社会科学学生来说,他或她的第一印象之一都是:哇!这么多回归结果表格和模型!接下来的问题是:这么多回归结果表格和模型都是干什么的?哦,作者说这些不同模型都是“稳健性检验”。那是不是“稳健性检验”越多,就意味着文章的实证结果更可靠呢?
而对于任何一位已经学习了一定的定量研究技巧并且运用定量分析来获得实证结果并尝试投稿的社会科学的学生或者学者来说,他们碰到的最多的审阅的意见估计是:(1)自变量和因变量之间可能有(很强)的内生性呀?这里面的内生性怎么解决啊?(2)作者应该做更多的“稳健性检验”。对于第一个意见,大部分人的反应估计是:我们已经很努力了,但是面对观察数据,完全解决内生性几乎是不可能的啊!对于第二个意见,大部分人的反应估计是近乎:天哪!你站着说话不腰疼啊!你知道我们已经做了多少“稳健性检验”了吗?我们已经跑了成千上万个回归模型!再让我们做更多的多少“稳健性检验”,你还让不让人活了啊(绝望的样子)?!之后,可能还有一句不能说的大实话:我们放出来的结果是我们能够获得的最漂亮的结果了啊!P值始终小于0.05,嘿嘿!

上述的假想对话并非空穴来风:它们都是众多学生、学者和我本人的经验。在这些问题的背后,其实是两个问题:(1)“稳健性检验”到底为了什么?(2)什么才是正确或至少合适的“稳健性检验”?


而在绝大部分关于定量实证研究的教科书或者工具书中,却几乎不涉及这两个问题。绝大部分关于定量实证研究的教科书或者工具书讨论的都是模型的原理和基本操作。也就是说,它们告诉我们前面的50步,可是后面的50步(即获得可靠的实证结果,或许能发表)却一笔带过,甚至不提及。

于是乎,许多从事定量实证研究的社会科学学生和学者就认为:只要是不同的回归模型,就都算是“稳健性检验”。而如果跑了上百个模型,实证结果都屹立不倒(“始终显著,至少两颗星!”),那文章的实证结果就等于通过了很多“稳健性检验”,因此也就是非常可信的了。

很不幸,因为不同模型意味着不同的假设,不同的变量。而特别是变量一多(甚至只增加一个变量),变量之间的相互作用的可能性就增加。而如果不仔细考虑这些变量之间的关系,则这些增加了(控制)变量的模型可能是不成立的,甚至是完全误导性的。

因为这些新加入的(控制)变量可能是自变量和因变量之间的“中介变量”(intervening variable)、“调节变量”(moderating variable)、“干扰变量”(confounding variable)、 “竞争性解释变量”(competing explanatory variable),甚至就是自变量或者因变量的另一个度量。而如果不能大致想清楚控制变量和自变量或者因变量之间的关系,许多稳健性检验模型就等于是“垃圾桶回归”(garbage can regression)。这样的 “稳健性检验”不能增加我们对某些实证结果的信心:它们只是为了发表文章的形式主义。
由诺伊迈耶和普吕佩尔合著的这本书(Neumayer and Plümer,2017)是极少数只讨论“稳健性检验”的参考书之一。本书最重要的优点就是告诉我们,对实证结果的不同疑虑需要不同的“稳健性检验”,而这些“稳健性检验”背后的大致原理是什么。

他们的核心出发点是:因为我们不知道我们的定量模型是否正确(我们永远也不可能知道),因此,我们必须用“稳健性检验”去尽可能排除我们的模型是(完全)不正确的可能性。换句话说,面对“模型的不确定性”(model uncertainty),“稳健性检验”是为了表明我们的定量模型是“valid”(成立的),因此,我们获得的“因果推断”(causal inference)应该是比较的可靠的(reliable)。而要想达成这样的结果,我们必须在条件允许的情况下,尽可能做好的“稳健性检验”。

作为一本基础性的参考书,这本书让我们对八大类的“模型的不确定性”(model uncertainty)有一个的基本了解,并且对如何面对这些“模型的不确定性”有一个基本的指南。

因此,我第一次看到这本书时,就觉得本书是一部非常有用的参考书,并且在博客上推荐了一下。没想到格致出版社的编辑唐彬源先生一下子就认真了,组织了人手翻译。非常感谢唐彬源编辑,以及两位译者(韩永辉、谭锐)的辛勤劳动。

最后,还是要来点负能量。本书无法穷尽定量实证研究中各种各样的问题。而无论你做了多少稳健性检验,除非你认识编辑或者审稿人知道就是你的文章,而你已经是大咖无比了,你收到的审阅意见几乎肯定少不了这一条:做更多的“稳健性检验”!而更可怕的是:很遗憾,做了也不意味着你的文章能被接受!

定量研究中的稳健性检验

[英] 埃里克·诺伊迈耶

[奥] 托马斯·普吕佩尔 著

韩永辉 谭锐 译

格致出版社

👆点击封面 即可购买


在设定估计模型时,研究者面临的不确定性威胁着推断的有效性。在基于观测数据的回归分析中,“真实模型”是未知的,研究者者只能从貌似合理的替代性设定中进行选择。稳健性检验方法能够帮助研究者考察探究如下问题,即在合理变化模型设定的情况下,主要估计量是否保持稳健的问题。这本非常易读的书介绍了稳健性检验的逻辑思路,提供了稳健性概念的可操作化定义,它可以应用于所有定量研究中。本书书中还向读者介绍了多种类型的稳健性检验。本书各章聚焦于模型不确定性的不同方面,作者对系统地回顾了现有的检验方法进行了系统回顾,并发展出很多新的方法。总体或样本、测量方法、解释变量集及其函数形式、因果和时间异质性、动态效应或空间依存性,无论是哪种不确定性,本书都将提供给予相关的指导,并为社会科学研究者提供可应用于他们研究中的检验方法。


作者简介

埃里克·诺伊迈耶 伦敦政治经济学院环境与发展学教授。主要研究领域为环境经济学、国际政治经济学和定量研究方法。

托马斯·普吕佩尔 维也纳经济大学定量社会科学教授。主要研究领域为政治经济学、政治科学和社会科学方法论。



目录


中文版推荐序

致  谢

稳健性检验列表


第1章 导论

1.1本书贡献

1.2本书概览


第一部分 稳健性——一个概念性的框架


第2章 因果复杂性及推断有效性的局限

2.1 引言

2.2 社会科学研究与因果推断

2.3 因果复杂性

2.4 从模型误设到模型不确定性和稳健性检验

2.5 稳健性检验和因果推断

2.6 小结


第3章 稳健性检验的逻辑

3.1 引言

3.2 社会科学研究中的稳健性检验

3.3 稳健性检验的四个系统性步骤

3.4 稳健性的多维性

3.5 稳健性检验的目的和目标

3.6 小结


第4章 稳健性的概念

4.1 引言

4.2 当前实践中的稳健性定义与概念

4.3 定义稳健性

4.4 连续稳健性与二分稳健性

4.5 稳健性和统计显著性

4.6 非线性模型和线性模型的局部稳健性

4.7 小结


第5章 稳健性检验的类型

5.1 引言

5.2 模型变异检验

5.3 随机置换检验

5.4 结构置换检验

5.5 稳健性极限检验

5.6 安慰剂检验

5.7 小结


第6章 稳健性检验的替代方案?

6.1 引言

6.2 模型设定检验

6.3 模型选择算法

6.4 模型平均方法

6.5 案例选择研究设计

6.6 利用工具变量估计进行效应隔离

6.7 社会科学实验

6.8 小结


第二部分 稳健性检验和模型不确定性维度


第7章 总体和样本

7.1 引言

7.2 演绎性和归纳性总体与选择问题

7.3 总体不确定性和稳健性检验

7.4 样本不确定性和稳健性检验

7.5 观测缺失导致的样本不确定性

7.6 小结


第8章 概念有效性和测量

8.1 引言

8.2 测量,计数和量化

8.3 概念有效性的不确定性:代理变量的作用

8.4 代理变量的稳健性检验

8.5 测量误差

8.6 测量误差的稳健性检验

8.7 小结


第9章 解释变量和遗漏变量

9.1 引言

9.2 控制变量的取舍

9.3 未知和不可观测的遗漏变量

9.4 潜在遗漏变量的稳健性检验

9.5 小结


第10章 默认函数形式之外

10.1 引言 

10.2 标准操作:在“测量”和随意变换之间

10.3 连续变量的多项式稳健性检验模型

10.4 连续变量和顺序变量的半参数稳健性检验模型

10.5 小结


第11章 因果异质性与环境条件性

11.1 引言

11.2 异质性与模型简化的逻辑

11.3 因果异质性的稳健性检验

11.4 环境条件性的稳健性检验

11.5 小结


第12章 作为时间异质性的结构性变化

12.1 引言

12.2 从结构性变化到时间异质性

12.3 效应强度时间异质性的稳健性检验

12.4 小结


第13章 效应动态机制

13.1 引言

13.2 “动态性”的意义:分类

13.3 动态设定的不确定性

13.4 时间块检验

13.5 动态模型备选设定检验

13.6 检验替代效应的起点、持续时间和强度的时间变化

13.7 动态异质性

13.8 小结


第14章 空间相关性和依存性

14.1 引言

14.2 空间依存理论

14.3 将空间依存性视为障碍

14.4 作为研究对象的空间依存性

14.5 加权矩阵的设定

14.6 小结


第15章 总结


参考文献


英汉名词对照表



往期导览

点个在看 不再与好书擦肩而过

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存