统计计量 | 你的几百个回归结论可能都是错的，只因少做了这件事......

数据Seminar 2022-12-31

收录于合集 #统计计量 138个

本期文章

Findley, Michael G., Kyosuke Kikuta, and Michael Denly. "External Validity." Annual Review of Political Science forthcoming (2021): 1-51.

本文转载自公众号：NSD高级计量经济学

2020年12月，科兴生物宣布，其新冠疫苗在土耳其保护率达91%。不过，到了今年1月7日，科兴疫苗在巴西的总体有效率就降到了50.7%，勉强通过世界卫生组织划定的50%“及格线”。一时间，疑云四起。

科兴疫苗的三期实验保护率结果不一，引发广泛质疑。

从计量经济学的角度看，两个实验都是双盲随机对照试验，理应没有什么内生性问题。究竟发生了什么，使得两者的结果大相径庭？

答案在于“外部有效性”。不同的人群、不同的公共政策、不同的病毒变异株，都影响着疫苗效力的发挥。土耳其的实验结果，不一定就是对于全世界都适用的结果，并不一定能够迁移到其它的地区。也就是说，即便是随机对照试验的结果，随着时移世易，也绝不是“放之四海而皆准”的。

在经济学界，类似的问题也层出不穷。就在最近，Chen et al（2020）发表在AER上的论文，发现60-70年代的“知青下乡”运动导致中国农村人均教育年限的大幅度提升。各种固定效应和线性趋势的控制，让内生性的质疑几乎无从下手。然而，论文归根结底证明了什么？21世纪的中国还要把中学生送到乡下，让他们“广阔天地、大有作为”吗？

计量经济学家热衷于解决内生性问题，RCT、多元回归、DID、IV、RDD成为了五大“基本无害”的计量方法，似乎只要回归足够“干净”，研究便毋庸置疑。

外部有效性的质疑却告诉我们，事情没有那么简单。

本文从内含、起因和评估标准三方面讨论外部有效性。

什么是外部有效性？

外部有效性是指：一个基于有限样本的研究得到的结论，能够多大程度上适用到更加广泛的总体或者其它类型的总体。

一个研究首先要弄清楚研究的范围(scope)，总体(population)与样本(sample)。具体关系如下所示。

范围（Scope）、总体（Population）和样本（Sample）的关系。

范围与总体的区别有些微妙，范围里面可以有多个总体。还是以上山下乡为例。如果这个研究想说明青年人才对偏远或落后地区教育水平的外溢作用，那么研究的范围就是全球各个历史时段的各个地区。研究的总体（P1）可以是70年代的中国上山下乡涉及到的地区，而样本（S1）则是作者们收集的数据所在地区。

搞清楚这三者的范围，那么就自然而然地引申出两种类型的结论外推，一种是普遍性(generalizability)，另一种是可迁移性(transportability)。所谓普遍性，就是基于样本的结论能否适用到总体中；而可迁移性指的是能否把结论适用到研究范围内的另一个总体中。

上山下乡研究的样本数据依赖于地方志对知青的记载，包含了60-70年代中国1843个县。那么，他们的结论能否在没有数据的中国其它地区适用，就涉及到普遍性。换成当今的大学生的西部支教，能否产生这么显著的外溢作用？这里的总体转变为了当今的青年和西部县区（P2），这就涉及到可迁移性。

Chen et al（2020）研究认为，60-70年代的上山下乡运动将知识青年送到乡下，带来了当时农村教育的快速发展。

外部有效性的评价维度

应该从哪些角度评价外部有效性呢？作者提出“M-STOUT”评价维度，分别对应了机制（Mechanism），背景（Settings），处理（Treatment），结果（Outcome），抽样单元（Units）和时间（Time）。

接下来，我们以Chen et al（2020）关于“上山下乡”的研究为例，来解释这些维度的含义。

抽样单元 Units

抽样单元是指数据中研究对象的单位。在上山下乡一文中，抽样单元是县，选取的样本要求县城具有县志，且县志要记录当时知青来到这个县的数量。潜在的抽样单元的外部有效性问题，就是没有记载知青数目的县，情况是否和样本中的县城情况一致。

哪些样本能够外推到总体？一个可行的办法是比较样本数据和样本外数据的特征，如果特征相近，那么基于样本的结论或许就可以适用到总体。

处理 Treatment

处理的外部有效性，指对实验组进行的操作如果有所不同能否外推。一般情况下，处理的设计要求与研究问题比较贴切。在上山下乡的研究中，作者将青年“上山下乡”作为处理，指出去那边的青年是具有强制性的，往往不具有个人一些主观的考虑，也没有办法预料到自己什么时候回家。

但是，如今选择去西部支教的同学可能动机是为了支教保研、或者为今后从政积累资本，也知道自己一年后就会回家，那么这种模式的支教与当年知青下乡当老师其实是两种不同的处理，他们产生的结果可能会有不同的结果。在做外推时可能要比较谨慎。

结果 Outcomes

研究当中，我们需要选取观察到的因变量来衡量我们关心的问题。结果的外部有效性就是在考察选取的可观察因变量能不能外推到其它相关的变量。

比如，描述教育外溢选取的因变量是教育年限。如果考虑其它形式的衡量教育外溢的指标，结果是否还会成立呢？比如识字率或者考上重点大学的比率是否增加。这些指标也是我们关心的，并且是教育外溢的重要一部分。

背景 Settings

背景是指一项研究数据生成的环境，可以是在一个实验室或者一个村庄。一般来说，实验产生的数据往往内部有效性会较强，而观察得到的现实世界中的数据则外部有效性更强一些。

“上山下乡”研究既是在历来重视教育的中国进行的，又处在“文革”这一特殊政治环境。如果我们希望考虑研究背景的外部有效性，我们可以考虑那适用到其它国家结论一定成立吗？结果可能在不同文化背景和国家下表现不同。

时间 Time

上山下乡发生在20世纪60年代，如果我们希望把上山下乡促进教育外溢推广到当代大学生支教西部的问题上，那我们必须考虑那个年代的情况能否适用到今天。在不同的时代背景下，教育的外溢效应会增强或者减弱？

机制 Mechanism

机制这个概念非常复杂却也最重要，被排在了M-STOUT的首位。它对得到一个具有一般性的知识有着重要意义，因为它反映了一种因果关系，而不是单纯的事件序列。

在“上山下乡”的例子中，作者提出：上山下乡促进当地教育的一种机制是青年当了民办老师，而另一种机制是促进了“事在人为”的价值观。那么对于该论文而言，不但要对上山下乡促进教育外溢这一结论的外部有效性进行检验，还要对提出的民办教师与价值观这两种机制进行外部有效性的讨论。而这同样也需要STOUT多个维度。

外部有效性不足的原因

究竟有哪些问题可能导致外部有效性不足？作者提出了两个原因。

首先，是样本代表性不足。就拿疫苗研究来说吧。当我们在土耳其测试科兴疫苗的时候，我们其实是想知道疫苗对全世界所有人的保护效力。但是，土耳其人可能只是人群中非常特殊的一部分，在土耳其流行的毒株可能和其它地方也不一样。这也就解释了为什么疫苗在土耳其的有效率能有90%以上，在巴西却只有50%。两个国家的试验都是内部有效的，结果却大相径庭。

在经济学领域，这个问题就更加重要了。在政治经济学里，特别喜欢用聪明的微观实证方法来研究制度与经济增长的关系。比如说，比较国境线两边的村庄，这样排除了很多变量的干扰。

不过这些量化历史研究虽然披着大数据的外衣，内核却是Case Study，也就无法排除掉特定历史和文化背景的影响，其研究的政策含义也就值得商榷，需要谨慎对待。按照文献的结果，中国只要“保持其他条件不变”，转变为竞争性的多党政治，就可以期望经济增长率提高几个百分点。稍有常识的人都能看出，这种建议是未必靠谱的。

美国——墨西哥边境常被用来说明汲取型和包容型制度对经济发展的影响。但作为一种断点回归设计，其结果只对断点附近有效，外部有效性需要仔细考虑。

其次，是测量变量选取不当。比如说像诚信，应该如何测量呢？

Science杂志上的一篇文章就为此闹过大笑话。研究人员为了测量国家的诚信程度，随机地把一些钱包丢到公共场所。钱包里有一张名片，名片上面有研究者的电子邮箱，研究者通过统计有多少人回复了邮件，就知道有多大比例的人愿意归还钱包——从而测量出诚信水平。结果发现，中国人的诚信水平世界倒数第一！

Science的实验发现，中国人“最不诚信”？

不过这篇文章很快就惨遭打脸：他们忽视了最重要的问题，那就是电子邮件的使用率。回归发现，一旦控制住互联网使用率，经济发展水平、腐败指数等等对实验结果的影响都变得不显著了。所以说，这个跨国实验与其说是测量了诚信水平，倒不如说是测量了哪个国家的人习惯发email。

对于经常使用email的发达国家而言，回复率或许有效地度量了诚信；但移植到发展中国家，回复率的含义就完全不同了。这就是测量变量选取不当带来的外部有效性问题。

测量方法不当会导致外部有效性不足。中国人“最不诚信”可能只是因为中国人不发邮件。

上山下乡促进教育的这篇文章也存在这个问题：作者们用教育年限来衡量学生的人力资本。不过，文革时候的学生们都在闹革命、大串联、忆苦思甜、开批斗会，还有多少时间真正用来学习呢？当时的教育年限增加，未必相当于今天的人力资本提升。

所以说，如果选取的测量方法不能反映我们真正感兴趣的概念，研究的外部有效性也会大打折扣。

外部有效性和内部有效性同样重要。社会科学所要探究的是总体的规律，需要应用到样本之外的场景当中。如果解决不了外部有效性问题，研究结论也就失去了推而广之、指导进一步实践的价值。遗憾的是，当今的学界在对内部有效性吹毛求疵的同时，大大忽视了外部有效性的问题。

外部有效性的评估标准

文中作者给出了三种评估外部有效性的标准：模型效用(Model Utility)、范围合理性(Scope Plausibility)、规范可信度(Specification Credibility)，其中前两者是独立的标准，最后一个描述了模型效用和范围合理性这两个规范的可信度。

需要强调的是，我们并不指望每个从样本中得出的结果都是永恒而普世的规律。不过，结果必须以某种方式在样本外部应用。更准确地说，学者们需要努力争取某种程度的外部有效性，并准确地描述其范围。

模型效用 Model Utility

用模型效用评估外部有效性，关键是要把机制说清楚，而不是只给出回归系数。

比如在上山下乡促进教育的研究中，作者指出其机制在于下乡知青做了民办教师，并给农村孩子带来了一种“事在人为”的价值观，激励农村孩子努力进取。尽管文章中将机制说得很清楚，并成功说明了外部有效性，但同时也说明了上山下乡带来的浪费很大，所以今天没法实现，这个研究对今天的意义也不在重复上山下乡。

模型效用有三个组成部分：

外部有效性推论是与机制而不是具体点的估计联系在一起的；
有因果关系原则的机制被明确规定；
外部有效性推断的主体，已得到很好的概念化和明确表达。

范围合理性 Scope Plausibility

范围合理性的意思是，没有放之四海而皆准的研究结果，要视具体研究而定。该标准的关键在于，首先要明确想要推广到或转移到的群体，其次要尽可能保证从总体中随机抽样。

例如，Baylis, P. (2020)在对于气温对情绪的影响的讨论中，论证外部有效性的时候，作者另选了六个能获得足量Twitter数据（至少100万条推文）的英语国家进行分析。分析表明，澳大利亚、印度和肯尼亚的人们都在一定程度上更喜欢温和的温度，并将结论推广到世界各地的人们对温度的情绪反应具有一定程度的一致性。这里面就利用了范围合理性来说明外部有效性。

范围合理性有四个组成部分：

确定并阐明了所有STOUT维度的理论总体和可及群体；
机制（M）与所有STOUT之间的因果相互作用是通过情境具体说明相关性或不言而喻来阐明的；
所有STOUT维度的样本都是随机，视情况随机选择的（或按需分层随机选择），如果未按随机方式选择样本，则预先指定权重和事后分层可以提高代表性；
如果样本是非随机的，那么应当根据理论选择有代表性的样本，以便于外推。

规范可信度(Specification Credibility)

简单来说，就是你对前两个规范的论述在多大程度上靠谱。

规范可信度有四个组成部分：

进行外部有效性推断需要进行理论和研究设计，以确保可以进行外部有效性推断；
外部有效性模型的假设和特征是合理的；
该研究的估计保留了理论目标群体的完整性；
理论指导的研究综合证实了研究计划的外部有效性。

结论

在过去的几十年当中，顶级的经济学期刊所收到的投稿数量也爆发式上升，在评选稿件时，审稿人对于内部有效性问题越来越挑剔，论文作者不得不绞尽脑汁排除各种内生性。然而与此同时，外部有效性问题则很少受到关注，诚如作者所言，社会科学研究进入到了《爱丽丝漫游奇境》中的兔子洞，迷失了方向。

忽视外部有效性将会使研究的可推广性大打折扣。比如排除内生性的重要方法是使用工具变量，然而在高级计量经济学的学习中，我们知道使用工具变量的一个潜在问题是研究可能只适用于一部分样本，从而降低了其作为社会科学知识的一般性。这里就涉及到内部有效性与外部有效性的权衡取舍。

本文对外部有效性问题进行了综述，解释了相关概念，诠释了重要意义，提供了评价标准。如果我们相信经济学研究不是自娱自乐的游戏，而是指向经世济民的目的。那么在解决了内部有效性诸多技术细节，做出精致美丽的结果的同时，我们必须将外部有效性考虑进来，后者的成立才使得一个经济研究具有广泛的政策意义。

作者最后呼吁，每篇实证论文都应该拿出专门的部分讨论外部有效性，就像现在讨论内生性一样。不过根据David Card的统计，过去五十年里经济学论文的平均长度已经翻了三倍。

1970年以来，经济学五大期刊的平均论文页数不断增加。

这实证论文，怕不是还得再续上几页。

参考文献：

Baylis, Patrick. "Temperature and temperament: Evidence from Twitter." Journal of Public Economics 184 (2020): 104161.

Chen, Yi, et al. "Arrival of Young Talent: The Send-Down Movement and Rural Education in China." The American Economic Review, vol. 110, no. 11, 2020, pp. 3393-3430.

Cohn, Alain, et al. "Civic honesty around the globe." Science 365.6448 (2019): 70-73.

Findley, Michael G., Kyosuke Kikuta, and Michael Denly. "External Validity." Annual Review of Political Science forthcoming (2021): 1-51.

Huynh, Toan Luu Duc, Mei Wang, and Marc Oliver Rieger. "How does the email matter to the civic honesty? A comment on Cohn et al.(2019)." Business and Society Review 125.4 (2020): 387-391.

星标⭐我们不迷路！

想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

统计计量 | 实证分析中常用的工具变量法及其Stata操作

企研数据·招聘 | 让世界看到你的影响力

特别推荐｜《管理世界》最新文章提出如何构建企业数字化转型指标

企研数据·招聘 | 让世界看到你的影响力

软件应用 | Stata：格兰杰因果检验

软件应用 | 简单实用的pandas技巧：如何将内存占用降低90%

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

推荐 | 杨奇明

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

统计计量 | 你的几百个回归结论可能都是错的，只因少做了这件事......

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

统计计量 | 你的几百个回归结论可能都是错的，只因少做了这件事......

您可能也对以下帖子感兴趣