“内生性” 到底是什么鬼？

原创 2017-07-06 王也政见CNPolitics 政见CNPolitics

以下内容选摘自政见团队小密圈 “小见纵览全球社科学术”，欲阅读更多类似内容，请扫描文末二维码加入小密圈和我们的团队成员互动。

王也 / 纽约大学政治学博士生

内生性（endogeneity）的概念跟内生变量（endogenous variable）的概念息息相关。而内生变量这一概念的兴起又跟社会科学的模型化和系统化密不可分。比如曼昆在他的经济学原理（或者是宏观经济学？）一开头就举了一个汉堡包的例子：在汉堡包的生产中，有投入（原料、劳动、工厂），有产出（汉堡包），我们感兴趣的是中间的制作流程。那么研究者应该做的，是通过一个模型来刻画上述制作流程（比如一个生产函数），从而给定模型的输入（各类投入品的消耗），就能计算出对应的输出（汉堡包产量）。在得到了准确的模型之后，我们就可以进一步对汉堡包的生产进行预测和改进，达到理解世界和改造世界的目的。在这个例子中，投入就是汉堡包制造模型中的外生变量，而产出则是内生变量。换言之，外生变量是模型中的 “原因”，而内生变量是模型中的 “结果”。

很明显，这种思考问题的方法带有浓重的控制论色彩，将任何社会现象都看作一个包含了输入、输出和模型三部分的系统（或许是二战期间大批巨型工程，比如曼哈顿工程的遗产？）。在政治学里，这种视角导致了大卫·伊斯顿（David Easton）的系统主义尝试（今天的影响力已然不大）。而在经济学中，其结果是学者们开始将宏观经济的运行作为一个包含了数十乃至数百种输入和输出的巨大系统加以处理，以至于联立方程模型在五六十年代变得非常流行。学者们认为，可以用一大堆线性方程来表示各个宏观指标（比如物价、失业率、利率等等）之间的关系，从而为政府的经济政策指定提供参考（当然凯恩斯主义的发展在其中也扮演了重要角色）。

我们都知道，在一个回归方程里，等号左边是因变量，右边是自变量。在联立方程模型里，我们有几十乃至几百个方程，所以每个变量都可能同时出现在方程 A 的左手边和方程 B 的右手边。也就是说，这些变量的值既被其他变量决定，又能够影响另外一些变量。它们在整个模型中起了中间环节的作用，因此被称为 “内生变量”（只出现在左手边的变量显然也是内生的）。如果我们假设每个变量都是内生的，那模型中的参数就会太多，以至于根本无法估计（不可识别）。所以，研究者必须根据理论或者现实观察，对模型加以简化，假设某些变量只出现在各个方程的右手边，这些纯粹的 “输入” 就被称为 “外生变量”。正是外生变量的存在，使得我们可以 “识别（identify）” 模型中的参数。

举个最简单的例子，经济学里基本的供求模型告诉我们，供给曲线（p = a + bq）和需求曲线（p = c - dq）共同决定了价格（p）和交易量（q）。然而现实中我们能够观察到的，只是一组均衡时的 p 和 q，基于这个数据，我们用回归只能得到斜率和截距两个参数的估计值。但供给曲线和需求曲线里一共有四个参数（a b c d）。此时，通过回归这种 “简约式（reduced form）” 估计得到的参数，无助于我们得知 “结构式（structural form）” 模型中的 “深层参数（deep parameter）”。我们的系统里的p和q都是内生变量，所以才会出现无法识别的情况。怎么解决这个问题呢？经典的办法是，假定存在着某个不影响需求，只影响供给（或者反过来）的外生变量。比如在渔业中，海上的坏天气很可能阻碍渔船出海，形成一个供给侧的冲击，但应该不会改变人们对海产品的需求。根据天气的变化，我们就有可能估计出全部的四个参数。事实上，这也是 “工具变量（instrumental variable）” 这一估计方法的起源。

从今天的角度来看，联立方程模型当然充满了各种问题：为什么方程都是线性的？这么多关系式是从何推导而来？因此在经济学和政治学中，这套方法已经不再时兴。但是，这整个体系时至今日，还在很大程度上左右着社会科学家们对实证研究的评判。当我们写下一个回归方程的时候，其实已经假定了：1. X 是 “外生变量”，而 Y 是“内生变量”，2. 整个系统中或者不存在其他方程，或者其他方程的存在不影响当前方程的估计结果。因此，当人们说你的模型有内生性问题的时候，他们的意思其实是：有没有可能真实的系统中实际上有另外一个方程，在其中当前的 X 位于等号左边？在这个方程中，如果右端是 Y，我们就说 X 和 Y 互为因果；如果右端是另一个变量 Z，我们就说存在遗漏变量。这也就是导致内生性的两个基本原因。假如真实系统里有两条方程，你只用 OLS 估计了一条，那么因果链条的一部分就被忽视了，得到的估计也就无法反映系统中的实际情况。

那么，怎么避免出现内生性问题呢？基本的思路有两种。一是用 “简约式（Reduced Form）” 估计，亦即做实验或者找一个自然实验。这种情况下，X 完全由实验者或者 “自然” 决定，从而在系统中不会出现在任何方程的左手端。工具变量从本质上来说，就是一个自然实验。二是用 “结构式（Structural Form）” 估计，也就是写一个模型，从 “深层参数”，比如偏好、技术条件、资源禀赋等要素出发，推导出整个体系中各个 agent 之间的相互关系。这时候，我们可以 argue 说，我们的模型准确地反映了现实情况，也就是穷尽了变量之间可能存在的各种关系（或者从联立方程的视角出发，找到了系统中全部的方程）。接下来，我们可以用最大似然或者广义矩估计这样的方法，同时估计从模型中推导出的全部关系式，得到相应的参数。

两种思路各有优劣。简约式依赖于实验或者自然实验的有效性，而在社会科学中这很多时候都无法保证。另外，即使估计出了准确的参数，我们得到的也只是整个系统之中一条逻辑链条（一个方程）所包含的信息。对于系统中可能存在的其他关系，我们还是一无所知。而且在自然实验中得到的结论，能在多大程度上代表一般性的情况，也是个很大的问题。相比之下，结构式估计可以告诉我们整个系统的普遍性规律。利用估计出的深层参数，我们可以很方便地得到各种假想情况下会出现的结果（反事实推断）。但怎么保证我们的模型确实是现实世界的近似呢？其实还是要依赖于（甚至比自然实验更强的）假设。经济学目前的潮流，是把两种思路结合起来：写出模型之后，用自然实验来推断参数。这种方法更加可信，但对于研究者的要求也更高。

上面讲了半天好像都是在讲经济学。从我个人的观点来看，“内生性” 确实是一个经济学家喜欢用的名词。对社会规律的模型化和系统化在经济学中进行得格外彻底，而只有从模型和系统的角度出发，内生性这个词才显得比较有意义。相比之下，政治学和社会学中的理论更像是散落各处的命题，而非完整体系中的一个部分。所以，这两个学科中 formal model 比较少，用 model 来做结构化估计的尝试就更加罕见。政治学和社会学中的实证研究，其实更加贴近统计学的路数，不愿意仰仗模型（回归方程），而更偏好 agnostic 的估计方法（匹配，机器学习等等）。只是因为 “经济学帝国主义” 的渗透，内生性的概念才进入到了其他社会科学之中，并在很多时候被当作了 “unconfoundedness”（即给定协变量之后 treatment 和 potential outcome 相互独立）的同义词。不过，如果我们不从 Rubin Model 出发，而是把 Pearl 的因果图作为实证研究的参照系，那么内生性在因果推断中还是有其位置的。

以上内容选摘自政见团队小密圈 “小见纵览全球社科学术”，欲阅读更多类似内容，请扫描下方的二维码加入小密圈，和我们的团队成员互动。

我们是政见CNPolitics（微信号：cnpolitics2011）。我们致力于拆掉知识的高墙，让普通人读懂学术研究。

关注我们，获取更多新知。分享我们的文章，传播更多靠谱观点。

我们的内容均为原创，个人如需转载，请注明出处及网站链接 http://cnpolitics.org；媒体机构（含各类网站及微博、微信公号）转载请联系授权：Webmaster@CNPolitics.org

长按二维码关注