六种定量方法解决内生性问题, 附stata代码操作

计量经济圈 2022-05-11

收录于合集

#计量圈内生性 11 个

#计量圈Stata 35 个

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

来源：二三两两（知乎）；转载：刘西川阅读写作课

一、控制代理变量

代理变量：用来代替观测数据中难以得到或无法测量的信息。

举个例子：例如研究“是否上大学对收入的影响”，要控制住上大学这个条件之外所有对收入可能造成影响的条件，比如“能力”，家庭条件等有很多难以测量的信息被遗漏

好的代理变量满足以下三个假设，由于比较难理解，穿插例子的形式进行理解：

比如说我们想看是否上大学对收入的影响，

即原本的关系满足：

我们找到了衡量“能力”的代理变量IQ，满足

原本的关系变成：

衡量IQ是一个好的代理变量需要满足以下三个假设：

假设1，代理变量与所缺失的混杂因素相关。即IQ与Ability相关，γ1不为0；
假设2，如果将该代理变量纳入方程内生性问题，则不存在。即Ability放入Income式子中，方程原本的内生性不存在，即新产生的不与colledge或iq相关；
假设3，无法被代理变量所解释的那部分缺失变量与其他自变量无相关。即e不与colledge或iq相关。

4. 代理变量的不足

代理变量可以大概率减少该变量所在的内生性问题，但是无法完全替代我们研究中所忽略的那个变量。

二、固定效应模型

基于分析面板数据（对同一样本进行重复观测，比如说家庭追踪调查）

公式解释固定效应

通过对同一样本进行重复观测，得到简单的线性回归：，其中残差项可以分成两部分和，

，其中指那些影响y却不随时间变化的不可观测变量，有时被称作固定效应，指代不可观测的异质性；指随时间变化的，但不影响外的不可观测变量。满足独立同分布。

3. 一阶差分模型（FD）

当面板数据的时间为两个阶段的时候就是一阶差分模型，当时间大于两个阶段的时候就是固定效应模型，一阶差分模型以第一时间段为基期水平，进行相减，从而抵消固定效应，而固定效应模型以所有期的平均水平为基准点，每一期减去平均水平消去固定效应。

3.注意，如果我们使用固定效应模型去分析x对y的影响时，那么x需要是随时间变化的变量，因为非时变变量会被固定效应消去，无法估计。

4.拓展--随机效应模型（RE ）

如果我们非要去研究非时变变量对于y的影响，那么可以使用随机效应模型。随机效应模型既可以去估计非时变量的影响，也可以估计时变变量的影响。但是需要满足一定条件，，t=1,2，……，T中，与不相关，即，t=1,2，……，T,其中在固定效应模型中是指那些影响y却不随时间变化的不可观测变量，在随机效应模型中，满足独立同分布，所以才能研究非时变变量对于y的影响。

4.1Stata命令实现RE模型

三、工具变量（IV）

通过构建工具变量，来检测不可观测的因素的影响。

工具变量的来源

自然现象

霍克斯比：Y=地区教育质量；X=地区学校数量；Z=地区河流数量（通过河流划分学区）
阿西莫格鲁：Y=国家人均收入；X=制度；Z=殖民地时代死亡率
安谷瑞斯特：Y=母亲就业；X=孩子数；Z=老大老二的性别组合

时空距离（自然历史实验）

安古瑞斯特：Y=收入；X=教育年；Z=出生的季度
卡德：Y=收入；X=教育年；Z=家距离大学远近
钱楠筠：Y=男女性别比；X=家庭收入男女性别比；Z茶叶加工
陈云松：Y=幸福感；X=是否信教；Z=解放前宗教场所
陈云松：Y=政治信任；X=城市餐饮,解放前宗教场所；Z=餐饮，参与社群

3. 公式理解：，如果 ,可以考虑使用工具变量方法。

4.引入工具变量z，z需要满足两个关键假设：

相关性：z与x相关
外生性：z与u不相关，z只能通过x影响y

5.工具变量求解两步走

1）先用工具变量z作自变量，x做因变量对z进行回归，目的在于把x分为两个部分，与z无关（内生部分，即与误差相关。），与z有关（外生部分）
2）与z相关部分作为，用y对回归

工具变量一个经典例子

6. 对变量的潜在问题

1)工具变量估计的是局部平均处理效应（LATE），就以上述例子为例，抽签的影响是部分的，只能研究外生部分。因LATE，因果效应难以推广；

2）工具变量很难找且容易被攻击

7. Stata命令实现工具变量

四、赫克曼方法

1.赫克曼模型

如果样本不是随机被选择的，那么如果某些样本的缺失可能会造成偏差，这种样本选择问题的解决方案可以采用赫克曼模型分析。比如想要拟合一个收入模型，那么只有工作的人才有收入，没有工作的人将不会被纳入分析，此时样本有偏可能导致结果有偏。

2. 解决方法：

2.1增加一个选择方程，对应的结果模型也是具有选择的，以“收入”为例，增加的模型如下：

2.2 增加选择方程时考虑两点：

1）样本的选择性来自哪里？（明确研究的目标群体是什么？实际分析的目标群体又是什么？）
2）如何基于选择性样本，获得无偏估计？（即上图中的Z如何选定）

Heckman模型假定

【外生性】，控制了X之后，误差项，v都满足iid
【单调性】，加入的选择模型要么增长，要么下降，是一个连续的模型

2.3 赫克曼模型校正

不足：z的选择非常难，跟工具变量一样

3.Stata命令实现赫克曼模型

五、倍差法（DID）

基于实验的设计，结果是否有效，取决于实验设计，有些人用来研究政策的影响。

满足“共同趋势假设”的话，倍差法实现会变得简单，“共同趋势假设”是指不进行干预，处理组的变化情况与控制组相同

2. 在回归中表达DID

time和treatment都是0，1变量

六、断点回归（RDD）

断点回归可以用来看政策实施的影响，有以下三个特点：

估计二分变量D对Y的因果效应；
处理变量分配不随机；
常常是否接受处理取决于一个确定的规则；

变量X取值决定是否接触处理，X被称为分配变量（Running variable or assignment variable）

2. 例子：“颁发国家奖学金是否有助于提高大学生的学业成绩？”，定650分为基准线，大等于650分意味着能提高，低于650则不能，650是临界点，在该点存在一个跳跃

3.精确断点回归

3.1断点回归的多种形式：

4. 模糊断点回归

4.1 精确断点回归设计存在问题

一旦规则确定分配结果也确定在现实情况下很难满足，实际分配处理不一定严格按照规则执行。这意味着临界点不再是一个清晰断点，而是模糊的，更多反映的是接受处理的概率，这样的断点称为模糊断点回归。比如说，成绩高于650分，获得奖学金的概率更高，而不是一定获得奖学金。

4.2 构造变量Z

5. RDD关键：寻找跳跃

5.1 跳跃需要符合两个条件：

1）让自变量和因变量同时跳起来的连续变量x（自变量和因变量跳的幅度越大，断点回归设计越有效）；
2）同时其他影响因变量的协变量在断点处不能有跳跃。

5.2 断点回归的不足

满足要求的X不好找；
基于临界点前后的样本进行估计，若样本量小，随机波动会很大；
断点回归法估计的是局部平均处理效应（LATE）。

七. 解决内生性问题的方法组合

例子1：固定效应+赫克曼

例子2：工具变量+赫克曼

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

六种定量方法解决内生性问题, 附stata代码操作

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

六种定量方法解决内生性问题, 附stata代码操作

您可能也对以下帖子感兴趣