查看原文
其他

六种定量方法解决内生性问题, 附stata代码操作

凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

来源:二三两两(知乎);转载:刘西川阅读写作课


一、控制代理变量

代理变量:用来代替观测数据中难以得到或无法测量的信息。

举个例子:例如研究“是否上大学对收入的影响”,要控制住上大学这个条件之外所有对收入可能造成影响的条件,比如“能力”,家庭条件等有很多难以测量的信息被遗漏

好的代理变量满足以下三个假设,由于比较难理解,穿插例子的形式进行理解:

比如说我们想看是否上大学对收入的影响,

即原本的关系满足: 

我们找到了衡量“能力”的代理变量IQ,满足 

原本的关系变成:

 

衡量IQ是一个好的代理变量需要满足以下三个假设:

  • 假设1,代理变量与所缺失的混杂因素相关。即IQ与Ability相关,γ1不为0;

  • 假设2,如果将该代理变量纳入方程内生性问题,则不存在。即Ability放入Income式子中,方程原本的内生性不存在,即新产生的  不与colledge或iq相关;

  • 假设3,无法被代理变量所解释的那部分缺失变量与其他自变量无相关。即e不与colledge或iq相关。

4. 代理变量的不足

  • 代理变量可以大概率减少该变量所在的内生性问题,但是无法完全替代我们研究中所忽略的那个变量。


二、固定效应模型

基于分析面板数据(对同一样本进行重复观测,比如说家庭追踪调查)

公式解释固定效应

通过对同一样本进行重复观测,得到简单的线性回归:  ,其中残差项  可以分成两部分  和  , 

 ,其中 指那些影响y却不随时间变化的不可观测变量,有时被称作固定效应,指代不可观测的异质性; 指随时间变化的,但不影响外的不可观测变量。满足独立同分布。

3. 一阶差分模型 (FD)

当面板数据的时间为两个阶段的时候就是一阶差分模型,当时间大于两个阶段的时候就是固定效应模型,一阶差分模型以第一时间段为基期水平,进行相减,从而抵消固定效应,而固定效应模型以所有期的平均水平为基准点,每一期减去平均水平消去固定效应。

3.注意,如果我们使用固定效应模型去分析x对y的影响时,那么x需要是随时间变化的变量,因为非时变变量会被固定效应消去,无法估计。

4.拓展--随机效应模型(RE )

如果我们非要去研究非时变变量对于y的影响,那么可以使用随机效应模型。随机效应模型既可以去估计非时变量的影响,也可以估计时变变量的影响。但是需要满足一定条件, ,t=1,2,……,T中,  与 不相关,即  ,t=1,2,……,T,其中 在固定效应模型中是指那些影响y却不随时间变化的不可观测变量,在随机效应模型中, 满足独立同分布,所以才能研究非时变变量对于y的影响。

4.1Stata命令实现RE模型

三、工具变量(IV)

通过构建工具变量,来检测不可观测的因素的影响。

工具变量的来源

自然现象

  • 霍克斯比:Y=地区教育质量;X=地区学校数量;Z=地区河流数量(通过河流划分学区)

  • 阿西莫格鲁:Y=国家人均收入;X=制度;Z=殖民地时代死亡率

  • 安谷瑞斯特:Y=母亲就业;X=孩子数;Z=老大老二的性别组合

时空距离(自然历史实验)

  • 安古瑞斯特:Y=收入;X=教育年;Z=出生的季度

  • 卡德:Y=收入;X=教育年;Z=家距离大学远近

  • 钱楠筠:Y=男女性别比;X=家庭收入男女性别比;Z茶叶加工

  • 陈云松:Y=幸福感;X=是否信教;Z=解放前宗教场所

  • 陈云松:Y=政治信任;X=城市餐饮,解放前宗教场所;Z=餐饮,参与社群

3. 公式理解:  ,如果  ,可以考虑使用工具变量方法。

4.引入工具变量z,z需要满足两个关键假设:

  • 相关性:z与x相关

  • 外生性:z与u不相关,z只能通过x影响y

5.工具变量求解两步走

  • 1)先用工具变量z作自变量,x做因变量对z进行回归,目的在于把x分为两个部分,与z无关(内生部分,即与误差相关。),与z有关(外生部分)

  • 2)与z相关部分作为  ,用y对  回归

工具变量一个经典例子

6. 对变量的潜在问题

  • 1)工具变量估计的是局部平均处理效应(LATE),就以上述例子为例,抽签的影响是部分的,只能研究外生部分。因LATE,因果效应难以推广;

  • 2)工具变量很难找且容易被攻击

7. Stata命令实现工具变量

四、赫克曼方法

1.赫克曼模型

如果样本不是随机被选择的,那么如果某些样本的缺失可能会造成偏差,这种样本选择问题的解决方案可以采用赫克曼模型分析。比如想要拟合一个收入模型,那么只有工作的人才有收入,没有工作的人将不会被纳入分析,此时样本有偏可能导致结果有偏。

2. 解决方法:

2.1增加一个选择方程,对应的结果模型也是具有选择的,以“收入”为例,增加的模型如下:

2.2 增加选择方程时考虑两点:

  • 1)样本的选择性来自哪里?(明确研究的目标群体是什么?实际分析的目标群体又是什么?)

  • 2)如何基于选择性样本,获得无偏估计?(即上图中的Z如何选定)

    • Heckman模型假定

      • 【外生性】,控制了X之后,误差项  ,v都满足iid

      • 【单调性】,加入的选择模型要么增长,要么下降,是一个连续的模型

2.3 赫克曼模型校正

不足:z的选择非常难,跟工具变量一样

3.Stata命令实现赫克曼模型

五、倍差法(DID)

基于实验的设计,结果是否有效,取决于实验设计,有些人用来研究政策的影响。

满足“共同趋势假设”的话,倍差法实现会变得简单,“共同趋势假设”是指不进行干预,处理组的变化情况与控制组相同

2. 在回归中表达DID

time和treatment都是0,1变量

六、断点回归(RDD)

断点回归可以用来看政策实施的影响,有以下三个特点

  • 估计二分变量D对Y的因果效应;

  • 处理变量分配不随机;

  • 常常是否接受处理取决于一个确定的规则;

    • 变量X取值决定是否接触处理,X被称为分配变量(Running variable or assignment variable)

2. 例子:“颁发国家奖学金是否有助于提高大学生的学业成绩?”,定650分为基准线,大等于650分意味着能提高,低于650则不能,650是临界点,在该点存在一个跳跃

3.精确断点回归

3.1断点回归的多种形式:

4. 模糊断点回归

4.1 精确断点回归设计存在问题

一旦规则确定分配结果也确定在现实情况下很难满足,实际分配处理不一定严格按照规则执行。这意味着临界点不再是一个清晰断点,而是模糊的,更多反映的是接受处理的概率,这样的断点称为模糊断点回归。比如说,成绩高于650分,获得奖学金的概率更高,而不是一定获得奖学金。

4.2 构造变量Z

5. RDD关键:寻找跳跃

5.1 跳跃需要符合两个条件:

  • 1)让自变量和因变量同时跳起来的连续变量x(自变量和因变量跳的幅度越大,断点回归设计越有效);

  • 2)同时其他影响因变量的协变量在断点处不能有跳跃。

5.2 断点回归的不足

  • 满足要求的X不好找;

  • 基于临界点前后的样本进行估计,若样本量小,随机波动会很大;

  • 断点回归法估计的是局部平均处理效应(LATE)。


七. 解决内生性问题的方法组合

例子1:固定效应+赫克曼

例子2:工具变量+赫克曼

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存