Stata:无需IV的自选择模型-egregsel
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 效率分析专题
作者:张蛟蛟 (上海海事大学)
邮箱:islimu@yeah.net
编者按:本文主要摘译自下文,特此感谢!
Source:D’Haultfœuille X, Maurel A, Qiu X, et al. Estimating selection models without an instrument with Stata[J]. The Stata Journal, 2020, 20(2): 297-308. -PDF-
目录
1. 引言
2. 理论模型与估计
2.1 半参数内生选择模型
2.2 极值分位数回归中分位数指数的选择
3. 实际操作要点
4. Stata 实例
4.1 egregsel 命令介绍
4.2 Stata 实际操作
5. 参考文献
6. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
1. 引言
在计量经济学的文献中,有两种方法估计内生样本选择模型,即寻找工具变量或解释力强的变量。然而现实中,这两种方法都是困难的。为解决这一问题,D’Haultfœuille 等 (2019) 编写了 eqregsel
命令来实现内生样本选择模型的估计与推断。具体来看,eqregsel
命令是以 D’Haultfœuille 等 (2018) 提出的极值分位数回归方法为基础,即在结果变量分布的尾部实现一系列分位数回归。
eqregsel
命令是现有估计样本选择模型 heckman
命令的补充。与 heckman
相比,eqregsel
具有三个较为明显的特点:
第一,它不要求选择方程中误差项的正态性,也不要求结果方程中误差项条件期望的线性程度; 第二,除了一个无穷大的独立条件之外,它不限制选择过程; 第三,它允许其他控制变量的异质性分布效应。
接下来,本文将介绍 D’Haultfœuille 等 (2018) 提出的半参数内生选择模型,以及极值分位数回归中分位数指数的选择。然后,描述上述理论方法在 eqregsel
命令运行过程中的要点。最后,介绍 eqregsel
命令的语法与 Stata 实际操作。
2. 理论模型与估计
2.1 半参数内生选择模型
首先,考虑以下结果模型:
其中 和 分别是感兴趣的结果变量和协变量。估计 是我们的目的,为实现此目的,需要依赖两个关键条件:
第一个关键条件:对任何 , 的第 个条件分位数需满足:
其中 , 是其他协变量。那么:
因此, 的影响被假设为在不同分位数指数上都是同质的,但允许其他协变量 的影响在 的分布上是异质的。然而 不能被直接观察到。因此用 表示选择虚拟变量 (selection dummy),这时能观察到 、 和 。
第二个关键条件:在拥有 “大” 结果变量的条件下,选择是独立于协变量的。更确切地说,我们假设存在一个常数 使得对所有 都有:
结合式 (2) 和 (3),D’Haultfœuille 等 (2018) 表明,在 上尾的一些正则条件下,随着 ,
因此,式 (4) 表明我们可以通过运行 对一个有着足够小分位数指数 的 的分位数回归来估计 ,即:
其中, 是分位数回归的检查函数 (check function),且 。直觉上,为使 一致, 应该依赖于 且随着 趋于无穷而趋于0。但 也不应太快地趋于 0,否则极限分位数回归将不稳定。
此时,形式上用 表示分位数指数,D’Haultfœuille 等 (2018) 认为,若 且 ,并在额外的技术限制下, 是一致且渐进正态的。
正如极值分位数回归的标准 (Chernozhukov 等,2017) ,收敛率并非通常的参数根 率。并且,在这种情况下,此收敛率取决于 分布的未知特征。但 D’Haultfœuille 等 (2018) 认为,bootstrap 对推断来说是一致的,不需要知道收敛率。
为说明这一点,用 表示 bootstrap 估计量 的 阶分位数,简单起见,假设 是一个标量 。那么,根据 D’Haultfœuille 等 (2018) 定理 2 可知, 的百分位 bootstrap 置信区间 有一个 的渐进覆盖率。而这样一个区间不需要知道收敛率。
以上结果都依赖两个主要条件,即式 (1) 和 (3)。但更重要的是,能基于 “ 中系数 在不同的分位数指数 上相同 (见 式 4)” 这一含义,对这些条件发展出一套规范性检验。那么,如果模型设定正确,分别由 和 得到的 的两个估计值 (with 、 应该是接近的。
按照这个思路,考虑下面的 检验统计量:
其中, 是 渐进协方差的 (bootstrap) 估计量,且鉴于上述讨论,依据收敛率进行恰当地标准化。然后只要 就能在名义水平 上拒绝该检验。其中 是一个有 个自由度的 分布的 阶分位数。
D’Haultfœuille 等 (2018) 定理 2.3 证明,对任意 ,此检验有一个 的渐进水平。它还证明在一些局部替代方案下,局部力量在 时达到最大。
2.2 极值分位数回归中分位数指数的选择
极值分位数估计量的性能 (performance) 取决于方差与偏差之间的权衡,这由极值分位数回归中使用的分位数指数 决定。下面介绍 D’Haultfœuille 等 (2018) 描述的算法,该算法基于 的方差与偏差估计量来选择一个合适的分位数指数。
具体来说,考虑与式 (6) 相同的检验统计量,但将其中 替换为 ,且 :
D’Haultfœuille 等 (2018) 证明, 的中位数与一个自由度为 的卡方分布的中位数之间的差异,可以作为此估计量的偏差的一个代理 (a proxy)。
这个思路是通过子抽样 (subsampling) 来估计此差异 (即 的中位数与自由度为 的卡方分布的中位数之间的差异)。对网格 内的每个子样本和每个分位数指数 ,都可以计算 。设 表示给定一个 的不同子样本上的这些检验统计量的中位数,设 表示自由度为 的卡方分布的中位数。那么,这个偏差的代理被定义为:
其中, 是指子样本量。同样地,渐进协方差矩阵由 的子样本估计量的协方差矩阵与标准化因子 的乘积来估计。我们用 来表示该协方差矩阵对角线元素的和。那么,选择去优化偏差-方差间的权衡的分位数指数为:
其中, 是指 内的一个有限网格。与方差和平方偏差 (squared bias) 之间更标准的权衡相比,这个程序导致了欠平滑。与非参数回归的情况相似,这需要控制渐进偏差,否则会影响该估计量的极限分布。参考 D’Haultfœuille 等 (2018) 的模拟证据,这种分位数指数的选择会使估计量既准确又只有非常微小的偏差,从而能够获得对 的可靠推断。
3. 实际操作要点
本部分主要总结如何在 eqregsel
中实现上述方法的一些关键点。首先,抽取 个 bootstrap 样本和 个大小为 的子样本。然后,对每个 :
(a) 计算 的估计量:
设 为 由 的第一个 分量组成的向量。
(b) 计算
其中 是 在第 个 bootstrap 样本上的 bootstrap 估计量。
(c) 对每个子样本 ,计算 的估计量 和 检验统计量:
(d) 计算 ,其中 表示 的中位数。
(e) 计算 ,其中 是指下式的第 个对角项:
其次,计算 。再其次,设 、,那么 第 个分量的 水平的置信区间 等于:
其中, 是 的第 个对角项, 则是一个标准正态变量的 阶分位数。最后,计算 以及由式 (6) 定义的 ,以执行模型的规范检验。
注意:实践中,考虑一个下限为 、上限为 0.3 且有一些点与 相等的等距网格 。这样设置该下限的目的是,如果有效子样本量 变得太小,那么中阶渐进理论很可能是一个糟糕的近似 (见 Chernozhukov 和 Fernandez-Val (2011) 相关讨论)。此外,为计算上述步骤 (c) 中的 ,使用 。
4. Stata 实例
本部分主要介绍 egregsel
命令语法,以及使用 Stata 复现 D’Haultfœuille 等 (2018) 的相关结果。对于本文使用的数据和代码,大家可从压缩文件「dmqz_eqregsel.zip」中获取,或者通过连享会命令 lxhget egregsel.pkg, replace
。
4.1 egregsel 命令介绍
egregsel
命令安装:
ssc install moremata, replace
lxhget egregsel.pkg, install replace
egregsel
命令语法:
eqregsel Y X1 X2 [if] [in][, hom(#) subs(#) grid(#) rep(#)]
基于 2.2 节详细叙述的由数据驱动的 ,eqregsel
可计算出 (2) 式中的 。同时还报告了其标准误和 95% 的置信区间。最后 eqregsel
命令计算了 时此规范检验的 值。对于上述命令语句,X1
为模型式 (2) 中进入 的变量,X2
为式 (2) 中进入 的变量。主要选项如下:
hom(#)
:指定 ,即 中变量的数量。此代码返回这些变量的估计效应与标准误,默认值为 1;subs(#)
:指定子样本量 。根据 D’Haultfœuille 等 (2018),让 ,那么 的默认值被设置为:
grid(#)
:指定 ,即网格点的数量,默认值为 40;rep(#)
指定 ,即 bootstrap 和子抽样重复的数量,默认值为 150。
eqregsel
命令将结果保存在以下 e()
中:
e(tau0)
:一个包含分位数指数 的标量;e(specificationtest)
:一个包含规范检验的 值的标量;e(subs)
:一个包含子样本量 的标量;e(homvar)
:一个包含 的标量,即对结果具有同质效应的变量数量;e(beta_hom)
:一个包含感兴趣的估计系数的 矩阵;e(sta_b)
:一个包含感兴趣的估计值标准误的 矩阵。
4.2 Stata 实际操作
本部分通过使用 eqregsel
命令估计 D’Haultfœuille 等人 (2018) 提到的青年男性中黑人与白人之间的工资差距,来具体展示 eqregsel
命令在 Stata 中的实际操作。数据是 1979 年与 1997 年全国青年纵向调查数据 (分别用 NLSY79 和 NLSY97 指代这两年的调查数据)。这里关注的结果变量是工资的对数 (log_wage)。
规范检验时,分别在 NLSY79 与 NLSY97 两个样本中估计黑人虚拟变量 (blak) 对工资对数 (log_wage) 的影响,同时控制了西班牙虚拟变量 (hispanic)、年龄 (age)、AFQT 与 AFQT 的平方 (afqt 和 afqt2)。其中,由于考试方式的变化,导致 AFQT 不能在两个 NLSY 样本中直接比较。为解决这一问题,使用 Altonji 等 (2012) 提出的由等百分位数映射法构建的修改版 AFQT。同时还将样本限制在那些 16 或 17 岁时参加资格考试的受访者中,以解决 AFQT 分布中的等级可能会随受访者年龄而变化的问题。
NLSY79 和 NLSY97 的最终样本量分别为 1077 和 1123。这两个样本的总体劳动力参与率分别为 95.1% 和 89.7% 。而对于黑人男性,他们只达到 90.6% 和 81.4% 。此外,为区分两个 NLSY 样本,数据还生成了对应的两个虚拟变量:cohort79 与 cohort97。下面是利用 eqregsel
命令来估计两个 NLSY 样本中黑人与白人工资差距。
. lxhuse bw_nlsy7997.dta, clear
. gen afqt2=afqt^2
* Specification 1 (Black-white wage gap on the NLSY79 cohorts)
. eqregsel log_wage black hispanic age afqt afqt2 if cohort79
The estimation will take about 6 minutes.
|---------------|---------------|---------------|---------------|--------------|
0 20 40 60 80 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Number of observations = 1077
Optimal quantile index = .245
J test(p-value) = .81287468
Subsampling size used in bootstrapping = 515
Number of variables of interest = 1
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -.1185019 .0431142 -2.75 0.006 -.2030043 -.0339996
------------------------------------------------------------------------------
* Specification 2 (Black-white wage gap on the NLSY97 cohorts)
. eqregsel log_wage black hispanic age afqt afqt2 if cohort97
The estimation will take about 7.333333 minutes.
|---------------|---------------|---------------|---------------|--------------|
0 20 40 60 80 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Number of observations = 1123
Optimal quantile index = .29
J test(p-value) = .77565885
Subsampling size used in bootstrapping = 524
Number of variables of interest = 1
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -.1588783 .0406563 -3.91 0.000 -.2385632 -.0791935
------------------------------------------------------------------------------
从估计结果可以看出,在总样本量为 1077 和 1123 的情况下,用于 bootstrap 的默认子样本量分别为 515 和 524。同时,eqregsel
命令还显示了程序运行的计算时间以及进度条。如果需要,可以通过设置较少的 bootstrap 和子抽样重复次数,或者较少的网格点数量来节省执行命令的时间。
估计结果表明,两个样本中黑人与白人的工资差距在统计上和经济上都十分显著。同时,相对于 1979 年的样本,1997 年的样本中黑人与白人之间的工资差距更大,即从 1979 年的 11.9% 上升到 1997 年的 15.9%。但这一差异并不显著 ( 值=0.51)。有趣的是,上述规范检验的 值 (两样本中的 J 检验的 值分别为 0.81 与 0.78) 表明在任何统计水平上都不能拒绝对每一组样本的规范性检验。
另外,D'Haultfœuille 等 (2018) 还利用上述方法估计时薪对黑人虚拟变量的影响,将这样估计得到的工资差距与简单 OLS 回归的结果相比,工资差距从 11.9% 和 15.9% 下降到 8.1% 和 9.7% (标准误差等于 0.035 和 0.041)。当使用上述方法时,所估计的工资差距在幅度上更大,可以认为这与潜在的样本选择问题是一致的。事实上,在男性中,黑人更有可能退出劳动力市场 (Juhn, 2003)。由于辍学者往往有较低的潜在工资,不控制劳动力市场参与的内生性会导致低估黑人与白人之间的工资差距。
5. 参考文献
Chernozhukov V, Fernández-Val I. Inference for extremal conditional quantile models, with an application to market and birthweight risks[J]. The Review of Economic Studies, 2011, 78(2): 559-589. -PDF- Chernozhukov V, Fernández-Val I, Kaji T. Extremal quantile regression[J]. Handbook of Quantile Regression, 2017, 1. -PDF- D’Haultfœuille X, Maurel A, Zhang Y. Extremal quantile regressions for selection models and the black–white wage gap[J]. Journal of Econometrics, 2018, 203(1): 129-142. -PDF- D’Haultfœuille X, Maurel A, Qiu X, et al. Estimating selection models without an instrument with Stata[J]. The Stata Journal, 2020, 20(2): 297-308. -PDF- Juhn C. Labor market dropouts and trends in the wages of black and white men[J]. ILR Review, 2003, 56(4): 643-662. -PDF-
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:论文写作 Stata论文复现:份额移动法工具变量(Shift-Share IV) 专题:Stata命令 Stata新命令-pdslasso:众多控制变量和工具变量如何挑选? 专题:IV-GMM 工具变量法:IV估计的信与不信 Stata:工具变量的秩检验-bootrantest Stata:无需工具变量的IV估计-kinkyreg- Stata:当工具变量小于内生变量时,该如何估计?-mmeiv Lasso一下:再多的控制变量和工具变量我也不怕-T217 IV在哪里?奇思妙想的工具变量 twostepweakiv:弱工具变量有多弱? 多个(弱)工具变量如何应对-IV-mivreg? IV:工具变量不满足外生性怎么办? IV-工具变量法:第一阶段系数符号确定时的小样本无偏估计 IV:可以用内生变量的滞后项做工具变量吗? Stata: 工具变量法 (IV) 也不难呀! IV-估计:工具变量不外生时也可以用! 专题:内生性-因果推断 Stata:内生变量与工具变量非线性关系处理-discretize 工具变量-IV:排他性约束及经典文献解读
课程推荐:因果推断实用计量方法
主讲老师:丘嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【**百度一下:**连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。