Stata:双重机器学习-多维聚类标准误的估计方法-crhdreg
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 2022 空间计量专题
作者: 董洁妙 (暨南大学)
邮箱:graceveio@163.com
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 背景简介
2. crhdreg 命令
2.1 命令安装
2.1 命令语法
3. Stata 实操
4. 结语
5. 参考资料
6. 相关推文
编者按:本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-
1. 背景简介
近年来,研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析:如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。
这些数据通常会面临着多维相关性的问题,并不符合独立同分布的性质。并且,如果只在单一层面估计聚类标准误,就会难以兼顾另一层面相关性对结果所造成的偏误。
因此,Chiang et al.(2022)利用 Chernozhukov et al.(2018)开发的 DML工具箱(Double Machine Learning:用于估算和推断具有高维和/或无限维干扰参数的结构参数),提出了一种改进的多向交叉拟合DML估计方法,使之适应多向聚类采样数据,提升估计结果的有效性。
为了推广这一估计方法的使用,Chiang et al.(2022) 编写了 crhdreg
命令,用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习(DML)方法的高维回归结果。
下文将详细介绍 crhdreg
命令的使用方法。
2. crhdreg 命令
2.1 命令安装
这一命令的安装如下:
ssc install crhdreg, replace
2.1 命令语法
安装好命令之后,可以输入 help crhdreg
,查看 crhdreg
的帮助文档。
help crhdreg
如帮助文档所示,crhdreg
的语法结构如下:
crhdreg depvar indepvarlist1 indepvarlist2 [if] [in] [, cluster1(varname) cluster2(varname) iv(varname) dimension(real) folds(real) resample(real) median alpha(real) tol(real) maxiter(real)]
depvar
:指定回归的被解释变量。indepvarlist1
:指定回归的内生解释变量。indepvarlist2
:指定回归的外生解释变量;通常是控制变量。cluster1(varname)
:设置聚类变量;在单向或双向聚类中构建第一个聚类维度。不调用这个选项会自动导致执行更高维的LS回归或无聚类的高维IV回归。cluster2(varname)
:设置聚类变量;在单向或双向聚类中构建第二个聚类维度。如果调用了cluster1而没有调用cluster2,那么命令会执行的只有一种聚类方式(以cluster1选项设置的变量为主)的高维LS回归或高维IV回归。iv(varname)
:设置indepvarlist1
的工具变量;当这一选项不被调动时,该命令将执行高维LS回归。dimension(real)
:设置indepvarlist1
中变量的数量,这些变量的系数将显示在输出表中。 默认值是dimension(1)
。 它必须是一个正整数,不大于包含在indepvarlist1
和indepvarlist2
中的变量总数。folds(real)
:设置双重/偏置机器学习中交叉拟合的折叠次数K。在无聚类或单向聚类的情况下,默认值为folds(5)。 在双向聚类的情况下,默认值是folds(3)。它必须是一个大于1的正整数。resample(real)
:设置双重/偏倚机器学习的精细样本调整的重采样次数。 默认值是resample(10)。它必须是一个正整数。median
:设置指示器,表示有限样本调整使用重新抽样的估计值的中位数。 不调用这个选项会导致使用重新抽样的估计值的平均值。alpha(real)
:设置弹性网络算法(Elastic Net 是一种使用L1和L2先验作为正则化矩阵的线性回归模型;这种组合用于只有很少的权重非零的稀疏模型)中的惩罚权重。默认值是alpha(1),弹性网络算法是LASSO(最小绝对收缩和选择操作)。如果这个选项被设置为alpha(0),那么弹性网络算法就变成了岭回归模型。此外,这个参数必须是一个介于0和1之间的实数。tol(real)
:设置公差作为弹性网络算法的数值解的停止标准。 默认值是tol(0.000001)。这个参数必须是严格的正实数。maxiter(real)
:设置弹性网数值解的最大迭代次数。 默认值是maxiter(1000)。这个参数必须是一个自然数。
3. Stata 实操
为了更好地理解 crhdreg
在实际分析中的应用,不妨以 Calvi et al. (2021) 使用是否加入美国退休金401k计划对个人净固定资产的影响进行举例。
401k计划是指美国1978年《国内税收法》新增的第401条k项条款的规定,具体指代一种由雇员、雇主共同缴费建立起来的完全基金式的养老保险制度。但是,个人选择养老保险会与家庭、年龄相关;相似家庭规模的人群更容易同时选择是否参与养老保险制度,同一年龄层的个体也更容易同时选择是否加入养老保险计划。那么,如果只使用稳健性标准误,就有可能忽视个体之间的相关性,而导致结果有偏;而如果只针对单一层面的相关性进行聚类,又有可能未能完全考虑个体相关对回归结果所造成的偏误。
因此,针对这种情况,Chiang et al.(2022)提出了双向稳健性标准误的估算方式,通过 crhdreg
命令估计加入401计划对个人净固定资产所造成的影响。
首先,调用数据进行回归分析:
· bcuse 401ksubs, clear
接着,假定被解释变量是个人净固定资产(nettfa),解释变量是是否加入401计划(p401k),控制变量是个人年度收入,本文使用 crhdreg
命令估计加入401计划对个人净固定资产所造成的影响。
· crhdreg nettfa p401k inc
· est store eq_LS
第三,由于相似家庭规模的人群更容易同时选择是否参与养老保险制度,引入聚类在家庭规模变量(grf)的标准误,修正回归结果。
· xtile grf = fsize, nq(10)
//此处是为了举例所做的简化,实际操作时并不必要这一步
· crhdreg nettfa p401k inc, cluster1(grf)
· est store eq_c1
类似地,由于同一年龄层的个体也更容易同时选择是否加入养老保险计划,引入聚类在年龄层面(age)的标准误,修正回归结果。
· xtile gra = age, nq(10)
//此处是为了举例所做的简化,实际操作时并不必要这一步
· crhdreg nettfa p401k inc, cluster2(gra)
· est store eq_c2
第四,考虑到同时存在两个维度的相关性,同时引入聚类在家庭规模层面(fsize)的标准误、以及聚类在年龄层面(age)的标准误,修正回归结果。
· crhdreg nettfa p401k inc, cluster1(grf)
cluster2(gra)
· est store eq_c1c2
第六,考虑到p401k可能存在内生性,假设e401k是合适的工具变量,修正的回归结果如下所示。
· crhdreg nettfa p401k inc, iv(e401k)
cluster1(grf) cluster2(gra)
· est store eq_iv
下表汇总了前五种情况的回归结果。直观可见,加入更多维度的聚类会使核心变量的显著程度明显下降;但尽管如此,Chiang et al.(2020)仍然建议使用双向聚类的结果作为基准,以更好地展示真实一致的估计结果。
. esttab eq_*
------------------------------------------------------------
(1) (2) (3) (4) (5)
------------------------------------------------------------
p401k 13.20*** 11.22*** 13.20*** 12.01* 9.253
(6.98) (5.63) (6.98) (2.09) (1.61)
------------------------------------------------------------
N 9275 9275 9275 9275 9275
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001
4. 结语
相信大家在阅读本推文后,对何时使用双向聚类估计,以及如何使用 crhdreg
命令获取双向聚类的估计结果有了更深入的理解。不过,它也存在一些不足,比如只能够考虑双重偏误冲击所造成的影响。未来,几个可能性的优化方向包括:
目前,作者所使用的聚类估计是以线性模型的设定出发,未来可以适当放松至非线性模型的设定得到相关结果; 尽管文章关注的是无条件时刻限制(unconditional moment restrictions)的情况,但为条件时刻限制(conditional moment restrictions)开发一种方法和理论可能是可能的,也是重要的。
5. 参考资料
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-
Calvi, R., A. Lewbel, and D. Tommasi, 2021, LATE With Missing or Mismeasured Treatment. Journal of Business & Economic Statistics, forthcoming. -Link-, -PDF-
Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters. -Link-, -PDF-
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 标准误
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:回归分析 Stata:标准误!标准误! Stata:聚类标准误的纠结 acreg:允许干扰项随意相关的稳健性标准误 Stata:聚类调整标准误笔记 Stata:聚类调整后的标准误-Cluster-SE 小样本下OLS估计的纠偏聚类标准误 专题:面板数据 Stata:面板聚类标准误-自动确定最优聚类层级和数量-xtregcluster wcbregress:面板聚类标准误 专题:倍分法DID 倍分法(DID)的标准误:不能忽略空间相关性
课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。