Stata：双重机器学习-多维聚类标准误的估计方法-crhdreg

Original 连享会连享会 2023-10-24

收录于合集 #Stata命令 335个

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：公开课-直播 | 计量专题 | 关于连享会

连享会 · 2022 空间计量专题

作者： 董洁妙 (暨南大学)
邮箱：graceveio@163.com

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

1. 背景简介
2. crhdreg 命令

2.1 命令安装
2.1 命令语法

3. Stata 实操
4. 结语
5. 参考资料
6. 相关推文

编者按：本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-

1. 背景简介

近年来，研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析：如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。

这些数据通常会面临着多维相关性的问题，并不符合独立同分布的性质。并且，如果只在单一层面估计聚类标准误，就会难以兼顾另一层面相关性对结果所造成的偏误。

因此，Chiang et al.（2022）利用 Chernozhukov et al.（2018）开发的 DML工具箱（Double Machine Learning：用于估算和推断具有高维和/或无限维干扰参数的结构参数），提出了一种改进的多向交叉拟合DML估计方法，使之适应多向聚类采样数据，提升估计结果的有效性。

为了推广这一估计方法的使用，Chiang et al.（2022）编写了 crhdreg 命令，用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习（DML）方法的高维回归结果。

下文将详细介绍 crhdreg 命令的使用方法。

2. crhdreg 命令

2.1 命令安装

这一命令的安装如下：

ssc install crhdreg, replace

2.1 命令语法

安装好命令之后，可以输入 help crhdreg，查看 crhdreg 的帮助文档。

help crhdreg

如帮助文档所示，crhdreg 的语法结构如下：

crhdreg depvar indepvarlist1 indepvarlist2 [if] [in] [, cluster1(varname) cluster2(varname) iv(varname) dimension(real) folds(real) resample(real) median alpha(real) tol(real) maxiter(real)]

depvar：指定回归的被解释变量。
indepvarlist1：指定回归的内生解释变量。
indepvarlist2 ：指定回归的外生解释变量；通常是控制变量。
cluster1(varname)：设置聚类变量；在单向或双向聚类中构建第一个聚类维度。不调用这个选项会自动导致执行更高维的LS回归或无聚类的高维IV回归。
cluster2(varname)：设置聚类变量；在单向或双向聚类中构建第二个聚类维度。如果调用了cluster1而没有调用cluster2，那么命令会执行的只有一种聚类方式（以cluster1选项设置的变量为主）的高维LS回归或高维IV回归。
iv(varname)：设置indepvarlist1的工具变量；当这一选项不被调动时，该命令将执行高维LS回归。
dimension(real)：设置 indepvarlist1 中变量的数量，这些变量的系数将显示在输出表中。默认值是 dimension(1) 。它必须是一个正整数，不大于包含在 indepvarlist1 和 indepvarlist2 中的变量总数。
folds(real)：设置双重/偏置机器学习中交叉拟合的折叠次数K。在无聚类或单向聚类的情况下，默认值为folds(5)。在双向聚类的情况下，默认值是folds(3)。它必须是一个大于1的正整数。
resample(real) ：设置双重/偏倚机器学习的精细样本调整的重采样次数。默认值是resample(10)。它必须是一个正整数。
median ：设置指示器，表示有限样本调整使用重新抽样的估计值的中位数。不调用这个选项会导致使用重新抽样的估计值的平均值。
alpha(real) ：设置弹性网络算法（Elastic Net 是一种使用L1和L2先验作为正则化矩阵的线性回归模型；这种组合用于只有很少的权重非零的稀疏模型）中的惩罚权重。默认值是alpha(1)，弹性网络算法是LASSO（最小绝对收缩和选择操作）。如果这个选项被设置为alpha(0)，那么弹性网络算法就变成了岭回归模型。此外，这个参数必须是一个介于0和1之间的实数。
tol(real)：设置公差作为弹性网络算法的数值解的停止标准。默认值是tol(0.000001)。这个参数必须是严格的正实数。
maxiter(real)：设置弹性网数值解的最大迭代次数。默认值是maxiter(1000)。这个参数必须是一个自然数。

3. Stata 实操

为了更好地理解 crhdreg 在实际分析中的应用，不妨以 Calvi et al. (2021) 使用是否加入美国退休金401k计划对个人净固定资产的影响进行举例。

401k计划是指美国1978年《国内税收法》新增的第401条k项条款的规定，具体指代一种由雇员、雇主共同缴费建立起来的完全基金式的养老保险制度。但是，个人选择养老保险会与家庭、年龄相关；相似家庭规模的人群更容易同时选择是否参与养老保险制度，同一年龄层的个体也更容易同时选择是否加入养老保险计划。那么，如果只使用稳健性标准误，就有可能忽视个体之间的相关性，而导致结果有偏；而如果只针对单一层面的相关性进行聚类，又有可能未能完全考虑个体相关对回归结果所造成的偏误。

因此，针对这种情况，Chiang et al.（2022）提出了双向稳健性标准误的估算方式，通过 crhdreg 命令估计加入401计划对个人净固定资产所造成的影响。

首先，调用数据进行回归分析：

· bcuse 401ksubs, clear

接着，假定被解释变量是个人净固定资产（nettfa），解释变量是是否加入401计划（p401k），控制变量是个人年度收入，本文使用 crhdreg 命令估计加入401计划对个人净固定资产所造成的影响。

 · crhdreg nettfa p401k inc
 · est store eq_LS

第三，由于相似家庭规模的人群更容易同时选择是否参与养老保险制度，引入聚类在家庭规模变量（grf）的标准误，修正回归结果。

 · xtile grf = fsize, nq(10) 
 //此处是为了举例所做的简化，实际操作时并不必要这一步

 · crhdreg nettfa p401k inc, cluster1(grf)
 · est store eq_c1

类似地，由于同一年龄层的个体也更容易同时选择是否加入养老保险计划，引入聚类在年龄层面（age）的标准误，修正回归结果。

 · xtile gra = age, nq(10) 
 //此处是为了举例所做的简化，实际操作时并不必要这一步

 · crhdreg nettfa p401k inc, cluster2(gra)
 · est store eq_c2

第四，考虑到同时存在两个维度的相关性，同时引入聚类在家庭规模层面（fsize）的标准误、以及聚类在年龄层面（age）的标准误，修正回归结果。

 · crhdreg nettfa p401k inc, cluster1(grf) 
   cluster2(gra)
 · est store eq_c1c2

第六，考虑到p401k可能存在内生性，假设e401k是合适的工具变量，修正的回归结果如下所示。

 · crhdreg nettfa p401k inc, iv(e401k)  
   cluster1(grf) cluster2(gra)
 · est store eq_iv

下表汇总了前五种情况的回归结果。直观可见，加入更多维度的聚类会使核心变量的显著程度明显下降；但尽管如此，Chiang et al.（2020）仍然建议使用双向聚类的结果作为基准，以更好地展示真实一致的估计结果。

. esttab eq_*

------------------------------------------------------------
         (1)         (2)         (3)        (4)       (5)   
                                                      
------------------------------------------------------------
p401k  13.20***    11.22***    13.20***   12.01*    9.253   
      (6.98)      (5.63)      (6.98)     (2.09)    (1.61)   
------------------------------------------------------------
N       9275        9275        9275       9275      9275   
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001

4. 结语

相信大家在阅读本推文后，对何时使用双向聚类估计，以及如何使用 crhdreg 命令获取双向聚类的估计结果有了更深入的理解。不过，它也存在一些不足，比如只能够考虑双重偏误冲击所造成的影响。未来，几个可能性的优化方向包括：

目前，作者所使用的聚类估计是以线性模型的设定出发，未来可以适当放松至非线性模型的设定得到相关结果；
尽管文章关注的是无条件时刻限制（unconditional moment restrictions）的情况，但为条件时刻限制（conditional moment restrictions）开发一种方法和理论可能是可能的，也是重要的。

5. 参考资料

Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-
Calvi, R., A. Lewbel, and D. Tommasi, 2021, LATE With Missing or Mismeasured Treatment. Journal of Business & Economic Statistics, forthcoming. -Link-, -PDF-
Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters. -Link-, -PDF-

6. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 标准误
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：回归分析

Stata：标准误！标准误！
Stata：聚类标准误的纠结
acreg：允许干扰项随意相关的稳健性标准误
Stata：聚类调整标准误笔记
Stata：聚类调整后的标准误-Cluster-SE
小样本下OLS估计的纠偏聚类标准误

专题：面板数据

Stata：面板聚类标准误-自动确定最优聚类层级和数量-xtregcluster
wcbregress：面板聚类标准误

专题：倍分法DID

倍分法(DID)的标准误：不能忽略空间相关性

课程推荐：因果推断实用计量方法
主讲老师：邱嘉平教授
🍓 课程主页：https://gitee.com/lianxh/YGqjp

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

Stata：双重机器学习-多维聚类标准误的估计方法-crhdreg

1. 背景简介

2. crhdreg 命令

2.1 命令安装

2.1 命令语法

3. Stata 实操

4. 结语

5. 参考资料

6. 相关推文

🍏 关于我们

您可能也对以下帖子感兴趣

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

生成图片，分享到微信朋友圈

Stata：双重机器学习-多维聚类标准误的估计方法-crhdreg

1. 背景简介

2. crhdreg 命令

2.1 命令安装

2.1 命令语法

3. Stata 实操

4. 结语

5. 参考资料

6. 相关推文

🍏 关于我们

您可能也对以下帖子感兴趣