查看原文
其他

Stata:双重机器学习-多维聚类标准误的估计方法-crhdreg

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会 · 2022 空间计量专题

作者: 董洁妙 (暨南大学)
邮箱:graceveio@163.com

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 背景简介

  • 2. crhdreg 命令

    • 2.1 命令安装

    • 2.1 命令语法

  • 3. Stata 实操

  • 4. 结语

  • 5. 参考资料

  • 6. 相关推文



编者按:本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-

1. 背景简介

近年来,研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析:如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。

这些数据通常会面临着多维相关性的问题,并不符合独立同分布的性质。并且,如果只在单一层面估计聚类标准误,就会难以兼顾另一层面相关性对结果所造成的偏误。

因此,Chiang et al.(2022)利用 Chernozhukov et al.(2018)开发的 DML工具箱(Double Machine Learning:用于估算和推断具有高维和/或无限维干扰参数的结构参数),提出了一种改进的多向交叉拟合DML估计方法,使之适应多向聚类采样数据,提升估计结果的有效性。

为了推广这一估计方法的使用,Chiang et al.(2022) 编写了 crhdreg  命令,用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习(DML)方法的高维回归结果。

下文将详细介绍 crhdreg  命令的使用方法。

2. crhdreg 命令

2.1 命令安装

这一命令的安装如下:

ssc install crhdreg, replace

2.1 命令语法

安装好命令之后,可以输入 help crhdreg,查看 crhdreg  的帮助文档。

help crhdreg

如帮助文档所示,crhdreg 的语法结构如下:

crhdreg depvar indepvarlist1 indepvarlist2 [if] [in] [, cluster1(varname) cluster2(varname) iv(varname) dimension(real) folds(real) resample(real) median alpha(real) tol(real) maxiter(real)]
  • depvar:指定回归的被解释变量。
  • indepvarlist1:指定回归的内生解释变量。
  • indepvarlist2 :指定回归的外生解释变量;通常是控制变量。
  • cluster1(varname):设置聚类变量;在单向或双向聚类中构建第一个聚类维度。不调用这个选项会自动导致执行更高维的LS回归或无聚类的高维IV回归。
  • cluster2(varname):设置聚类变量;在单向或双向聚类中构建第二个聚类维度。如果调用了cluster1而没有调用cluster2,那么命令会执行的只有一种聚类方式(以cluster1选项设置的变量为主)的高维LS回归或高维IV回归。
  • iv(varname):设置indepvarlist1的工具变量;当这一选项不被调动时,该命令将执行高维LS回归。
  • dimension(real):设置 indepvarlist1 中变量的数量,这些变量的系数将显示在输出表中。 默认值是 dimension(1) 。 它必须是一个正整数,不大于包含在 indepvarlist1indepvarlist2 中的变量总数。
  • folds(real):设置双重/偏置机器学习中交叉拟合的折叠次数K。在无聚类或单向聚类的情况下,默认值为folds(5)。 在双向聚类的情况下,默认值是folds(3)。它必须是一个大于1的正整数。
  • resample(real) :设置双重/偏倚机器学习的精细样本调整的重采样次数。 默认值是resample(10)。它必须是一个正整数。
  • median :设置指示器,表示有限样本调整使用重新抽样的估计值的中位数。 不调用这个选项会导致使用重新抽样的估计值的平均值。
  • alpha(real) :设置弹性网络算法(Elastic Net 是一种使用L1和L2先验作为正则化矩阵的线性回归模型;这种组合用于只有很少的权重非零的稀疏模型)中的惩罚权重。默认值是alpha(1),弹性网络算法是LASSO(最小绝对收缩和选择操作)。如果这个选项被设置为alpha(0),那么弹性网络算法就变成了岭回归模型。此外,这个参数必须是一个介于0和1之间的实数。
  • tol(real):设置公差作为弹性网络算法的数值解的停止标准。 默认值是tol(0.000001)。这个参数必须是严格的正实数。
  • maxiter(real):设置弹性网数值解的最大迭代次数。 默认值是maxiter(1000)。这个参数必须是一个自然数。

3. Stata 实操

为了更好地理解 crhdreg  在实际分析中的应用,不妨以 Calvi et al. (2021) 使用是否加入美国退休金401k计划对个人净固定资产的影响进行举例。

401k计划是指美国1978年《国内税收法》新增的第401条k项条款的规定,具体指代一种由雇员、雇主共同缴费建立起来的完全基金式的养老保险制度。但是,个人选择养老保险会与家庭、年龄相关;相似家庭规模的人群更容易同时选择是否参与养老保险制度,同一年龄层的个体也更容易同时选择是否加入养老保险计划。那么,如果只使用稳健性标准误,就有可能忽视个体之间的相关性,而导致结果有偏;而如果只针对单一层面的相关性进行聚类,又有可能未能完全考虑个体相关对回归结果所造成的偏误。

因此,针对这种情况,Chiang et al.(2022)提出了双向稳健性标准误的估算方式,通过 crhdreg  命令估计加入401计划对个人净固定资产所造成的影响。

  • 首先,调用数据进行回归分析:
· bcuse 401ksubs, clear
  • 接着,假定被解释变量是个人净固定资产(nettfa),解释变量是是否加入401计划(p401k),控制变量是个人年度收入,本文使用 crhdreg  命令估计加入401计划对个人净固定资产所造成的影响。
· crhdreg nettfa p401k inc
· est store eq_LS
  • 第三,由于相似家庭规模的人群更容易同时选择是否参与养老保险制度,引入聚类在家庭规模变量(grf)的标准误,修正回归结果。
· xtile grf = fsize, nq(10)
//此处是为了举例所做的简化,实际操作时并不必要这一步

· crhdreg nettfa p401k inc, cluster1(grf)
· est store eq_c1
  • 类似地,由于同一年龄层的个体也更容易同时选择是否加入养老保险计划,引入聚类在年龄层面(age)的标准误,修正回归结果。
· xtile gra = age, nq(10)
//此处是为了举例所做的简化,实际操作时并不必要这一步

· crhdreg nettfa p401k inc, cluster2(gra)
· est store eq_c2
  • 第四,考虑到同时存在两个维度的相关性,同时引入聚类在家庭规模层面(fsize)的标准误、以及聚类在年龄层面(age)的标准误,修正回归结果。
· crhdreg nettfa p401k inc, cluster1(grf)
cluster2(gra)
· est store eq_c1c2
  • 第六,考虑到p401k可能存在内生性,假设e401k是合适的工具变量,修正的回归结果如下所示。
· crhdreg nettfa p401k inc, iv(e401k)
cluster1(grf) cluster2(gra)
· est store eq_iv

下表汇总了前五种情况的回归结果。直观可见,加入更多维度的聚类会使核心变量的显著程度明显下降;但尽管如此,Chiang et al.(2020)仍然建议使用双向聚类的结果作为基准,以更好地展示真实一致的估计结果。

. esttab eq_*

------------------------------------------------------------
(1) (2) (3) (4) (5)

------------------------------------------------------------
p401k 13.20*** 11.22*** 13.20*** 12.01* 9.253
(6.98) (5.63) (6.98) (2.09) (1.61)
------------------------------------------------------------
N 9275 9275 9275 9275 9275
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001

4. 结语

相信大家在阅读本推文后,对何时使用双向聚类估计,以及如何使用 crhdreg 命令获取双向聚类的估计结果有了更深入的理解。不过,它也存在一些不足,比如只能够考虑双重偏误冲击所造成的影响。未来,几个可能性的优化方向包括:

  • 目前,作者所使用的聚类估计是以线性模型的设定出发,未来可以适当放松至非线性模型的设定得到相关结果;
  • 尽管文章关注的是无条件时刻限制(unconditional moment restrictions)的情况,但为条件时刻限制(conditional moment restrictions)开发一种方法和理论可能是可能的,也是重要的。

5. 参考资料

  • Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-

  • Calvi, R., A. Lewbel, and D. Tommasi, 2021, LATE With Missing or Mismeasured Treatment. Journal of Business & Economic Statistics, forthcoming. -Link-, -PDF-

  • Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters. -Link-, -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 标准误
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:回归分析
    • Stata:标准误!标准误!
    • Stata:聚类标准误的纠结
    • acreg:允许干扰项随意相关的稳健性标准误
    • Stata:聚类调整标准误笔记
    • Stata:聚类调整后的标准误-Cluster-SE
    • 小样本下OLS估计的纠偏聚类标准误
  • 专题:面板数据
    • Stata:面板聚类标准误-自动确定最优聚类层级和数量-xtregcluster
    • wcbregress:面板聚类标准误
  • 专题:倍分法DID
    • 倍分法(DID)的标准误:不能忽略空间相关性

课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页https://gitee.com/lianxh/YGqjp

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存