广义Heckman两步法-gtsheckman
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会课程 · 2023 暑期班
作者:章青慈 (中央财经大学)
邮箱:Quincy_zqc@163.com
编者按:本文主要参考自下文,特此致谢!
Source:Carlson A, Joshi R. Sample Selection in Linear Panel Data Models with Heterogeneous Coefficients[R]. 2022. -Link- -PDF-
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 背景简介
2. 估计步骤
2.1 异质性截距和异质性系数
2.2 具体估计步骤
3. 命令介绍
4. 具体应用
4.1 操作实例
4.2 应用案例
5. 相关推文
1. 背景简介
传统的 Heckman 两步法可以解决样本选择造成的内生性问题,但仍忽视了由样本个体异质性造成的内生性问题。为了克服这一缺陷,Carlson 和 Joshi (2022) 提出了广义 Heckman 两步法 (又称作 gtsheckman)。它类似于两步一致 Heckman 估计,但允许第一步选择方程中存在异方差,以及更一般化的控制函数形式。此外,它提供了异方差稳健性检验和聚类稳健性检验。
为了推广该方法,Carlson 和 Joshi (2022) 编写了广义 Heckman 两步法的 Stata 命令 gtsheckman
。本文的主要目的是介绍 gtsheckman
命令的使用。
2. 估计步骤
2.1 异质性截距和异质性系数
给定面板数据,选择方程可以灵活地设计异质性截距和异质性系数:
其中 是潜在的特有误差, 是时间虚拟变量。选择方程中未观测到的效应可表示为观测到的效应的线性函数:
所以选择方程可以进一步写为:
2.2 具体估计步骤
对于被观测到的样本方程:
样本被观测到的概率:
按照传统的 Heckman 两步法进行控制函数推导:
将逆米尔斯比率 (IMR) 定义为:
将控制函数与 IMR 代入,估计方程变为以下形式:
根据这个估计方程式,作者提出了一个灵活的参数两步估计过程:
首先,为模型 (3) 中的二元样本选择模型选择参数规范。使用所有 观测值,通过最大化以下函数,获得异方差 Probit 模型中参数的估计值:
其次,选择 CLP 函数的形式,并将其与 IMR 一起加入模型 (8)。使用选定的样本观测值,通过以下估计方程的组合非线性 (或线性) 最小二乘法,获得第二阶段的参数估计值。
3. 命令介绍
命令安装:
ssc install gtsheckman, replace
命令语法:
gtsheckman depvar [indepvars] [if] [in] , select (depvar_s = varlist_s) [options]
其中,
select()
:表示写入选择方程,括号内是选择方程的具体变量;depvar
:指定回归的被解释变量;indepvars
:指定回归的控制变量和外生变量;depvar_s
:表示 “回归的被解释变量是否被观测到” 的二元虚拟变量 (0 表示未被观测的样本,1 表示观测到的样本) ;varlist_s
:选择方程中的控制变量和外生变量集。
主要选项如下:
het(varlist)
:指定第一阶段异方差概率估计的方差函数中的自变量;clp(varlist)
:指定第二阶段控制函数中与 IMR 相互作用的自变量;vce(vcetype)
:指定结果报告标准误的类型;lambda
:根据选择模型第一阶段估计 IMR 值,生成名为 lambda 的新变量。
4. 具体应用
4.1 操作实例
进行 Heckman 的两步一致估计:
. use http://fmwww.bc.edu/ec-p/data/wooldridge/mroz, clear
. gtsheckman lwage educ exper expersq, ///
> select(inlf = educ exper expersq age nwifeinc kidslt6 kidsge6)
Generalized Two Step Heckman Estimator Number of obs = 753
Selected = 428
Nonselected = 325
First-stage probit estimates
------------------------------------------------------------------------------
inlf | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
inlf |
educ | 0.131 0.025 5.18 0.000 0.081 0.180
exper | 0.123 0.019 6.59 0.000 0.087 0.160
expersq | -0.002 0.001 -3.15 0.002 -0.003 -0.001
age | -0.053 0.008 -6.23 0.000 -0.069 -0.036
nwifeinc | -0.012 0.005 -2.48 0.013 -0.022 -0.003
kidslt6 | -0.868 0.119 -7.33 0.000 -1.101 -0.636
kidsge6 | 0.036 0.043 0.83 0.408 -0.049 0.121
_cons | 0.270 0.509 0.53 0.595 -0.727 1.267
------------------------------------------------------------------------------
Second-stage augmented regression estimates
------------------------------------------------------------------------------
| Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lwage |
educ | 0.109 0.016 7.03 0.000 0.079 0.139
exper | 0.044 0.016 2.70 0.007 0.012 0.076
expersq | -0.001 0.000 -1.96 0.050 -0.002 0.000
lambda | 0.032 0.134 0.24 0.809 -0.230 0.294
_cons | -0.578 0.305 -1.90 0.058 -1.176 0.020
------------------------------------------------------------------------------
进行样本选择方程中具有异方差性和稳健标准误的 Heckman 两步一致估计:
. gtsheckman lwage educ exper expersq, ///
> select(inlf = educ exper expersq age nwifeinc kidslt6 kidsge6) ///
> het(educ kidslt6 kidsge6) vce(robust)
Generalized Two Step Heckman Estimator Number of obs = 753
Selected = 428
Nonselected = 325
First-stage heteroskedastic probit estimates
------------------------------------------------------------------------------
inlf | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
inlf |
educ | 0.089 0.040 2.25 0.025 0.011 0.167
exper | 0.089 0.036 2.50 0.012 0.019 0.159
expersq | -0.002 0.001 -2.20 0.028 -0.003 -0.000
age | -0.035 0.015 -2.40 0.016 -0.064 -0.006
nwifeinc | -0.009 0.005 -1.83 0.068 -0.018 0.001
kidslt6 | -0.640 0.277 -2.31 0.021 -1.184 -0.097
kidsge6 | 0.035 0.041 0.87 0.386 -0.045 0.115
_cons | 0.120 0.363 0.33 0.740 -0.590 0.831
-------------+----------------------------------------------------------------
lnsigma |
educ | -0.042 0.031 -1.36 0.173 -0.102 0.018
kidslt6 | 0.088 0.193 0.45 0.650 -0.291 0.467
kidsge6 | 0.096 0.067 1.43 0.152 -0.035 0.226
------------------------------------------------------------------------------
Second-stage augmented regression estimates
------------------------------------------------------------------------------
| Robust
| Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lwage |
educ | 0.106 0.014 7.61 0.000 0.079 0.134
exper | 0.039 0.016 2.50 0.012 0.008 0.070
expersq | -0.001 0.000 -1.81 0.071 -0.002 0.000
lambda | -0.024 0.091 -0.26 0.795 -0.202 0.154
_cons | -0.471 0.260 -1.81 0.070 -0.981 0.039
------------------------------------------------------------------------------
Warning: If introducing heteroskedasticity should specify clp(varlist)
4.2 应用案例
为了更好地理解这一方法,Carlson 和 Joshi (2022) 使用国际象棋评级数据,分析选手在约束时间内进行风险决策行为的个体差异。世界国际象棋联合会报告了三类国际象棋比赛 (Standard、Rapid、Blitz) 的选手排名,三类比赛的用时存在差异。选手对比赛类型的选择可能受到性别、技巧及某些不可观测因素的影响,故可以对这一问题建立选择模型 (以 Rapid 为例)。
其中,Standard 表示选手在 Standard 比赛中的排名,衡量选手在不受时间限制下的技术。在这两个方程中,female 和 standard 具有异质性截距和系数,不喜欢在约束时间内决策的选手对应系数较小。
在第一阶段估计中,分别采用 Probit、CRE Probit 和 CRC Het Probit 进行估计,结果比较稳健。 统计量范围在 1135.63 至 15901.20 之间,并且绝大多数个体的系数也是显著的。
第二阶段的估计结果如下表所示,第 (5) 列为 gtsheckman 的估计结果,可见该结果与其他方法存在较大差异。在性别方面,female 的系数为 -0.0875,大小几乎是前人研究 (Wooldridge,1995) 的 4 倍。此外,模型中的交互项在统计学意义上也是显著的,证明 gtsheckman 估计的模型形式是合理的。研究结果表明女性会更谨慎地选择具有时间约束的比赛,技术更好的选手也具有这种特点。
POLS 忽略了样本选择和个体差异造成的内生性,Heckman 忽略了个体差异造成的内生性,只有 gtsheckman 法能充分地解决由样本选择和个体差异造成的复杂内生性。
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh psm heckman, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:面板数据 xtheckmanfe:面板Heckman模型的固定效应估计 专题:倍分法DID 面板PSM+DID如何做匹配? 专题:断点回归RDD 当PSM遇上RDD:rddsga命令详解 专题:PSM-Matching Stata:psestimate-倾向得分匹配(PSM)中协变量的筛选 伍德里奇先生的问题:PSM-分析中的配对——小蝌蚪找妈妈 Stata:psestimate-倾向得分匹配(PSM)中匹配变量的筛选 Stata+PSM:倾向得分匹配分析简介 Stata-从匹配到回归:精确匹配、模糊匹配和PSM Stata:PSM-倾向得分匹配分析的误区 专题:内生性-因果推断 Heckman 模型:你用对了吗? 专题:答疑-板书 FAQs答疑-2021寒假-Stata高级班-Day2-连玉君-面板门槛-Heckman-Tobit
课程推荐:深度因果推断(2023年8月2-5日)
主讲老师:江艇
课程地点:西安·西北工业大学
🍓 课程主页:https://www.lianxh.cn/news/835167275c3af.html
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。