查看原文
其他

广义Heckman两步法-gtsheckman

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会课程 · 2023 暑期班

作者:章青慈 (中央财经大学)
邮箱:Quincy_zqc@163.com

编者按:本文主要参考自下文,特此致谢!
Source:Carlson A, Joshi R. Sample Selection in Linear Panel Data Models with Heterogeneous Coefficients[R]. 2022. -Link- -PDF-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 背景简介

  • 2. 估计步骤

    • 2.1 异质性截距和异质性系数

    • 2.2 具体估计步骤

  • 3. 命令介绍

  • 4. 具体应用

    • 4.1 操作实例

    • 4.2 应用案例

  • 5. 相关推文



1. 背景简介

传统的 Heckman 两步法可以解决样本选择造成的内生性问题,但仍忽视了由样本个体异质性造成的内生性问题。为了克服这一缺陷,Carlson 和 Joshi (2022) 提出了广义 Heckman 两步法 (又称作 gtsheckman)。它类似于两步一致 Heckman 估计,但允许第一步选择方程中存在异方差,以及更一般化的控制函数形式。此外,它提供了异方差稳健性检验和聚类稳健性检验。

为了推广该方法,Carlson 和 Joshi (2022) 编写了广义 Heckman 两步法的 Stata 命令 gtsheckman。本文的主要目的是介绍 gtsheckman 命令的使用。

2. 估计步骤

2.1 异质性截距和异质性系数

给定面板数据,选择方程可以灵活地设计异质性截距和异质性系数:

其中 是潜在的特有误差, 是时间虚拟变量。选择方程中未观测到的效应可表示为观测到的效应的线性函数:

所以选择方程可以进一步写为:

2.2 具体估计步骤

对于被观测到的样本方程:

样本被观测到的概率:

按照传统的 Heckman 两步法进行控制函数推导:

将逆米尔斯比率 (IMR) 定义为:

将控制函数与 IMR 代入,估计方程变为以下形式:

根据这个估计方程式,作者提出了一个灵活的参数两步估计过程:

  • 首先,为模型 (3) 中的二元样本选择模型选择参数规范。使用所有 观测值,通过最大化以下函数,获得异方差 Probit 模型中参数的估计值:
  • 其次,选择 CLP 函数的形式,并将其与 IMR 一起加入模型 (8)。使用选定的样本观测值,通过以下估计方程的组合非线性 (或线性) 最小二乘法,获得第二阶段的参数估计值。

3. 命令介绍

命令安装:

ssc install gtsheckman, replace

命令语法:

gtsheckman depvar [indepvars] [if] [in] , select (depvar_s = varlist_s) [options]

其中,

  • select():表示写入选择方程,括号内是选择方程的具体变量;
  • depvar:指定回归的被解释变量;
  • indepvars:指定回归的控制变量和外生变量;
  • depvar_s:表示 “回归的被解释变量是否被观测到” 的二元虚拟变量 (0 表示未被观测的样本,1 表示观测到的样本) ;
  • varlist_s:选择方程中的控制变量和外生变量集。

主要选项如下:

  • het(varlist):指定第一阶段异方差概率估计的方差函数中的自变量;
  • clp(varlist):指定第二阶段控制函数中与 IMR 相互作用的自变量;
  • vce(vcetype):指定结果报告标准误的类型;
  • lambda:根据选择模型第一阶段估计 IMR 值,生成名为 lambda 的新变量。

4. 具体应用

4.1 操作实例

进行 Heckman 的两步一致估计:

. use http://fmwww.bc.edu/ec-p/data/wooldridge/mroz, clear
. gtsheckman lwage educ exper expersq, ///
> select(inlf = educ exper expersq age nwifeinc kidslt6 kidsge6)

Generalized Two Step Heckman Estimator Number of obs = 753
Selected = 428
Nonselected = 325
First-stage probit estimates
------------------------------------------------------------------------------
inlf | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
inlf |
educ | 0.131 0.025 5.18 0.000 0.081 0.180
exper | 0.123 0.019 6.59 0.000 0.087 0.160
expersq | -0.002 0.001 -3.15 0.002 -0.003 -0.001
age | -0.053 0.008 -6.23 0.000 -0.069 -0.036
nwifeinc | -0.012 0.005 -2.48 0.013 -0.022 -0.003
kidslt6 | -0.868 0.119 -7.33 0.000 -1.101 -0.636
kidsge6 | 0.036 0.043 0.83 0.408 -0.049 0.121
_cons | 0.270 0.509 0.53 0.595 -0.727 1.267
------------------------------------------------------------------------------
Second-stage augmented regression estimates
------------------------------------------------------------------------------
| Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lwage |
educ | 0.109 0.016 7.03 0.000 0.079 0.139
exper | 0.044 0.016 2.70 0.007 0.012 0.076
expersq | -0.001 0.000 -1.96 0.050 -0.002 0.000
lambda | 0.032 0.134 0.24 0.809 -0.230 0.294
_cons | -0.578 0.305 -1.90 0.058 -1.176 0.020
------------------------------------------------------------------------------

进行样本选择方程中具有异方差性和稳健标准误的 Heckman 两步一致估计:

. gtsheckman lwage educ exper expersq, ///
> select(inlf = educ exper expersq age nwifeinc kidslt6 kidsge6) ///
> het(educ kidslt6 kidsge6) vce(robust)

Generalized Two Step Heckman Estimator Number of obs = 753
Selected = 428
Nonselected = 325
First-stage heteroskedastic probit estimates
------------------------------------------------------------------------------
inlf | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
inlf |
educ | 0.089 0.040 2.25 0.025 0.011 0.167
exper | 0.089 0.036 2.50 0.012 0.019 0.159
expersq | -0.002 0.001 -2.20 0.028 -0.003 -0.000
age | -0.035 0.015 -2.40 0.016 -0.064 -0.006
nwifeinc | -0.009 0.005 -1.83 0.068 -0.018 0.001
kidslt6 | -0.640 0.277 -2.31 0.021 -1.184 -0.097
kidsge6 | 0.035 0.041 0.87 0.386 -0.045 0.115
_cons | 0.120 0.363 0.33 0.740 -0.590 0.831
-------------+----------------------------------------------------------------
lnsigma |
educ | -0.042 0.031 -1.36 0.173 -0.102 0.018
kidslt6 | 0.088 0.193 0.45 0.650 -0.291 0.467
kidsge6 | 0.096 0.067 1.43 0.152 -0.035 0.226
------------------------------------------------------------------------------
Second-stage augmented regression estimates
------------------------------------------------------------------------------
| Robust
| Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lwage |
educ | 0.106 0.014 7.61 0.000 0.079 0.134
exper | 0.039 0.016 2.50 0.012 0.008 0.070
expersq | -0.001 0.000 -1.81 0.071 -0.002 0.000
lambda | -0.024 0.091 -0.26 0.795 -0.202 0.154
_cons | -0.471 0.260 -1.81 0.070 -0.981 0.039
------------------------------------------------------------------------------
Warning: If introducing heteroskedasticity should specify clp(varlist)

4.2 应用案例

为了更好地理解这一方法,Carlson 和 Joshi (2022) 使用国际象棋评级数据,分析选手在约束时间内进行风险决策行为的个体差异。世界国际象棋联合会报告了三类国际象棋比赛 (Standard、Rapid、Blitz) 的选手排名,三类比赛的用时存在差异。选手对比赛类型的选择可能受到性别、技巧及某些不可观测因素的影响,故可以对这一问题建立选择模型 (以 Rapid 为例)。

其中,Standard 表示选手在 Standard 比赛中的排名,衡量选手在不受时间限制下的技术。在这两个方程中,femalestandard 具有异质性截距和系数,不喜欢在约束时间内决策的选手对应系数较小。

在第一阶段估计中,分别采用 Probit、CRE Probit 和 CRC Het Probit 进行估计,结果比较稳健。 统计量范围在 1135.63 至 15901.20 之间,并且绝大多数个体的系数也是显著的。

第二阶段的估计结果如下表所示,第 (5) 列为 gtsheckman 的估计结果,可见该结果与其他方法存在较大差异。在性别方面,female 的系数为 -0.0875,大小几乎是前人研究 (Wooldridge,1995) 的 4 倍。此外,模型中的交互项在统计学意义上也是显著的,证明 gtsheckman 估计的模型形式是合理的。研究结果表明女性会更谨慎地选择具有时间约束的比赛,技术更好的选手也具有这种特点。

POLS 忽略了样本选择和个体差异造成的内生性,Heckman 忽略了个体差异造成的内生性,只有 gtsheckman 法能充分地解决由样本选择和个体差异造成的复杂内生性。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh psm heckman, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:面板数据
    • xtheckmanfe:面板Heckman模型的固定效应估计
  • 专题:倍分法DID
    • 面板PSM+DID如何做匹配?
  • 专题:断点回归RDD
    • 当PSM遇上RDD:rddsga命令详解
  • 专题:PSM-Matching
    • Stata:psestimate-倾向得分匹配(PSM)中协变量的筛选
    • 伍德里奇先生的问题:PSM-分析中的配对——小蝌蚪找妈妈
    • Stata:psestimate-倾向得分匹配(PSM)中匹配变量的筛选
    • Stata+PSM:倾向得分匹配分析简介
    • Stata-从匹配到回归:精确匹配、模糊匹配和PSM
    • Stata:PSM-倾向得分匹配分析的误区
  • 专题:内生性-因果推断
    • Heckman 模型:你用对了吗?
  • 专题:答疑-板书
    • FAQs答疑-2021寒假-Stata高级班-Day2-连玉君-面板门槛-Heckman-Tobit

课程推荐:深度因果推断(2023年8月2-5日)
主讲老师:江艇
课程地点:西安·西北工业大学
🍓 课程主页https://www.lianxh.cn/news/835167275c3af.html

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存