Stata:为什么计数类变量不宜采用log(1+y)的形式?-ppmlhdfe
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会视频课 · 因果推断实用计量方法
作者:胡煊翊 (南开大学)
邮箱:Elizabeth666@yeah.net
编者按:本文摘译自下文,特此致谢!
Source:Cohn J B, Liu Z, Wardlaw M I. Count (and count-like) data in finance[J]. Journal of Financial Economics, 2022, 146(2): 529-551. -Link-
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 背景介绍
2. 偏误原因
3. 改进方法
4. 代码示例
5. 相关推文
1. 背景介绍
对于计数的非负变量,如企业专利数量、有毒排放吨数、工伤事故数量,以及两家企业所在城市之间的距离,其通常高度右偏,且在 0 处有大量的值。这种分布特征对回归分析提出了挑战,它使得线性回归效率低下,以及置信区间难以确定。为了解决这一问题,学者们通常会取对数,即 。
当 取值为 0 时,由于 不具有实际意义,学者会采用 的形式。然而 Cohn 等 (2022) 认为, 作为因变量的回归系数缺乏有意义的解释,并可能导致符号错误,更好的做法是使用泊松回归。
2. 偏误原因
假设 对协变量回归,在 上得到的半弹性估计系数为 :
我们或许会认为,这种半弹性与 对 的半弹性相同,因为加到 上的常数对 是不变的。然而,这个猜想忽略了詹森不等式问题。事实上, 得到的回归系数没有任何经济意义的解释:它既不能解释为结果变量的半弹性,也不能从 的回归系数中推导出 与协变量 之间的关系。
由于 是不可观测的, 的半弹性 不能从 中恢复。当 很大时, , 的回归系数 约等于 相对于 的半弹性。然而,当 较大时, 很可能在少数观测值中为零,因此不太可能从一开始就需要添加常数。相反,当 很小时, 和 之间的差异变得很大。
方法除了会造成估计系数值大小的偏误,还会造成符号的错误。这是因为 回归会面临两种形式的偏差。
第一种偏差来自被解释变量和协变量之间的非线性关系。因变量和一个协变量之间关系的错误设定,会污染其他协变量的估计系数。这个问题在 回归中是特有的,因为任何 的经济模型都会产生 和协变量之间的非线性关系。例如,一个模型指定了 和 之间的线性关系,但产生了 和 之间的非线性关系。
具体来看,假设 ,,, 均匀分布在 上。令 表示 对 做线性回归的误差项,并考虑 对 的线性回归。根据构造,第二次回归中 的系数等价于在控制 的条件下, 对 回归的系数。
现在考虑 的三种情况:(1) 独立于 ,并在 上均匀分布;(2) ;(3) 。
下图 (c)-(e) 分别为在 (1)、(2) 和 (3) 三种不同情况下,绘制 对 的曲线以及回归线。在 (c) 和 (d) 中,回归线的斜率都为零。前者是正确的,因为假设 与 和 都无关。后者也是正确的,因为 ,这对 和 之间的任何线性关系都成立。
图 (c) 表明,当 时, 与 呈正相关。当 较高或较低时, 较大,当 处于中间值范围时, 较小。因为 在 较高或较低时也比较大,在 取中间范围时较小, 和 是间接正相关的。
所以, 上的系数在 关于 和 的回归中是正的,即使假设 与 无关。并且, 上的系数也可能是有偏差的。更一般地,两个协变量之间的任何非线性关系,必然会对 在这些协变量上的回归系数造成偏差。
第二种偏差来自无偏估计需要一个关于高阶模型误差矩和协变量之间关系的不合理假设。与 回归最接近的合理经济模型是恒定弹性模型。假设 是真正的模型,两边加 1 得到 ,其中 。
改写成乘法形式,得到 ,其中
显然,不同于对数线性回归,假设 可以写成 , 独立于 并不能使 独立于 ,除非所有非常数项的系数都是 0。也就是说,在常弹性模型中,乘法误差中的同方差性不足以对 模型进行一致估计。相反,一致估计所需要的是 ,这是一种不太可能被任何合理的经济模型所满足的形式。
3. 改进方法
Cohn 等 (2022) 提出的改进方法是泊松回归,该方法可以对计数类结果变量做出一致估计。泊松回归假设因变量具有依赖于协变量的泊松分布。密度 ,其中 。泊松模型中的条件期望形式为 ,或等价于 。
泊松回归估计具有许多理想的特征:
泊松回归产生的估计具有有效的半弹性解释,不需要对高阶模型误差矩和协变量之间的关系进行假设,以获得一致的估计。 泊松回归施加了结果的条件均值和方差相等的限制。违反这一限制会降低效率,但不会造成任何偏差。 泊松回归允许可分离的群体固定效应,即使是具有高维固定效应的泊松模型,也可以快速地估计出来。 固定效应泊松回归需要排除所有观察结果变量为零的组。然而,这种排除并不是泊松回归的缺点,因为在固定效应是乘性的回归模型中,这些观察结果不包含关于回归系数的信息。 泊松回归即使在结果变量是连续的情况下也会产生有效的估计,它允许一个暴露变量作为结果的缩放变量,并且可以在 IV 回归中使用。
4. 代码示例
关于 ppmlhdfe
命令的详细介绍,请参考连享会推文「ZIP-too many Zero:零膨胀泊松回归模型」。
命令安装:
ssc install ppmlhdfe, replace
命令介绍:
ppmlhdfe depvar [indepvars] [if] [in] [weight] , [absorb(absvars)] [options]
absorb(absvars)
:要吸收的固定效应;vce(vcetype)
:vcetype
可以是robust
或者cluster
(允许两个及以上聚类);exposure(varname)
:包含模型中的ln(varname)
,系数约束为 1;offset(varname)
:在模型中包含变量名,系数约束为 1;d(newvar)
:把固定效应合并保存为 newvar,如果随后运行predict
(predict, xb
除外),则强制执行;d
:和上面一样,但是变量将被保存为 _ppmlhdfe_d;separation(string)
:用于删除分离的观察结果及其相关的回归量;eform
:报告指数系数 (发病率比);irr
:与eform
相同;display_options
:控制回归表的许多选项,如置信度、数字格式等;tolerance(#)
:收敛准则 (默认:1e-8);guess(string)
:设定初值规则,有效的选项是simple
(默认的,几乎总是更快) 和ols
;verbose(#)
:调试信息数量,使用v(1)
或更高版本查看其他信息,秘密选项v(-1)
禁用所有消息;[no]log
:隐藏迭代日志;keepsingleton
:不删除单例组;version
:报告ppmlhdfe
的版本号和日期,以及所需包的列表。
命令示例:
. use http://www.stata-press.com/data/r14/airline, clear
. * 此时为带有默认稳健标准误的命令
. ppmlhdfe injuries XYZowned
. use "https://www.stata-press.com/data/r16/ships", clear
. * 增加固定效应,指定聚类稳健标准误
. ppmlhdfe accident op_75_79 co_65_69 co_70_74 co_75_79, ///
> exp(service) irr absorb(ship) vce(cluster ship)
. use "http://fmwww.bc.edu/RePEc/bocode/e/EXAMPLE_TRADE_FTA_DATA" ///
> if category=="TOTAL", clear
. egen imp = group(isoimp)
. egen exp = group(isoexp)
. * 三个固定效应层次,分别对应于出口商-进口商、出口商-年度和进口商-年度
. ppmlhdfe trade fta, a(imp#year exp#year imp#exp) cluster(imp#exp)
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 泊松 对数 reghdfe, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:回归分析 取对数!取对数? 专题:面板数据 Stata:关于reghdfe命令常见问题解答 引力模型-高维固定效应面板泊松模型 Stata新命令:ppmlhdfe-面板计数模型-多维固定效应泊松估计 reghdfe:多维面板固定效应估计 Stata:reghdfe命令报错问题 专题:Probit-Logit ZIP-too many Zero:零膨胀泊松回归模型 专题:其它 Stata:三维引力模型介绍与估计-ppmlhdfe-nbreg-reghdfe
课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。