Stata：为什么计数类变量不宜采用log(1+y)的形式？-ppmlhdfe

Original 连享会连享会 2023-02-21

收录于合集 #回归分析 136个

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：公开课-直播 | 计量专题 | 关于连享会

连享会视频课 · 因果推断实用计量方法

作者：胡煊翊 (南开大学)
邮箱：Elizabeth666@yeah.net

编者按：本文摘译自下文，特此致谢！
Source：Cohn J B, Liu Z, Wardlaw M I. Count (and count-like) data in finance[J]. Journal of Financial Economics, 2022, 146(2): 529-551. -Link-

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

1. 背景介绍
2. 偏误原因
3. 改进方法
4. 代码示例
5. 相关推文

1. 背景介绍

对于计数的非负变量，如企业专利数量、有毒排放吨数、工伤事故数量，以及两家企业所在城市之间的距离，其通常高度右偏，且在 0 处有大量的值。这种分布特征对回归分析提出了挑战，它使得线性回归效率低下，以及置信区间难以确定。为了解决这一问题，学者们通常会取对数，即。

当取值为 0 时，由于不具有实际意义，学者会采用的形式。然而 Cohn 等 (2022) 认为，作为因变量的回归系数缺乏有意义的解释，并可能导致符号错误，更好的做法是使用泊松回归。

2. 偏误原因

假设对协变量回归，在上得到的半弹性估计系数为：

我们或许会认为，这种半弹性与对的半弹性相同，因为加到上的常数对是不变的。然而，这个猜想忽略了詹森不等式问题。事实上，得到的回归系数没有任何经济意义的解释：它既不能解释为结果变量的半弹性，也不能从的回归系数中推导出与协变量之间的关系。

由于是不可观测的，的半弹性不能从中恢复。当很大时，，的回归系数约等于相对于的半弹性。然而，当较大时，很可能在少数观测值中为零，因此不太可能从一开始就需要添加常数。相反，当很小时，和之间的差异变得很大。

方法除了会造成估计系数值大小的偏误，还会造成符号的错误。这是因为回归会面临两种形式的偏差。

第一种偏差来自被解释变量和协变量之间的非线性关系。因变量和一个协变量之间关系的错误设定，会污染其他协变量的估计系数。这个问题在回归中是特有的，因为任何的经济模型都会产生和协变量之间的非线性关系。例如，一个模型指定了和之间的线性关系，但产生了和之间的非线性关系。

具体来看，假设，，，均匀分布在上。令表示对做线性回归的误差项，并考虑对的线性回归。根据构造，第二次回归中的系数等价于在控制的条件下，对回归的系数。

现在考虑的三种情况：(1) 独立于，并在上均匀分布；(2) ；(3) 。

下图 (c)-(e) 分别为在 (1)、(2) 和 (3) 三种不同情况下，绘制对的曲线以及回归线。在 (c) 和 (d) 中，回归线的斜率都为零。前者是正确的，因为假设与和都无关。后者也是正确的，因为，这对和之间的任何线性关系都成立。

图 (c) 表明，当时，与呈正相关。当较高或较低时，较大，当处于中间值范围时，较小。因为在较高或较低时也比较大，在取中间范围时较小，和是间接正相关的。

所以，上的系数在关于和的回归中是正的，即使假设与无关。并且，上的系数也可能是有偏差的。更一般地，两个协变量之间的任何非线性关系，必然会对在这些协变量上的回归系数造成偏差。

第二种偏差来自无偏估计需要一个关于高阶模型误差矩和协变量之间关系的不合理假设。与回归最接近的合理经济模型是恒定弹性模型。假设是真正的模型，两边加 1 得到，其中。

改写成乘法形式，得到，其中

显然，不同于对数线性回归，假设可以写成，独立于并不能使独立于，除非所有非常数项的系数都是 0。也就是说，在常弹性模型中，乘法误差中的同方差性不足以对模型进行一致估计。相反，一致估计所需要的是，这是一种不太可能被任何合理的经济模型所满足的形式。

3. 改进方法

Cohn 等 (2022) 提出的改进方法是泊松回归，该方法可以对计数类结果变量做出一致估计。泊松回归假设因变量具有依赖于协变量的泊松分布。密度，其中。泊松模型中的条件期望形式为，或等价于。

泊松回归估计具有许多理想的特征：

泊松回归产生的估计具有有效的半弹性解释，不需要对高阶模型误差矩和协变量之间的关系进行假设，以获得一致的估计。
泊松回归施加了结果的条件均值和方差相等的限制。违反这一限制会降低效率，但不会造成任何偏差。
泊松回归允许可分离的群体固定效应，即使是具有高维固定效应的泊松模型，也可以快速地估计出来。
固定效应泊松回归需要排除所有观察结果变量为零的组。然而，这种排除并不是泊松回归的缺点，因为在固定效应是乘性的回归模型中，这些观察结果不包含关于回归系数的信息。
泊松回归即使在结果变量是连续的情况下也会产生有效的估计，它允许一个暴露变量作为结果的缩放变量，并且可以在 IV 回归中使用。

4. 代码示例

关于 ppmlhdfe 命令的详细介绍，请参考连享会推文「ZIP-too many Zero：零膨胀泊松回归模型」。

命令安装：

ssc install ppmlhdfe, replace

命令介绍：

ppmlhdfe depvar [indepvars] [if] [in] [weight] , [absorb(absvars)] [options]

absorb(absvars)：要吸收的固定效应；
vce(vcetype)：vcetype 可以是 robust 或者 cluster (允许两个及以上聚类)；
exposure(varname)：包含模型中的 ln(varname)，系数约束为 1；
offset(varname)：在模型中包含变量名，系数约束为 1；
d(newvar)：把固定效应合并保存为 newvar，如果随后运行 predict (predict, xb 除外)，则强制执行；
d：和上面一样，但是变量将被保存为 _ppmlhdfe_d；
separation(string)：用于删除分离的观察结果及其相关的回归量；
eform：报告指数系数 (发病率比)；
irr：与 eform 相同；
display_options：控制回归表的许多选项，如置信度、数字格式等；
tolerance(#)：收敛准则 (默认：1e-8)；
guess(string)：设定初值规则，有效的选项是 simple (默认的，几乎总是更快) 和 ols；
verbose(#)：调试信息数量，使用 v(1) 或更高版本查看其他信息，秘密选项 v(-1) 禁用所有消息；
[no]log：隐藏迭代日志；
keepsingleton：不删除单例组；
version：报告 ppmlhdfe 的版本号和日期，以及所需包的列表。

命令示例：

. use http://www.stata-press.com/data/r14/airline, clear 
. * 此时为带有默认稳健标准误的命令
. ppmlhdfe injuries XYZowned

. use "https://www.stata-press.com/data/r16/ships", clear
. * 增加固定效应，指定聚类稳健标准误
. ppmlhdfe accident op_75_79 co_65_69 co_70_74 co_75_79, ///
>     exp(service) irr absorb(ship) vce(cluster ship)

. use "http://fmwww.bc.edu/RePEc/bocode/e/EXAMPLE_TRADE_FTA_DATA" ///
>     if category=="TOTAL", clear
. egen imp = group(isoimp)
. egen exp = group(isoexp)
.  * 三个固定效应层次，分别对应于出口商-进口商、出口商-年度和进口商-年度
. ppmlhdfe trade fta, a(imp#year exp#year imp#exp) cluster(imp#exp)

5. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 泊松对数 reghdfe, m
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：回归分析

取对数！取对数？

专题：面板数据

Stata：关于reghdfe命令常见问题解答
引力模型-高维固定效应面板泊松模型
Stata新命令：ppmlhdfe-面板计数模型-多维固定效应泊松估计
reghdfe：多维面板固定效应估计
Stata：reghdfe命令报错问题

专题：Probit-Logit

ZIP-too many Zero：零膨胀泊松回归模型

专题：其它

Stata：三维引力模型介绍与估计-ppmlhdfe-nbreg-reghdfe

课程推荐：因果推断实用计量方法
主讲老师：邱嘉平教授
🍓 课程主页：https://gitee.com/lianxh/YGqjp

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

Stata：为什么计数类变量不宜采用log(1+y)的形式？-ppmlhdfe

1. 背景介绍

2. 偏误原因

3. 改进方法

4. 代码示例

5. 相关推文

🍏 关于我们

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

Stata：为什么计数类变量不宜采用log(1+y)的形式？-ppmlhdfe

1. 背景介绍

2. 偏误原因

3. 改进方法

4. 代码示例

5. 相关推文

🍏 关于我们

您可能也对以下帖子感兴趣