Stata:动态面板数据模型OLS估计的偏差
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 因果推断实用计量方法
作者:陈汉青 (中山大学)
邮箱:chenhq25@mail2.sysu.edu.cn
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 简介
2. 学者观点
2.1 Achen (2000)
2.2 Keele 和 Kelly (2006)
2.3 Wilskin (2018)
3. 参考资料
4. 相关推文
1. 简介
动态面板模型,简而言之,就是解释变量中包含了被解释变量滞后项的模型。从计量上来看,在普通的 OLS 模型中,加入被解释变量的滞后项 (lagged dependent variable, LDV) 的目的又是什么?
实际上,当出现扰动项自相关,或者研究者想控制一些未设定的自相关误差时,滞后被解释变量就被当做一种完全合理的纠正方法。关于是否将被解释变量的滞后项放入模型,学界也一直存在争议:
Achen (2000) 指出使用含有 LDV 的 OLS 估计是有偏的,会低估真实的参数值。自此学界对滞后被解释变量的使用变得非常慎重; Keele 和 Kelly (2006) 采用蒙特卡洛模拟分析了含有一阶滞后被解释变量的 OLS 模型的估计效果,发现带有 LDV 的 OLS 估计效果好于常见的其它模型; Wilskin (2018) 反驳了 Achen (2000) 的观点,认为应该尽可能地在模型中加入解释变量和被解释变量的滞后项,他建立出一个新的、估计效果更好的模型,并总结出一套设定模型的方法。
接下来,本文将简要介绍上述学者的观点和建议。
2. 学者观点
2.1 Achen (2000)
Achen (2000) 认为加入被解释变量滞后,若违背了 IID 假设,就会产生估计偏误,因此应该拒绝使用 LDV。
2.2 Keele 和 Kelly (2006)
Keele 和 Kelly (2006) 通过将含有被解释变量一阶滞后的模型 (LDV 模型) 与其它模型 (GLS、ARMA、OLS、以及 2LDV) 对比,得出了 LDV 模型的适用情形。
具体来看,考虑如下模型:
若 ,即模型中不存在滞后项,此时加入滞后被解释变量就会导致模型设定错误,产生有偏的估计值。若 ,即模型是动态过程,此时就应该包括滞后被解释变量,否则就会产生遗漏变量问题。
Kelee 和 Kelly (2006) 针对是否使用 LDV 提出了以下建议:
如果怀疑模型存在动态性,就应慎重使用 GLS 或者纠正标准误的 OLS 。因为此时不加 LDV,相当于遗漏变量,即使是弱动态过程 ( 很小),也会导致有偏估计; 如果怀疑一个过程是共同因子 (common factor),此时应当使用自回归移动平均模型 (ARMA)。因为当数据生成过程具有弱动态性时,只有 ARMA 的表现是稳健的,其它模型的估计效果都很差; 最后,在使用带有滞后被解释变量 LDV 的 OLS 估计之前,研究者必须先检验被解释变量是否是平稳的 。LDV 引起的很多问题很有可能是因为数据是非平稳的。如果数据是非平稳的,带有 LDV 的 OLS 估计显然是不正确的,应该先进行协整。无论 LDV 的优势多强,它都不适用于未经差分的非平稳数据。 一个待回答的问题是,怎样区分共同因子和动态环境呢?答案是不确定的,因为没有一个简单的检验可以区别数据是有一个共同因子还是动态过程。这实际上是一个理论问题,过去是否会影响被研究过程的当期值?如果答案是肯定的,只要满足平稳性条件、模型残差不是高度自相关,带有 LDV 的 OLS 就是合适的。
2.3 Wilskin (2018)
Wilkins (2018) 则认为 Achen (2000)、Keele 和 Kelly (2006) 都没有正确地设定模型。具体来看,Wilkins (2018) 设定的模型如下:
该模型是自回归分布滞后模型(Autoregressive Distributed Lag,ADL)的一个特殊形式。Wilkins (2018) 对上述模型进行了蒙特卡洛模拟,发现此模型的表现好于不含 LDV 的 OLS 模型、含有一阶 LDV 的 OLS 模型以及含有二阶 LDV 的 OLS 模型。上述结论从弱动态过程到强动态过程、从残差轻微自相关到高度自相关,都是成立的。条件是 和 都是平稳过程,即满足如下条件:
但是该模型也有一个缺陷,在有限时样本下 (T很小),存在估计偏误,但随着 T 增大这种偏误很快就趋于零了。
Wilkins (2018) 提出,模型设定的程序应该是从 ADL(1, 1) 模型开始,检验残差是否自相关,然后添加滞后被解释变量,直到残差自相关被清除。蒙特卡洛分析的结果也显示,这种模型设定方法能够得到对 的准确的估计,而凭空添加限制条件则会导致很大的偏差。
在使用蒙特卡洛模拟了有限时间 T 下的估计量表现后,Wilkins (2018) 使用公式推导了当 T 趋近于无穷大时,模型的渐近性质以及 对 的长期效果。
ADL(2, 1) 模型中正确的长期效果表达式应为:
对 的长期效果应为:
前人的很多文献都漏掉了分母中的 。Wilkins (2018) 认为,与前面模型设定的思想保持一致,研究者在计算 对 的长期效果之前也要先检验 的时间序列结构。如果 不是一个 AR(1) 的过程,那么 ADL(2,1) 的长期效果表达式也不会如前文所示。作者接下来又针对长期效果的估计进行了蒙特卡洛模拟,结果显示其设定的模型仍然是表现最好的模型。但即使是表现最好的模型,当 偏高时,样本数量为 100,Hurwicz 偏误也会导致 对 长期效果的大量低估。
尽管 ADL(1, 1) 和作者设定的模型在估计 对 的即期效果 上区别不大,但在估计 对 的长期效果时区别非常大,因此在估计长期效果时,研究者应同时汇报 ADL(1, 1) 和 ADL (2, 1) 的结果以便读者比较。
Wilkins (2018) 的操作建议:
在设定模型时,应该从最具有一般性的模型开始,然后每次添加限制条件都需要验证。这种方法有助于避免模型设定错误问题,而一开始就从一个限制非常多的模型入手,容易出现模型设定错误; 研究者必须注意检验所使用的时间序列数据是否是平稳的。在模型中加入被解释变量的滞后项有助于纠正残差的自相关。如果对是否存在残差自相关很难判断,研究者应该在结果中同时呈现加入高阶滞后项和不加入高阶滞后项的模型估计结果,因为蒙特卡洛模拟显示,不同的模型中被解释变量的长期效果的计算值区别非常大; 关于时间序列平稳性的条件,AR(2) 模型和更高阶自回归过程的平稳性条件远比 AR (1) 模型的平稳性条件要复杂; 计算被解释变量的长期效果是时间序列模型研究的另一个兴趣点,但也伴随着很多缺陷。精准地计算被解释变量的长期效果需要仔细考虑该变量的时间序列结构。而最常用的计算公式是建立在被解释变量自身并不是动态过程的假设之上的。有时可能的确是这样,但是如前文所述,就相当于在被解释变量的数据生成过程中引入限制条件,但限制条件必须经过检验而不仅仅是假设。仅仅是假设被解释变量并不是动态过程,是不正确的,可能会导致低估被解释变量的长期效果。
3. 参考资料
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。
Achen C H. Why lagged dependent variables can suppress the explanatory power of other independent variables[C]//annual meeting of the political methodology section of the American political science association, UCLA. 2000, 20(22): 07.2000. -PDF- Keele L, Kelly N J. Dynamic models for dynamic theories: The ins and outs of lagged dependent variables[J]. Political analysis, 2006: 186-205. -PDF- Wilkins A S. To lag or not to lag?: Re-evaluating the use of lagged dependent variables in regression analysis[J]. Political Science Research and Methods, 2018, 6(2): 393. -PDF-
4. 相关推文
Note:产生如下推文列表的命令为:
lianxh 动态面板 GMM 滞后项 时间序列, m
安装最新版lianxh
命令:
ssc install lianxh, replace
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。
专题:专题课程 ⏩直播:动态面板数据模型 专题:数据处理 如何处理时间序列中的日期间隔-(with-gaps)-问题? 专题:面板数据 xtdpdgmm:动态面板数据模型一网打尽 Stata实操陷阱:动态面板数据模型 Stata: 动态面板门槛模型 专题:IV-GMM Stata:GMM-简介及实现范例 IV:可以用内生变量的滞后项做工具变量吗? 专题:时间序列 Stata:时间序列数据的回归和预测
课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。