互助问答第10-11期:观测数据频次、受限因变量模型等问题
互助问答第10-11期
本期解答人:中关村大街
问:关于观测数据频次不同的疑问。
(1)在一个面板数据中,因变量是月度数据,而自变量是年度数据,当然也有对应的月度数据。这样是否可以直接对自变量进行回归?对结果有什么影响?
(2)在一些论文中遇到过这种情况,有1995、2000、2005、2010、2015年的数据,通过平滑插值算法,得到了缺失年份的数据。这种方法是否科学可行?stata如何实现这种平滑插值?
例文:吕昭河,翟登.互联网技术对人口迁移的跨时期空间效应研究——基于省级面板数据的分析[J].中国人口科学,2018(03):26-38+126。
答:
(1)如果拿月度数据对年度数据回归,计量上没有问题。只是面板数据中任意个体的因变量在同一年中的变化无法反映在年度自变量的系数中。
(2)没有十全十美的插值法,所有方法都有成立的前提。是否使用这些方法取决于研究者是否亟需填补缺失值以及是否可以容忍相关方法的插值偏差。Stata中有许多插值方法的命令。问题提到的论文使用的是Cubic Spline Interpolation,可以下载使用第三方Stata命令csipolate。
问:关于受限因变量模型的三个问题。
(1)受限因变量模型,比如Probit、Tobit模型等都采用MLE估计,如果是正态分布且同方差(i.i.d),则估计结果是一致且服从正态分布。如果存在误设(不服从正态分布或者异方差)则采用QMLE估计,在条件期望正确设定(一阶矩)的情况下,估计仍然是一致的。那么,是否意味在做这些模型检验的时候,就不必关注异方差和正态分布检验?
(2)若对受限因变量模型仍然要关注异方差和正态分布检验,如何检验?现有的实证文章中很少有对这些问题进行检验,都是直接应用。Tobit模型用tobcm命令来检验正态分布,异方差用哪个命令?
(3)发现异方差和非正态分布,如何修正?
答:
当Probit和Tobit模型的正态分布假设不成立或存在异方差问题时,模型中的Beta系数一般是不一致的。但这个问题到底多严重,学界看法是不一致的。比如Wooldridge的看法就是:我们不应该只强调系数的估计是否一致,因为我们关心的根本不是系数本身,而是自变量的局部效应(Partial effects,比如在运行完Probit后,用margins命令生成的效应)——在线性模型中,系数也就是局部效应,但在Probit和Tobit等非线性模型中,两者不是一回事。
在Wooldridge的高级教科书中(Wooldridge 2010),他举了一个例子:真实分布是Logit,但研究者误用了Probit,尽管系数估计值有明显差异,但是自变量的局部效应没什么显著区别。他在中级教科书中(Wooldridge 2016)提到:如果偏离正态同方差假设不严重,Tobit模型得到的自变量的局部效应依然是可靠的。这或许就是现在实证研究较少检验正态和同方差的原因之一。
如果你在乎这些问题,也还是有一些方法的。比如hetprobit命令就可以检验及纠正Probit模型中可能存在的异方差问题。除此之外,大量的命令都是第三方命令而非系统自带。我个人的看法是:与其直接检验正态分布或同方差,还不如通过诸如变换模型形态等方式验证结果(局部效应)是否稳健。
问:关于三个模型比较的问题。
OlS模型、面板固定效应(FE)、面板随机效应(RE)模型估计的优缺点。
答:
给定一个面板数据,OLS模型可以作为基准模型,优点是简单,缺点是没纳入个体效应。固定效应和随机效应模型的优点是纳入了个体效应。当个体效应与自变量相关时,应使用固定效应模型,因为此时随机效应模型系数估计不一致。当个体效应与自变量不相关时,教科书的传统说法是应该使用随机效应,因为更有效,并且有Hausman检验判断固定效应和随机效应模型哪个更好。实际上,在线性面板模型中,目前大都默认使用固定效应,一来因为个体效应很难真正与自变量不相关,二来因为随着数据量的增大,有效性问题越来越不重要,大家更关注一致性问题。但是,如果是非线性模型(比如Probit),控制大量个体哑变量(即固定效应)会造成系数估计偏差,随机效应模型可能会更好——计量中这依然是一个前沿领域。
问:请教回归命令问题。
请问公司金融的数据,非平衡面板,用xtreg cluster和 reg robust 能得出一样的结果吗? 差别在哪,以哪个为准呢?如何能保持一致呢?cluster和robust有必要同时使用吗?做固定效应的时候,直接写FE 还是写 i.year i.industry呢?
答:
你的问题实际上有好几个层面。第一,给定面板数据,使用xtreg还是reg。如果你想控制固定效应,两者都行,既可以xtreg加fe选项,也可以reg然后控制个体哑变量(比如你说的i.industry)。Stata的处理方法不同,前者是自变量减去自己的组内均值,后者是实打实加入一堆控制变量;结果自然不同,但一般不会差异太大,毕竟两者的理论精神是一致的。
第二,标准误应该用cluster还是robust还是同时使用。Cluster standard error在中文里叫聚类稳健标准误,它本身就是稳健的标准误,所以Stata没有所谓“同时”使用cluster和robust两个选项的问题。在xtreg, fe中,“使用robust”和“使用cluster且聚类在个体层面”是等价的。当然,你可以聚类在更高层面(比如,个人层面的面板数据可以在地区层面聚类,此时robust和cluster就不同),这取决于你的实际研究情形。
温
馨
提
示
您的问题一定要具体、可答,不要发太笼统无法回答的问题,不要发教科书也能回答的问题。不回答与计量实证无关的内容。
如果您在计量学习和实证研究中遇到问题,请及时发到邮箱szlw58@126.com,专业委员会有20名编辑都会看,您的问题会得到及时关注!请您将问题描述清楚,任何有助于把问题描述清楚的细节都能使我们更方便地回答您的问题。
如果您想成为问题解答者,在帮助他人过程中巩固自己的知识,请发邮件至szlw58@126.com(优先)或给本公众号留言或加微信793481976给群主留言,我们诚挚欢迎热心的学者和学生。具体招募信息请参见:实证研究互助平台志愿者团队招募公告
鲜活的事例更有助于提高您的研究水平,呆板的教科书让人生厌。如果您喜欢,请提出您的问题,也请转发推广!
如果您觉得有帮助,欢迎打赏。