不止点滴
其他
DID相关文献列表
说明一下:除了更新推文,我平时不怎么登公众号这个系统,而公众号系统的规则是【如果48小时内没有回复读者消息,便再也不能回复了】,所以这导致了当我看到了消息却无法回复。跟发了消息却没收到回复的朋友说一声:不好意思。学习一个计量方法的最好途径之一是看那些使用了这种方法的文献,掌握一个计量方法的最好途径之一是自己实际使用这种方法去做论文。我们国家正处于改革和发展的重要阶段,具有准自然实验性质的政策冲击很多,从而为DID的使用提供了绝佳的机会。以税制改革为例,2002年有所得税分享比例改革、2004年有增值税转型改革、2008年有企业所得税税率改革,2012年开始有营业税转增值税改革,等等。关于这些政策改革的DID文献相当丰富,找寻起来也比较有目的性,所以这种类型的文献就不多说了。今天推荐一些我自己在写DID论文时曾经重点参考过的相关文献。反面参考(陆铭老师批判)《国内双重差分法的研究现状与潜在问题》,《数量经济技术经济研究》2015年第7期讨论《How
2018年5月2日
其他
二值选择模型(2):Probit与Logit
小结:Probit模型等的估计参数并不具备经济意义,不能直接进行解释,需要先转换为平均边际效应。这也是看文献时,回归表格的注释里都有“表中报告的是估计的边际效应”这样一句话的原因。
2017年10月16日
其他
固定效应的Stata实现
之前讲过,对于如下的一般静态面板模型,我们主要采用固定效应进行估计:其中,和分别为个体固定效应和时间固定效应。关于模型的表达,这里有一点要提醒一下,面板数据的特征是同时包含了截面维度i和时间维度t,因而模型中变量的下标要同时含有i和t。曾经看过好几篇新手的论文,发现他们就根本没意识到这点,下标或者只用i,或者只有t,这是很不严谨的。由于模型(1)属于面板数据模型,因此在使用Stata进行回归分析前,需要先定义面板数据,也就是告诉Stata你的数据是面板数据,从而你才可以使用有关命令。定义面板数据的Stata命令及结果显示如下:xtset表示设定面板数据,后面紧跟的分别是截面维度和时间维度,顺序不要乱。在这个例子里,截面维度是frdm(法人代码),unbalanced表示该数据为非平衡面板数据,要注意的是,frdm必须为数值型且为整数;时间维度为year(年份),从1999年-2006年。关于数据,这里也有一点要提醒一下,大家不用纠结平衡面板与非平衡面板之差,它们都属于面板数据,适用于完全相同的估计策略。由于平衡面板往往会损失很多样本量,所以若不是有特别要求,一般采用非平衡面板就行。对于个体固定效应模型,Stata命令及结果显示如下:xtreg表示对面板数据进行回归,前缀xt可以说是面板数据命令的标志,与OLS的回归命令reg相区别。在这个例子中,被解释变量为exit1,后面4个全是解释变量,fe表示fixed
2017年5月11日
其他
固定效应还是随机效应?Hausman检验?
之前说过,对于面板数据模型,我们一般或者用固定效应估计,或者用随机效应估计。那么在实际运用的时候,到底应该选择哪一种估计方法呢?不少人习惯先做Hausman检验,然后根据检验结果进行选择。这自然是没问题的。不过,今天在这里武断又果断地跟大家讲:管它的Hausman检验,管它的随机效应,直接用固定效应估计吧!这不是任性,而是有充足理由的。对于静态模型:复合扰动项由不可观测的不随时间变化的个体效应、不随个体变化的时间效应、以及满足球形扰动方差等经典假设的扰动项构成。回忆一下之前讲的,固定效应和随机效应的差别就在于个体效应或者时间效应与解释变量的关系,前者假设个体效应或者时间效应与某个解释变量相关,而后者则假设个体效应或者时间效应与所有的解释变量都不相关。现在,假设模型(1)确实应该用随机效应估计。在这种情况下,复合扰动项与所有解释变量无关,通过OLS我们可以得到一致估计。那如果一不小心“错误”地使用了固定效应呢?由于固定效应的估计方法有三种:组内去均值估计、一阶差分估计、以及最小二乘虚拟变量法,这里以组内去均值估计为例(为说明的简便起见,假设只存在个体固定效应;其他两种方法的思想与组内去均值估计一致),去均值后有:由于不随时间变化,从而其均值就等于本身,也就说这一项为0。此时,由于与解释变量相关的个体效应被消除掉了,新的扰动项与解释变量无关,从而通过OLS我们可以得到一致估计。也就是说,即便模型本身是应该使用随机效应估计的,用固定效应估计照样能得到一致估计。但是反过来就不一样了,如果在应该使用固定效应的情况下却使用了随机效应,一定会得不到一致估计。上面只是从技术上说明了使用固定效应可以免受的不必要风险,其实还有一个更重要的原因。我们都知道,遗漏变量偏误是内生性的一大来源,在建立计量模型时,我们都倾向于加入更多重要的控制变量来缓解这个问题。但是,由于经济主体和经济关系的复杂性,影响被解释变量的因素可以说成千上万,我们加入模型予以控制的那些因素只是我们能够考虑到的、能够观测到的因素,还有大量的未考虑到、未被观测到的因素进入了扰动项。在这种情况下,很难假设说扰动项中完全没有一丁点不随个体变化或时间变化、且与解释变量相关的因素。从这个角度出发,相对于随机效应,固定效应的假设更加符合现实,更能较好的处理遗漏变量问题。总结一下,基于以下两点原因,我们可以直接使用固定效应对一般面板数据模型进行估计:(1)从技术上来讲,不管模型本应该使用固定效应还是随机效应,使用固定效应估计始终能得到一致估计,但随机效应则不然;(2)从理论上来讲,固定效应的假设更加符合经济现实,有利于缓解因遗漏变量偏误导致的内生性问题。既然如此,为什么不少人还是要看Hausman检验的脸色呢?部分原因可能是为了凑字数,部分原因可能是为了心安吧。其实,基于以上两点理由,可以武断又果断地讲:不用看Hausman检验的结果也知道它肯定是支持使用固定效应的(也不能说的这么绝对,但至少有相当把握)。不过,虽然话是这么说,但不代表大家可以不理会Hausman检验了。Hausman检验的思想还是很值得学习和了解的,其应用也远非判断下固定随机效应这么局限。所以,下面以固定效应和随机效应的选择为,简单介绍一下Hausman检验。既然是统计检验,自然是需要有原假设的。对于原假设与所有解释变量都不相关。原假设意味着随机效应模型是正确的模型。在原假设成立的情况下,固定效应估计与随机效应估计均能得到一致估计,也就是说FE与RE估计量将依概率共同收敛于真实的参数值,从而。在原假设不成立的情况下,FE估计量将依概率收敛于真实的参数值,但是RE估计量则不会,这意味着将不再收敛于0。因此,只要的差距过大,就倾向于拒绝原假设。基于这种思想,原假设可以转化为,并由此构建出Hausman检验统计量,如果该统计量大于临界值,则拒绝原假设,使用固定效应。(Hausman检验还可由于检验是否存在内生性:不论模型是否存在内生性,工具变量估计始终能得到一致估计,但在有内生性的情况下OLS估计则不一致。)
2017年5月2日
其他
面板数据固定效应 vs. 随机效应
一般来说,经济数据有三种类型:横截面数据(包括混合横截面数据)、面板数据和时间序列数据。对于应用微观研究而言,主要还是采用前两种数据类型,时间序列数据多应用于金融等方面的研究,由于我基本不做时间序列分析,以下就不再提及该数据类型。在有选择权的情况下(对于同一个研究主题,同时有横截面和面板数据可供选择),建议毫不犹豫地采用面板数据。理由在于,相对于横截面数据,面板数据具有众多优势。简单讲三个优势:一是面板数据具有更多的样本量和信息量,可以降低变量之间共线性的可能性、增加检验统计量的自由度和增强估计结果的有效性;二是面板数据除了截面维度外,还具有时间维度,从而可以考察效应的时间变化趋势,进行动态分析;三是面板数据一定程度上可以减轻万恶的内生性问题(由遗漏变量引起的内生性),至于原因,将是下面要讲的重点。在建立好计量模型和选用了面板数据后,接下来就是用适当的计量方法对模型进行估计了。对于面板数据下的模型,有三种常用的估计方法:固定效应估计、随机效应估计和混合效应估计。什么叫混合效应估计呢?就是把时间维度和截面维度的数据混合起来,极端地将面板数据看成一般的截面数据,然后用OLS来估计。可以发现,混合效应估计根本就没有发挥出面板数据应有的优势,因而在实践中并不推荐使用。从而面对面板数据时,或者用固定效应估计,或者用随机效应估计。什么叫固定效应模型或者随机效应模型呢?对于如下的静态面板模型(解释变量中不包含被解释变量的滞后项,否则叫动态面板模型):其中,下表i表示个体,t表示时间。对于所有的解释变量,可以将其划分为随时间变化的个体特征(比如年龄和收入)以及不随时间变化的个体特征(比如性别)。可以进一步将扰动项进行划分:其中,为扰动项中不可观测的不随时间变化的个体上的差异,具体叫做个体效应;为扰动项中不可观测的不随个体变化的时间上的差异,具体叫做时间效应。为扰动项中的余下部分,并假定其满足球形扰动方差等假设。此时,可以根据个体效应或者时间效应与解释变量的关系来定义固定效应模型与随机效应模型:(1)如果个体效应与某个解释变量相关,则模型可称之为“个体固定效应模型”;(2)如果时间效应与某个解释变量相关,则模型可称之为“时间固定效应模型”;(3)如果个体效应和时间效应均与某个解释变量相关,则模型可称之为“双向固定效应模型”;(4)如果个体效应和时间效应与所有的解释变量均不相关,则模型可称之为“随机效应模型”。从以上的定义可以发现,在随机效应假设满足的情况下,复合扰动项与解释变量无关,因而可以得到一致估计。但是,由于此时不是球形扰动项(为球形扰动项,但不是),从而OLS估计不是最优效率的,此时采用广义最小二乘法(GLS)可以得到最佳线性无偏估计,这也是用Stata进行随机效应回归时软件采用GLS的原因,如下图:而在固定效应假设满足的情况下,复合扰动项与解释变量相关,从而无法得到一致估计(回忆一下,假设不成立是造成内生性的原因)。因此,固定效应模型估计方法的核心思想就在于消除扰动项中与解释变量相关的个体效应或者随机效应。一般来说,固定效应模型的估计方法有如下几种:(1)组内估计(Withinestimate):即组内去均值处理;(2)一阶差分估计(FD);(3)最小二乘虚拟变量法(LSDV):在模型中加入固定效应的虚拟变量。这里以个体固定效应模型为例讲一下组内去均值估计的基本思想,组内估计也是Stata默认采用的估计方式。对于如下的个体固定效应模型(3):用模型中的每一项减去其均值,得到新的模型,如下所示:由于u、Z和α均为不随时间改变的值,因而其均值就是其本身,也就是说,从而模型(4)可以转化为:其中。此时可以发现,新的扰动项h与新的解释变量k明显不相关,因而通过OLS可以得到一致估计。现在应该能理解固定效应估计为什么能够一定程度上缓解因遗漏变量造成的内生性了吧?
2017年4月17日
其他
R square,真的很重要吗?
既然拟合优度考察的主要是回归模型对y的变动的解释程度,那就首先来看看y的变动。样本中被解释变量y有不同的取值,将特定的观测值与均值的差异定义为离差,并将这些离差的平方和称作总平方和SST(sum
2017年3月29日
其他
OLS及其假设
建立起计量模型仅仅只是实证分析中的一小步,接下来更为关键的是根据合适的数据估计出模型中的参数,而选用什么样的计量方法来估计这些未知参数又尤为重要。计量方法何其之多,应该怎么选择呢?之前听到一位不懂计量的老师告诫其学生:既然你使用的是横截面数据,那么你的计量方法要比较复杂才行。不用细想也知道这话肯定是没道理的。首先,不同类型的数据并没有天然的优劣,面板数据不一定就比横截面数据高贵;其次,对于实证研究,方法并不在于复杂和时尚,合适的才是最好的,否则只会适得其反;最后,真正的高手的基本素质之一就是用简单的语言和方法来讲述复杂的故事,一味追求所谓的高大上只会显得很low。去年还是前年有人专门统计过近些年发表在美国顶级经济学期刊上的文献所使用的计量方法,出乎不少人意料的是,传统的最基本的OLS方法占据了绝大部分份额。其实,OLS虽然看上去最简单,却是其他计量方法的基础和基石,只有理解了OLS的原理和假设,才能更好地运用其他计量方法。一般来说,OLS有如下4个假设:假设1.
2017年3月23日