统计计量 | 内生性解决办法大全!!!
本文转载自公众号数量经济学
01
1、内生性简介
在面板数据分析,尤其是Arellano-Bond 估计方面作出了贡献。该方法利用面板数据中的时间模式来估计对政策或其他变量变化的经济响应,同时对永久性的未观察到的混淆变量进行控制。
一个典型的线性回归模型:y = β0 + β1x1 + βX + ε (1),这里y为被解释变量,x1为自变量,或者解释变量,也即“因”。大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,ε则为误差项。如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。
然而,如果一个重要变量x2被模型(1) 遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。此时,x1被称作“内生”的解释变量,这就是 “内生性”问题。遇到“内生性”问题肿木办?有一个方法就是找工具变量Z。
如果存在内生性,则称解释变量为 “内生变量”(endogenous variable);反之,则称为 “外生变量”(exogenous variable)。内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量多大,OLS 估计量也不会收敛至真实的参数值 。
在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。1。与误差项相关的变量称为内生变量(endogenous variable)。2。与误差项不相关的变量称为外生变量(exogenous variable)。
02
2、内生性的来源
01
2.1 联立性(逆向因果)
首先我们来看下反向因果关系的解释,例如根据凯恩斯的消费函数,首先模型的设定为C=a+bY+Ui,其中C为消费,Y为国民收入,Ui为随机误差扰动项。然而国民账户的恒等式又有Y=C+I+G+NX,即Y等于消费投资政府购买和净出口的和,很显然,消费是国民收入的重要组成部门,消费又是误差的函数,这样消费与国民收入的函数之间存在反向因果关系,主要因为消费函数里面的Y与Ui相关,本来应该是X与Ui不相关,扰动项的信息应该全部包括或者表现概括在已经有的X里面了。
02
2.2 遗漏变量偏差
遗漏变量主要指的是某些不可观测的解释变量没有纳入到回归模型中,如果北一楼的变量能够同时对因变量和自变量产生影响,那么会出现内生性的问题。一个比较经典的案例例如研究一个人受教育程度与他的收入之间的关系,其中收入作为被解释变量Y,然后样本中的隔热的教育程度作为解释变量,这个模型中例如能力、性别以及其他变量都有可能同时影响该模型变量受教育程度以及收入,例如个人能力比较高的人可能这个收入比较高,而个人能力有可能作为遗漏变量包含在随机误差扰动项中,因此会出现这个内生性的问题。
03
2.3 经典的测量误差问题
另外还有一种就是存在的度量误差现象,到时候也是主要表现在内生性的这个与X和Ui不相关,但是却相关了。
03
3、内生性的解决方法
01
3.1 工具变量法简介
解决内生性问题的常见方法,主要包括工具变量( instrumental variable,简称IV) 、固定效应模型( fixed effects model,简称FE) 、倾向值匹配( propensity score matching,简称PSM) 、实验以及准实验( experimentsand quasi-experiments) 等等。首先我们来看工具变量法。
3.1.1 内生性的选择标准
要解决这一内生性问题,我们需要引入更多信息来进行无偏估计。工具变量的方法就是引入一个外生变量Z,且Z 必须满足以下两个条件: 与随机误差扰动项不相关,但与x1(与内生变量)相关。或者说,Z 仅仅通过影响x1来影响y。(总结为:与扰动项无关,与内生变量相关,能够替代或者表达原内生变量的信息)工具变量IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。
一个合理的工具变量应该同时主要满足两个条件:
(1)强度条件,即工具变量应该与内生自变量具有较强的相关性,即该工具变量的应该能够代替或者表达原内生变量的信息,数学表达式为:
COV(Z,X)=/0
(2)排除限制条件,即工具变量应该与误差项不相关,也就是与因变量Y中不能被已有的自变量x所表达的部分无关(也是与误差项无关)
COV(Z,u)=/0
如果第一个条件不满足,我们认为这个工具变量是若工具变量,如果第二个条件得到不满足,我们认为该工具变量不具备足够的外生性,所谓外生性就是Z与误差项不相关。这样将导致工具变量的估计值出现类似于OLS估计的回归偏误。
3.1.2 相关参考文章:
1、一文读懂内生性专题(上) 2、一文读懂内生性专题(中) 3、内生性理论与操作专题汇总 4、内生性与工具变量推荐书单(9本) 5、内生性与工具变量:面板数据的例子 6、一些有趣的工具变量——从阿西莫格鲁的论文说起 7、统计相关还是真实因果?——基于“因果推断”的新兴研究范式 8、内生性问题研究:4篇推荐与8点认识 9、一文读懂内生性问题之二阶段最小二乘法(TSLS)Eviews操作 10、哪只蝴蝶扇动了翅膀:寻找工具变量!工具变量是什么?能吃吗? 11、【学习记·第24期】古往今来,哪一个工具变量没有争议?关于工具变量的一些idea 12、名家新作 | 哥大姜纬教授:工具变量会让我们更接近真实吗? 13、陈云松:逻辑、想象和诠释:工具变量在社会科学因果推断中的应用 14、【陆铭】面板数据、工具变量选择和HAUSMAN检验的若干问题 15、【元旦特辑】最新内生性理论与操作学习手册(附简介、Hausman检验、过度识别检验、弱工具变量的检验、面板工具法等)
02
3.2 GMM估计
在面板模型中,如果解释变量包含被解释变量的滞后值,称为“动态面板数据”(Dynamic Panel Data,简记 DPD)。
AR(1)模型,其中 Y_𝑖𝑡=𝛼_i+𝜌_𝑖 Y_(𝑖,𝑡−1)+𝜀_it, i=1,2,,,𝑁,𝑡=1,2,,,𝑇
𝛼_i是个体效应,𝜀_it为随机扰动项,方差为0,均值为𝜎_𝜀^2,无序列自相关
对于个体固定效应动态面板模型,Nickel(1981)证明了组内估计量不一致;Anderson和Hsiao(1982)证明,当扰动项服从正态分布、Y初始值是给定的常数时,当T较小时,pho1的ML估计量是有偏的
𝑦_𝑖𝑡=𝛼+𝜌𝑦_(𝑖,𝑡−1)+𝐱_𝑖𝑡^′ 𝛽+𝑧_𝑖^′ 𝛿+𝑢_𝑖+𝜀_𝑖𝑡 (𝑡=2,⋯,𝑇)
先作一阶差分以消去个体效应
𝛥𝑦_𝑖𝑡=𝜌𝛥𝑦_(𝑖,𝑡−1)+𝛥𝐱_𝑖𝑡^′ 𝛽+𝛥𝜀_𝑖𝑡 (𝑡=2,⋯,𝑇)
但𝛥𝑦_(𝑖,𝑡−1)≡𝑦_(𝑖,𝑡−1)−𝑦_(𝑖,𝑡−2)依然与𝛥𝜀_𝑖𝑡≡𝜀_𝑖𝑡−𝜀_(𝑖,𝑡−1)
相关,因为yit-1与𝜀_(𝑖,𝑡−1)相关,故𝛥𝑦_(𝑖,𝑡−1)为内生变量。
Arellano-Bond估计量:使用所有可能的工具变量,作为工具变量(工具变量的个数大于内生变量个数),应用GMM估计。Arellano和Bond(1991)此法也称为差分GMM。
Arellano and Bond (1991)使用所有可能的滞后变量作为 IV (IV 个数多于内生变量个数),进行GMM 估计,称为“Arellano-Bond估计量”,或“差分 GMM”(Difference GMM)。
系统GMM
前提条件:原模型扰动项不存在自相关, Blundell和Bond(1998)将差分方程和水平方程视为一个系统进行GMM估计。称为“系统GMM”(System GMM)。
Stata commands
xtabond | xtdpdsys | xtdpd | xtabond2
03
3.3 倾向匹配得分
3.3.1 倾向匹配得分简介
读北大有助于提高收入吗?
读文科有助于成功吗?
读大学究竟有什么用?
经济学中常希望评估某项目或政策实施后的效应,比如政府推出的就业培训项目(job training program)。此类研究称为“项目效应评估”(program evaluation),而项目效应也称为“处理效应”(treatment effect) ,项目参与者的全体构成“实验组”或“处理组”(treatment group,或 the treated),而未参与项目者则构成“控制组” (control group)或“对照组”
考虑就业培训的处理效应评估。一个天真的做法是直接对比实验组与控制组的未来收入或就业状况。但参加就业培训者的未来收入比未参加者通常更低。难道就业培训反而有害?-是否参加培训是参加者自我选择(self selection)的结果,岗位好收入。
在计量经济学分析中,由于种种原因,数据偏差(bias)和混杂变量(confounding variable)较多,倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响,以便对实验组和对照组进行更合理的比较。
倾向倾向匹配得分(Propensity Score Matching,简称PSM)是一种因果推断方法,用于处理观察研究(Observational Study)的数据。
3.3.2 倾向匹配得分文章、书籍汇总
1、《Propensity scores for the estimation of average treatment effects in observational studies》,Leonardo Grilli and Carla Rampichini,Training Sessions on Causal Inference Bristol - June 28-29, 2011
2、就业培训的处理效应评估文章,Cameron&Trived《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800。陈强老师的《高级计量经济学及stata应用(第二版)》(高等教育出版社,2014)pp546-555。
3、《倾向值匹配法的概述与应用:从统计关联到因果推论》,作者:苏毓淞
4、《倾向值分析:统计方法与应用》 ,对倾向值分析的起源、原理、应用和示例做了详细的介绍,并提供了数据和软件代码(Stata)。该书为译文,英文著作已在2014年推出第版《Propensity Score Analysis: Statistical Methods and Applications 2nd Edition》,对新的方法进行了更新,内容也更丰富,应该是目前关于倾向值分析最详细的教材。第二版的数据和代码见:http://ssw.unc.edu/psa/home
5、 Randolph J J, Falbe K, Manuel A K, et al. A Step-by-StepGuide to Propensity Score Matching in R.[J]. Practical Assessment Research & Evaluation, 2014, 19.
R软件MatchIt包的简易教程,对结果的讲解较详细,可实现常用倾向值分析的功能。
6、MatchIt: Nonparametric Preprocessing for Parametric Causal Inference
R软件MatchIt包教程的详细版,对参数设置和原理进行了解释,并提供操作的语法示例。
7、 黄福强,杜春霖,孙梦辉,等. 倾向评分配比在SPSS软件上的实现[J]. 南方医科大学学报,2015,(11):1597-1601.
3.3.3 References
8、Jalan J, Ravallion M. Estimating the benefit incidence of an antipoverty program by propensity-score matching[J]. Journal of Business & Economic Statistics, 2003, 21(1): 19-30.
9、Angrist, J.D., Pischke, J.-S., 2008. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press.
10、Card, D., Krueger, A.B., 1994. Minimum Wages and Employment: A Case Study of the FastFood Industry in New Jersey and Pennsylvania. American Economic Review 84, 772–93.
11、Heckman, J.J., Ichimura, H., Todd, P., 1998. Matching as an Econometric Evaluation Estimator. The Review of Economic Studies 65, 261–294.
12、Heckman, J.J., Ichimura, H., Todd, P.E., 1997. Matching as an Econometric Evaluation Estimator: Evidence from Evaluating a Job Training Programme. The Review of Economic Studies 64, 605–654.
13、Meyer, B.D., Viscusi, W.K., Durbin, D.L., 1995. Workers’ Compensation and Injury Duration: Evidence from a Natural Experiment. The American Economic Review 85, 322–340
3.3.4 值得推荐的Stata倾向匹配得分安装包
Stata teffects suite http://www.stata.com/manuals13/te.pdf
Stata written causal inference commands for matching and weighting Includes balance diagnostics, 1:1 matching, weighting, doubly robust approaches
psmatch2 http://ideas.repec.org/c/boc/bocode/s432001.html
psmatch2:由挪威奥斯陆大学( University of Oslo)经济学家Edwin Lueven博士和英国伦敦财政研究院( Institute of Fiscal Studies)资深研究员 Barbara Sianesi博士所共同撰写( Lueven and Sianesi,2015)。可以实现的匹配方法有1对1和1对多最近邻匹配法、半径匹配法、核匹配法、马氏距离匹配法等匹配方法,并可以实现匹配后平衡情况的检验,以及匹配后处理效用的估算。
Leuven, E. and Sianesi, B. (2003). psmatch2. Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing.
Allows k:1 matching, kernel weighting, Mahalanobis matching
Includes built-in diagnostics
Includes procedures for estimating ATT or ATE
pscore http://www.lrz-muenchen.de/~sobecker/pscore.html
pscore:由英国华威大学(University of Warwick)经济学家Sascha O.Becker博士和意大利欧洲大学研究院经济学家Andrea Ichino博共同开发( Becker and Ichino,2002)。可以实现的匹配方法有1对1和1对多最近邻匹配法、半径匹配法、核匹配法、子分类匹配法等匹配方法,并可以实现匹配后处理效用的估算。 Becker, S.O. and Ichino, A. (2002). Estimation of average treatment effects based on propensity scores (2002) The Stata Journal - 2(4): 358-377. k:1 matching, radius (caliper) matching, and stratification (subclassification) For estimating the ATT
match http://www.economics.harvard.edu/faculty/imbens/software_imbens
Abadie, A., Drukker, D., Herr, J. L., and Imbens, G. W. (2004). Implementing matching estimators for average treatment effects in Stata. The Stata Journal 4(3): 290-311. Available here.
Primarily k:1 matching (with replacement)
Allows estimation of ATT or ATE, including robust variance estimators
cem http://gking.harvard.edu/cem/
Iacus, S.M., King, G., and Porro, G. (2008). Matching for Causal Inference Without Balance Checking. Available here. Implements coarsened exact matching
nnmatch:由哈佛大学经济学家 Alberto Abadie博士等人共同开发( Abadie, Drukker, Herr and Imbens,2004)。主要实现的是1对1和1对多最近邻匹配法,并可以实现匹配后处理效用的估算。
rbounds:由德国法兰克福大学( Goethe- University Frankfurt am Main)社会学家 Markus Gangl博士撰写( Gangl,2004)。主要实现当结果变量为连续型变量时的 Rosenbaum(2002)敏感性检验。
mhbounds:由英国华威大学( University of Warwick)经济学家 Sascha O.Becker博士和德国波茨坦大学( Potsdam University)经济学家Marco Caliendo博士共同撰写( Becker and Caliendo,2007)。主要实现当结果变量为二元型变量时的 Rosenbaum(2002)敏感性检验。
04
3.4 Heckman与处理效应模型
对于样本选择偏差导致的估计偏误,将使用样本选择模型(Sample Selection Model)来缓解。样本选择偏差与样本选择模型(或称Heckman两步估计法、Heckit)由诺贝尔经济学奖获得者Heckman教授于1979年提出。
对于自选择偏差导致的估计偏误,将使用处理效应模型(Treatment Effects Model)来缓解。
Stata commands
05
3.5 面板数据模型(Panel Data)/固定效应
面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等)连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来,由于面板数据资料获得变得相对容易,使得其应用范围也不断扩大。
采用面板数据模型进行分析的主要目的在于两个方向:一是控制不可观测的个体异质性,包含两个方面:一是由于民族习惯、风俗文化而形成的、不随着时间移动而改变的个体效应。二是在特定年份而出现的时间效应;二是描述和分析动态调整过程,处理误差成分。使模型包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。
面板数据,即Panel Data,是截面数据与时间序列综合起来的一种数据资源。在分析时,多用PanelData模型,故也被称为面板数据模型。它可以用于分析各样本在时间序列上组成的数据的特征,它能够综合利用样本信息,通过模型中的参数,既可以分析个体之间的差异情况,又可以描述个体的动态变化特征。
面板数据基本上可以认为是同一个截面的观测样本在不同时间节点的重复测量和记录;或者同样也可以认为是若干个结构、记录时间、记录选项相同的时间序列数据的复合结构。因此,在针对面板数据进行分析时候,通常可以使用截面数据的一些方法,同样也可以使用时间序列的一些方法。方法之间的共通性在这一“混合”类型的数据中体现的还是十分明显的。
面板数据模型的一般形式如下:𝑦_𝑖𝑡=∑1_(𝑘=1)^𝐾▒𝛽_𝑘𝑖𝑡 𝑥_𝑘𝑖𝑡+𝑢_𝑖𝑡
其中,i=1,2,3....N,i 表示 N 个个体,t=1,2,3....T,t表示已知的 T 个时点。
yit是被解释变量对个体i 在 t 时的观测值;Xkit 是第k 个非随机解释变量对于个体 i 在 t 时的观测值;kitβ是待估计的参数;uit 是随机误差项
Stata commands:xtreg
一文读懂STATA面板数据模型汇总(一) (qq.com) 【Stata教程】面板数据之固定与随机效应汇总 (qq.com) 短面板数据学习手册(固定效应与随机效应等汇总) (qq.com) 长面板数据学习手册(组间同期相关、组间异方差、组内自相关) (qq.com)
06
3.6 自然实验--双重差分
现代计量经济学和统计学的发展为我们的研究提供了可行的工具。倍差法来源于计量经济学的综列数据模型,是政策分析和工程评估中广为使用的一种计量经济方法。主要是应用于在混合截面数据集中,评价某一事件或政策的影响程度。该方法的基本思路是将调查样本分为两组,一组是政策或工程作用对象即“作用组”,一组是非政策或工程作用对象即“对照组”。根据作用组和对照组在政策或工程实施前后的相关信息,可以计算作用组在政策或工程实施前后某个指标(如收入)的变化量(收入增长量),同时计算对照组在政策或工程实施前后同一指标的变化量。然后计算上述两个变化量的差值(即所谓的“倍差值”)。这就是所谓的双重差分估计量(Difference in Differences,简记DD或DID),因为它是处理组差分与控制组差分之差。该法最早由Ashenfelter(1978)引入经济学,而国内最早的应用或为周黎安、陈烨(2005)。
常用的倍差法主要包括双重倍差法和三重倍差法。双重差分法(Difference-in-difference,DID)有几种其他的称谓:倍差法、差分再差分等。该方法的原理非常简单,它要求数据期至少有两期,所有的样本被分为两类:实验组和控制组,其中实验组在第一期是没有受到政策影响,此后政策开始实施,第二期就是政策实施后的结果,控制组由于一直没有受政策干预,因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单,两次差分的效应就是政策效应。
双重差分法的假定,为了使用OLS一致地估计方程,需要作以下两个假定。
假定1:此模型设定正确。特别地,无论处理组还是控制组,其时间趋势项都是。此假定即“平行趋势假定”(parallel trend assumption)。DID最为重要和关键的前提条件:共同趋势(Common Trends)
双重差分法并不要求实验组和控制组是完全一致的,两组之间可以存在一定的差异,但是双重差分方法要求这种差异不随着时间产生变化,也就是说,处理组和对照组在政策实施之前必须具有相同的发展趋势。
假定2:暂时性冲击与政策虚拟变量不相关。这是保证双向固定效应为一致估计量(consist estimator)的重要条件。在此,可以允许个体固定效应与政策虚拟变量相关(可通过双重差分或组内变换消去,或通过LSDV法控制)。
DID允许根据个体特征进行选择,只要此特征不随时间而变;这是DID的最大优点,即可以部分地缓解因 “选择偏差”(selection bias)而导致的内生性(endogeneity)。
命令大全
下载安装命令方法为:
ssc install diff, replace 下载安装方法(外部命令)
语法格式为:
diff outcome_var [if] [in] [weight] ,[ options] 模型必选项介绍:
其中“outcome_var”表示结果变量
“treat(varname) ”为必选项,用来指定处理变量
“period(varame)”用来指定实验期虚拟变量(1=实验期,0=非实验期)
可选项介绍:
cov(varlist),协变量,加上kernel可以估计倾向得分
kernel, 执行双重差分倾向得分匹配
id(varname),kernel选项要求使用
bw(#) ,核函数的带宽,默认是0.06
ktype(kernel),核函数的类型
qdid(quantile),执行分位数双重差分
pscore(varname) 提供倾向得分
logit,进行倾向得分计算,默认probit回归
ddd(varname),三重差分
SE/Robust
cluster(varname) 计算聚类标准误。
robust 稳健标准误
参考文献
07
3.7 断点回归
断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。
Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。
断点回归操作动作建议
在进行断点回归(RD)设计时,一般有如下步骤:
1、参考变量分布连续性检验/检验内生分组
这里检验内生分组,即主要检验配置变量,其实就是RD中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。
McCrary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法, 可以检验在断点处c是否存在跳跃 。
2、检查为精确断点回归还是模糊断点回归分析
检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从 a跳跃为 b,0<a<b<1,则为模糊断点回归。 3、图形分析
画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处行为,为断点回归设计提供理论支撑。 4、检验结果对不同带宽、不同多项式次数的稳健性
设置不同带宽,通过选择最优带宽,再检验并选择相对应的模型。stata断点回归命令有相关的操作选项。另外还有图形选择(在最优带宽处画线),可以考虑加协变量进行选择。 5、检验其他影响结果变量的因素(协变量),在断点处是否存在跳跃
检验协变量在断点处是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。若将存在跳跃的协变量剔除。则需要重新选择最优带宽再重新进行断点回归分析。
显著性检验
模型估计完成后,可以进行下列模型设定检验,以判断估计结果的稳健性(见赵西亮编著的《基本有用的计量经济学》)
(1)协变量连续性检验,也称为伪结果检验( pseudo outcome)。以协变量 作为伪结果,利用与前面相同的方法,检验相应的RDD估计量是否显著,如果 显著说明这些协变量不符合连续性假设,上文的RDD估计量可能存在问题。
(2)参考变量分布连续性检验,如果参考变量分布连续,意味着在断点处个体没有精确操纵参考变量的能力,局部随机化假设成立,从而保证断点附近左右样本能够代表断点处的总体。(此处与检验内生分组一致)
(3)伪断点检验( pseudo cutoff point)。在参考变量的其他位置,比如断点 左右两侧中点位置作为伪断点,利用同样的方法估计RDD估计量,我们知道在 伪断点干预效应为零,如果发现伪断点的RDD估计量不为零,则说明我们的RDD设计可能有问题,可能混杂了其他未观测因素的影响,得到的因果效应可能是由其他未观测混杂的跳跃造成的,而不完全是干预的影响
(4)带宽选择的敏感性检验。选择不同的带宽对RDD估计量进行重新估 计,检验估计结果是否有较大的变量,如果差异较大,尤其是影响方向有变化说明RDD设计可能有问题。
上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检验的。
命令大全
断点回归的基本命令是rd,另外,还有一些其他命令,例如rdrobust、rdlocrand、rddensity等等。
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
推荐 | 青酱
欢迎扫描👇二维码添加关注