断点回归(RD)学习手册(包含设计前提条件内生分组等显著性检验、精确断点&模糊断点等全套标准操作)
断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。
Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。
一.断点回归操作动作建议
在进行断点回归(RD)设计时,一般有如下步骤:
▍1、参考变量分布连续性检验/检验内生分组
这里检验内生分组,即主要检验配置变量,其实就是RD中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。
McCrary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法, 可以检验在断点处c是否存在跳跃 。
▍2、检查为精确断点回归还是模糊断点回归分析
检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从 a跳跃为 b,0<a<b<1,则为模糊断点回归。
▍3、图形分析
画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处行为,为断点回归设计提供理论支撑。
▍4、检验结果对不同带宽、不同多项式次数的稳健性
设置不同带宽,通过选择最优带宽,再检验并选择相对应的模型。stata断点回归命令有相关的操作选项。另外还有图形选择(在最优带宽处画线),可以考虑加协变量进行选择。
▍5、检验其他影响结果变量的因素(协变量),在断点处是否存在跳跃
检验协变量在断点处是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。若将存在跳跃的协变量剔除。则需要重新选择最优带宽再重新进行断点回归分析。
▍5、显著性检验
模型估计完成后,可以进行下列模型设定检验,以判断估计结果的稳健性(见赵西亮编著的《基本有用的计量经济学》)
(1)协变量连续性检验,也称为伪结果检验( pseudo outcome)。以协变量 作为伪结果,利用与前面相同的方法,检验相应的RDD估计量是否显著,如果 显著说明这些协变量不符合连续性假设,上文的RDD估计量可能存在问题。
(2)参考变量分布连续性检验,如果参考变量分布连续,意味着在断点处个体没有精确操纵参考变量的能力,局部随机化假设成立,从而保证断点附近左右样本能够代表断点处的总体。(此处与检验内生分组一致)
(3)伪断点检验( pseudo cutoff point)。在参考变量的其他位置,比如断点 左右两侧中点位置作为伪断点,利用同样的方法估计RDD估计量,我们知道在 伪断点干预效应为零,如果发现伪断点的RDD估计量不为零,则说明我们的RDD设计可能有问题,可能混杂了其他未观测因素的影响,得到的因果效应可能是由其他未观测混杂的跳跃造成的,而不完全是干预的影响
(4)带宽选择的敏感性检验。选择不同的带宽对RDD估计量进行重新估 计,检验估计结果是否有较大的变量,如果差异较大,尤其是影响方向有变化说明RDD设计可能有问题。
上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检验的。
二.断点回归设计前提条件检验:检验内生分组
在进行断点回归(RD)设计时,样本数据需要满足一定的前提条件,比如,断点两侧除断点(Cutoff)处理效应外,其他因素需保持平衡(滑)以及不存在Selective Sorting。
而断点回归的前提假设:Wi的条件密度在X=c0处连续。另外进行断点分析前,需要首先考察变量分组变量是否有内生分组的存在,意思就是样本个体事先知道分组原则等信息,然后通过自身选择来选择是否进入处理组,这样的内生分组将导致断点回归失效。
本文提供一种基于断点两侧样本分布密度来进行检验的方法:McCrary(2008)。它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误,主要分为两步检验:第一步,将分组变量在断点处两侧尽量等距离细分,并计算每组的标准化频率;第二步,使用三角核估计进行局部线性回归,并计算密度函数估计值,然后检验密度函数在断点c处是否连续。
McCrary(2008)可以通过非官方命令DCdensity来实现,其中DC表示Discontinuity,可以来检验分组变量的密度函数在断点处是否连续。 依此判断,是否存在内生分组问题。
该命令的下载地址为:https://eml.berkeley.edu/~jmccrary/DCdensity/
然后将该命令的DCdensity.ado下载安装或者复制到C:\ado\plus,Mac系统的需要自己sysdir查询外部命令安装路径,自行复制下载。命令语法格式为:
DCdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)
其中,assign_var 为分组变量,必选项breakpoint(#)用来指定断点位置,generate(Xj Yj r0 fhat se_fhat)用来指定输出变量名,graphname用来命名指定密度函数图。
操作应用如下:
本文使用断点回归命令rd所系统自带的数据进行演示,该案例考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。 传统上,民主党倾向于大政府,故一个选区如果有民主党众议员,则该议员可能为该选区争取更多的联邦支出。然而,直接对二者进行回归可能存在遗漏变量问题或双向因果问题。为此,使用民主党候选人的得票率作为分组变量,以0.5作为断点(在两党政治中,得票率大于或等于0.5则当选,反之落选),进行断点回归。 数据集votex.dta,其中结果变量为lne(选区联邦开支的对数)、分组变量为d(民主党候选人得票率减去0.5)、处理变量win(民主党候选人当选),以及一系列协变量。
数据描述性分析结果如下:
检验分组变量的密度函数是否在断点处不连续。
可以看出断点两侧密度函数估计值的置信区间有很大部分重叠,所以断点两侧的密度函数不存在显著差异,检验结果为不存在内生分组,可以继续进行断点回归分析。
三.断点回归模型选择:精确断点or模糊断点
按照在断点处个体得到处理效应概率的变化特征可以分为两种类型(即断点回归可以分为两种类型):一种类型是精确断点回归设计 (sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点 (也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1;另一种是模糊断点回归设计 (fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b,0<a<b<1。
判断是精确断点回归还是模糊断点回归?
g ranwin=(d>=0)
tab ranwin win
此处,分组变量d的断点是0,生成新虚拟变量ranwin,若ranwin与处理变量win完全相等,则属于精确断点回归,否则属于模糊断点回归。此处,是精确断点回归。
由于断点回归在操作上有不同选择,因此在时间上,一般同时汇报如下各种情形,然后以保证结果的稳健性(见陈强编著的《高级计量经济学及Stata应用》(第二版)
①分别汇报三角核与矩形核的局部线性回归结果(后者等价于线性参数回归)
② 分别汇报使用不同带宽的结果(比如最优带宽及其二分之一0.5或者两倍带宽2)
③ 分别汇报(不)包括协变量的情形
④ 进行模型设定检验,包括检验分组变量、协变量的条件密度在断点处是否连续。
四.精确断点回归操作应用
断点回归的基本命令是rd,另外,还有一些其他命令,例如rdrobust、rdlocrand、rddensity等等,本文主要介绍rd。
首先我们输入如下命令进行安装: ssc install rd, replace
该命令的基本句式如下: rd y d x, z0 (real) strineq mbw (numlist) graph bdep oxline kernel (rectangle)
其中mbw(numlist) 用来指定最优带宽的倍数,默认值为mbw(50 100 200)
z0(real) 用来指定断点的位置,默认值为z0(0),即断点为原点,如果此处省去D,则为精确断点回归,并根据分组变量X来计算处理变量
graph 根据每一带宽,画出局部线性回归图
bdep 根据画图来考察断点回归估计量对带宽的依赖性
oxline表示在此图的默认带宽上画出一条直线,以便识别
kernel(rectangle)表示使用均匀核(矩阵核),默认使用三角核
covar(varlist) 表示用来指定加入局部线性回归的协变量
x(varlist) 表示检验这些协变量在断点处是否存在跳跃(估计跳跃值和显著性)
▍1、回归分析
首先直接进行线性回归
上述回归分析结果,虽然win表示当选了,会增加lne的支出,但是不显著
▍2、选择最优窗宽:设置不同带宽,并通过图形选择-
从默认的3种窗宽mbw(100,50,200)中,选一个最优的
rd lne d, gr bdep oxline
mbw(50),即最优窗宽的0.5倍
mbw(100),即最优窗宽的1倍
mbw(200),即最优窗宽的2倍
最优带宽
也可以直接选择默认的带宽以及三角核进行断点回归,命令为
rd lne d, gr mbw(100)
上面结果说明拥有民主党派候选人当选的选区,并不能显著的增加联邦政府开支
也可以加入变量进行断点回归,命令为
rd lne d, mbw(100) cov(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)
进行断点回归,还需要对其进行检验,检验协变量在断点处的条件密度是否存在跳跃
五.模糊断点回归操作应用
模糊断点回归
现在生成一个新的处理变量randwin,使得randwin不完全由分组变量d所决定。
set seed 20181203
g byte randwin=cond(uniform()<.1,1-win, win)
tabulate randwin win
结果显示randwin与win基本相同,但不完全相同,说明randwin不完全由分组变量d所决定。
下面使用最优带宽与默认的三角核进行模糊断点回归。
含协变量的断点回归
rd lne randwin d, gr mbw(100) covar(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)
六.学习攻略
在学术圈如果是做应用计量(特别是横截面数据、面板数据),Stata是不二之选,因为不管是管理数据还是跑回归,实在太太太方便了。现在主流期刊的应用微观计量文章里面能用到的模型stata几乎都有,而且其中的绝大多数都是用stata做的。而且最大的优点是,简单!
为了帮助大家全面系统的掌握stata,我们特别推出2019学术提升计划!
这份学习计划里面包含了stata初高级内容,包括数据管理、面板数据、倾向匹配得分、合成控制法、门限回归等众多内容……
第八届Stata寒假研讨班上海专场时间:2019年1月12日-1月15日(四天)
地点:上海同济迎宾馆(同济大学四平路校区)
第九届Stata寒假研讨班北京专场时间:2019年1月19日-1月22日(四天)
地点:北京国际温泉酒店
经过精心准备,2019年初的stata学术提升计划再次升级出炉!截至目前,计量经济学服务中心已经在西安、北京、上海等地成功举办了7场stata高级班,并在南方科技大学举办了一场stata编程研讨班。
由于种种原因,很多学员一直想学却没有学,2019,给自己一个勇敢的理由,一起来放大你的小目标。
计量经济学服务中心团队成员精耕细作,紧跟stata前沿,各种操作以及学习内容均不断升级!重软件操作、重实战是课程一直以来的优势与好评。控制人数的小班教学以确保每一位学员真正学到操作技能。
重要的事情说三遍,我们课程全部带电脑,并提供完整do文档以及数据、讲义、资料书等,手把手教学和操作学习!
学员福利:一次报名,终身服务,全年不限次数免费学(包括但不限于中心举办的其他研讨班和学术会议、论坛等),学完之后老师随时一对一答疑解惑。
截止目前,共有250+余所国内外高校的青年教师、硕士研究生、博士研究生、高年级本科生参加我们组织的计量经济学系列研讨班。
ps:国内计量经济学理论方法学习很多均建立在Eviews软件上(stata书籍对理论方法等介绍的少),本次课程在横截面、时间序列、面板、门限等众多章节均穿插着简要介绍Eviews软件应用,帮助大家站在学习者的角度和路线全面构建起计量经济学框架和模型思路。
授课时间:
上海:2019年1月12日-1月15日
北京:2019年1月19日——22日
本次课程一共十六讲,具体内容如下:
Class 1. A Quick Tour of Stata
stata简介Why Stata?/what is stata
软件界面The Stata Interface/What Stata looks like
参考书籍推荐Textbooks
log工作日志和do文档What to do first?Set a working directory/Keeping track of things(Do-files and log-files )
命令以及帮助the command & Getting Help(包括help的使用以及ssc install 、findit等外部命令获取和使用)
Class 2. DATABASE MANIPULATION数据管理
导入导出 Import and Export
面板数据、时间数据、官方数据Time series data &Panel data & Example Datasets
变量以及数据Variable and data types/Indicator or data variables
数据管理Data management
排序Order, aorder, and move
变量标签Variable Labels and Notes
数据转换Converting strings to numerics and vice versa(encode decode destring tostring 等)
数据横向合并和纵向合并Append and merge
数据生成Generating new variables
描述分析Describing the data (summarize)
descibe inspect
Getting a codebook
基础命令Basic commands(table tabulate)
tabstat命令
CSMAR及中经网数据库复杂的使用技巧
Class 3&4. 相关分析Correlation analysis & 回归分析Estimation
Class 5. 时间序列
平稳性检验
协整检验
格兰杰检验
Class 6&7. 静态面板与动态面板数据
面板数据描述性分析
面板数据平稳性检验
静态面板数据回归分析:随机效应模型和固定效应模型、Hausman检验
动态面板模型
Class 8. 门限回归
包括横截面与面板模型的门限回归,主讲xthreg和xtthres等命令,并与Eviews软件对比,让大家对门限回归有一个全面的了解。
论文讲解
Class 9. 内生性问题专题I:倾向匹配得分
Class 10. 内生性问题专题II:合成控制法
Class 11. 内生性问题专题III:断点回归分析
Class 12. 结果输出Extracting results
Post summary statistics(summarize、tabstat)
Post correlation coefficients (pwcorr、correlate、logout )
Coefficients/equations
Basic syntax and usage
estout、esttab、estadd and other useful Stata commands
Standard errors, p-values, and summary statistics
Use with Word/Rtf/Excel/LaTeX
Other Advanced Examples(esttab、outreg2、logout等)
Class 13 . stata新工具——do文档编程与输入法结合
Class 14. 经济金融数据库(国泰安数据库、中经网)使用技巧
Class 15. 论文写作专题(从源头数据处理到分析)
. 横截面空间计量模型与面板空间模型,包括空间自相关检验、空间效应检验、SAR、SEM模型以及空间面板随机与固定效应检验等)
推荐阅读:
会议时间及地点:
上海:2019年1月12日-15日(四天),地点:上海同济迎宾馆(同济大学四平路校区)
北京:2019年1月19日-22日(四天),地点:北京国际温泉酒店(海淀区西三旗枫丹丽舍西路一号) (乘车路线:地铁八号或十三号线霍营站下车G4出口出步行500米即到;或地铁八号线育新站下车坐606两站即到。)
会议费用:普通价:4000元,学生价:3600元(凭学生证优惠价),差旅及住宿费用自理。
会议安排:上午9:00-12:00;下午2:00-5:00;答疑5:00-5:30
授课形式:老师讲授指导、学员操作练习、现场答疑解惑。
会议人数:中心非常重视与学员互动以及软件操作,为保证学习效果,限额40人。
课程资料:提供PPT、课程讲义以及完整的do文档等。
缴费成功后都享受如下优惠
1.同一单位3人以上报名,9折优惠;
2.同一单位5人以上报名,8折优惠(前2项优惠不能叠加)
3、根据报名缴费顺序安排现场座位。
1、掌握计量经济学及Stata操作,能够运用Stata完成复杂的数据处理工作,并熟练运用Stata完成写作;
2、了解常用模型的思路、原理和建模方法,从源头数据库等数据下载、搜集、整理、管理,到stata数据操作,培养数据分析能力;
3、通过中心精心准备的do文档讲义来完成学习,并实现do文档中现成命令的可复制性(只需要修改部分do文档命令的变量,就可以一键实现数据分析和数据管理的结果,具有复制性)(中心紧跟前沿,do文档实时更新,能够处理各种复杂数据分析)
经济及社科类青年教师、博士生、硕士生、高年级本科生。(1 Stata爱好学习者。2 经济管理以及人文社科领域人员、各类市场调查公司、咨询公司、互联网公司和科研机构需要进行数据处理的人士。)
报名流程
1、电话咨询,给予反馈,确认报名信息。
2、交费(微信、支付宝或者对公转账等),报名前请确认信息。
3、开课前一周发送培训教室路线图以及软件准备,电子版预习资料。
4、现场领取发票及邀请函。
支付方式:
对公转款(转款时务必在摘要中注明姓名学校和联系方式)
开户名:陕西经纶教育科技有限公司
开户行:招行西安科技路支行
银行卡号:129909261610116
相关单位:
主办方:计量经济学服务中心
协办方:陕西经纶教育科技有限公司
有需要现场刷公务卡的,可以提前预交定金300元,现场刷卡再全额退还或者补齐会务费。
1、请带个人电脑,会提前给大家发送课程讲义以及stata软件安装。
2、报名截止日期:2019年1月10日 17:00。
3、如您报名后有事不能参加,请及时告知!2018年11月30日17:00之后不再接受退费,但可以转其他时间段下次免费学习。
4、本次会议可提供增值税普通发票,如需开具(请联系微信:Xindream1992),并根据自己单位财务部门要求填写抬头和类目信息(一旦开具不能重开),发票类目为:会议服务费、信息服务费、培训费、会议费、咨询费等,报名时可以直接任选其一,其他类目无法开具。
5、会议邀请函通知及报名咨询等直接联系王老师。
在线咨询:
王老师
电话:18710973211
微信:Xindream1992
扫码添加微信