Stata:倍差法/双重差分教程
现代计量经济学和统计学的发展为我们的研究提供了可行的工具。倍差法来源于计量经济学的综列数据模型,是政策分析和工程评估中广为使用的一种计量经济方法。主要是应用于在混合截面数据集中,评价某一事件或政策的影响程度。该方法的基本思路是将调查样本分为两组,一组是政策或工程作用对象即“作用组”,一组是非政策或工程作用对象即“对照组”。根据作用组和对照组在政策或工程实施前后的相关信息,可以计算作用组在政策或工程实施前后某个指标(如收入)的变化量(收入增长量),同时计算对照组在政策或工程实施前后同一指标的变化量。然后计算上述两个变化量的差值(即所谓的“倍差值”)。这就是所谓的双重差分估计量(Difference in Differences,简记DD或DID),因为它是处理组差分与控制组差分之差。该法最早由Ashenfelter(1978)引入经济学,而国内最早的应用或为周黎安、陈烨(2005)。
常用的倍差法主要包括双重倍差法和三重倍差法。双重差分法(Difference-in-difference,DID)有几种其他的称谓:倍差法、差分再差分等。该方法的原理非常简单,它要求数据期至少有两期,所有的样本被分为两类:实验组和控制组,其中实验组在第一期是没有受到政策影响,此后政策开始实施,第二期就是政策实施后的结果,控制组由于一直没有受政策干预,因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单,两次差分的效应就是政策效应。
双重差分法的假定,为了使用OLS一致地估计方程,需要作以下两个假定。
假定1:此模型设定正确。特别地,无论处理组还是控制组,其时间趋势项都是。此假定即“平行趋势假定”(parallel trend assumption)。DID最为重要和关键的前提条件:共同趋势(Common Trends)
双重差分法并不要求实验组和控制组是完全一致的,两组之间可以存在一定的差异,但是双重差分方法要求这种差异不随着时间产生变化,也就是说,处理组和对照组在政策实施之前必须具有相同的发展趋势。
假定2:暂时性冲击与政策虚拟变量不相关。这是保证双向固定效应为一致估计量(consist estimator)的重要条件。在此,可以允许个体固定效应与政策虚拟变量相关(可通过双重差分或组内变换消去,或通过LSDV法控制)。
DID允许根据个体特征进行选择,只要此特征不随时间而变;这是DID的最大优点,即可以部分地缓解因 “选择偏差”(selection bias)而导致的内生性(endogeneity)。
下载安装命令方法为:
ssc install diff, replace 下载安装方法(外部命令)
语法格式为:
diff outcome_var [if] [in] [weight] ,[ options]
模型必选项介绍:
其中“outcome_var”表示结果变量
“treat(varname) ”为必选项,用来指定处理变量
“period(varame)”用来指定实验期虚拟变量(1=实验期,0=非实验期)
可选项介绍:
cov(varlist),协变量,加上kernel可以估计倾向得分
kernel, 执行双重差分倾向得分匹配
id(varname),kernel选项要求使用
bw(#) ,核函数的带宽,默认是0.06
ktype(kernel),核函数的类型
qdid(quantile),执行分位数双重差分
pscore(varname) 提供倾向得分
logit,进行倾向得分计算,默认probit回归
ddd(varname),三重差分
SE/Robust
cluster(varname) 计算聚类标准误。
robust 稳健标准误
本文以伍德里奇书籍配套数据为例,介绍新建垃圾焚烧厂对房价影响。
原文为:
House Prices during Siting Decision Stages: The Case of an Incinerator from Rumor through Operation
Author:Katherine A. Kiel Katherine T. McClain
1、导入并且查看数据
use "C:\Users\admin\Desktop\KIELMC.DTA".
ed
desc
数据介绍:在这里面的我们将1978年作为y81=0,然后1981这样的一个新建垃圾焚烧厂建立时期等于1。
nearinc表示新建垃圾焚烧厂的距离
lprice 表示房价
2、nearinc表示=1 if dist <= 15840
然后查看新建垃圾焚烧厂的分布
. tabulate nearinc
=1 if dist |
<= 15840 | Freq. Percent Cum.
------------+-----------------------------------
0 | 225 70.09 70.09
1 | 96 29.91 100.00
------------+-----------------------------------
Total | 321 100.00
3、基本回归分析
传统做法只进行1981年的回归分析,方程为:
regress lprice nearinc if y81
regress lprice nearinc if y81==0
4、双重差分
regress lprice y81 nearinc y81nrinc
上述回归分析结果与did命令结果一致,可以发现y81nrinc变量是不显著的,可以加入其他影响变量。
. regress lprice y81 nearinc y81nrinc age agesq lintst lland larea rooms baths
Source | SS df MS Number of obs = 321
-------------+---------------------------------- F(10, 310) = 116.91
Model | 48.5621258 10 4.85621258 Prob > F = 0.0000
Residual | 12.8768595 310 .041538256 R-squared = 0.7904
-------------+---------------------------------- Adj R-squared = 0.7837
Total | 61.4389853 320 .191996829 Root MSE = .20381
------------------------------------------------------------------------------
lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y81 | .425974 .0284999 14.95 0.000 .3698963 .4820518
nearinc | .032232 .0474876 0.68 0.498 -.0612067 .1256708
y81nrinc | -.1315133 .0519712 -2.53 0.012 -.2337743 -.0292524
age | -.0083591 .0014111 -5.92 0.000 -.0111358 -.0055825
agesq | .0000376 8.67e-06 4.34 0.000 .0000206 .0000547
lintst | -.0614482 .0315075 -1.95 0.052 -.1234438 .0005474
lland | .099845 .024491 4.08 0.000 .0516554 .1480346
larea | .3507722 .0514865 6.81 0.000 .2494649 .4520794
rooms | .0473344 .0173274 2.73 0.007 .0132402 .0814285
baths | .0942767 .0277256 3.40 0.001 .0397225 .1488309
_cons | 7.651756 .4158832 18.40 0.000 6.833445 8.470067
--------------------------------------------------------------------------
加入协变量使用双重差分命令diff进行分析,结果为: