查看原文
其他

Stata:倍差法/双重差分教程

数量经济学 数量经济学 2022-12-31
1
简介


现代计量经济学和统计学的发展为我们的研究提供了可行的工具。倍差法来源于计量经济学的综列数据模型,是政策分析和工程评估中广为使用的一种计量经济方法。主要是应用于在混合截面数据集中,评价某一事件或政策的影响程度。该方法的基本思路是将调查样本分为两组,一组是政策或工程作用对象即“作用组”,一组是非政策或工程作用对象即“对照组”。根据作用组和对照组在政策或工程实施前后的相关信息,可以计算作用组在政策或工程实施前后某个指标(如收入)的变化量(收入增长量),同时计算对照组在政策或工程实施前后同一指标的变化量。然后计算上述两个变化量的差值(即所谓的“倍差值”)。这就是所谓的双重差分估计量(Difference in Differences,简记DD或DID),因为它是处理组差分与控制组差分之差。该法最早由Ashenfelter(1978)引入经济学,而国内最早的应用或为周黎安、陈烨(2005)。


常用的倍差法主要包括双重倍差法和三重倍差法。双重差分法(Difference-in-difference,DID)有几种其他的称谓:倍差法、差分再差分等。该方法的原理非常简单,它要求数据期至少有两期,所有的样本被分为两类:实验组和控制组,其中实验组在第一期是没有受到政策影响,此后政策开始实施,第二期就是政策实施后的结果,控制组由于一直没有受政策干预,因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单,两次差分的效应就是政策效应。


双重差分法的假定,为了使用OLS一致地估计方程,需要作以下两个假定。 


假定1:此模型设定正确。特别地,无论处理组还是控制组,其时间趋势项都是。此假定即“平行趋势假定”(parallel trend assumption)。DID最为重要和关键的前提条件:共同趋势(Common Trends)


双重差分法并不要求实验组和控制组是完全一致的,两组之间可以存在一定的差异,但是双重差分方法要求这种差异不随着时间产生变化,也就是说,处理组和对照组在政策实施之前必须具有相同的发展趋势。


假定2:暂时性冲击与政策虚拟变量不相关。这是保证双向固定效应为一致估计量(consist estimator)的重要条件。在此,可以允许个体固定效应与政策虚拟变量相关(可通过双重差分或组内变换消去,或通过LSDV法控制)。


DID允许根据个体特征进行选择,只要此特征不随时间而变;这是DID的最大优点,即可以部分地缓解因 “选择偏差”(selection bias)而导致的内生性(endogeneity)。


2
命令介绍


下载安装命令方法为:

ssc install diff, replace 下载安装方法(外部命令)

语法格式为:

diff outcome_var [if] [in] [weight] ,[ options] 

模型必选项介绍:

其中“outcome_var”表示结果变量

“treat(varname) ”为必选项,用来指定处理变量

 “period(varame)”用来指定实验期虚拟变量(1=实验期,0=非实验期)


可选项介绍:

cov(varlist),协变量,加上kernel可以估计倾向得分

kernel, 执行双重差分倾向得分匹配

id(varname),kernel选项要求使用

bw(#) ,核函数的带宽,默认是0.06

ktype(kernel),核函数的类型

qdid(quantile),执行分位数双重差分

pscore(varname) 提供倾向得分

logit,进行倾向得分计算,默认probit回归

ddd(varname),三重差分 

SE/Robust

cluster(varname) 计算聚类标准误。

robust 稳健标准误


3
操作应用


本文以伍德里奇书籍配套数据为例,介绍新建垃圾焚烧厂对房价影响。


原文为:

House Prices during Siting Decision Stages: The Case of an Incinerator from Rumor through Operation


Author:Katherine A. Kiel   Katherine T. McClain


1、导入并且查看数据

use "C:\Users\admin\Desktop\KIELMC.DTA". eddesc


数据介绍:在这里面的我们将1978年作为y81=0,然后1981这样的一个新建垃圾焚烧厂建立时期等于1。

nearinc表示新建垃圾焚烧厂的距离

lprice 表示房价


2、nearinc表示=1 if dist <= 15840

然后查看新建垃圾焚烧厂的分布

. tabulate nearinc
=1 if dist | <= 15840 | Freq. Percent Cum.------------+----------------------------------- 0 | 225 70.09 70.09 1 | 96 29.91 100.00------------+----------------------------------- Total | 321 100.00

3、基本回归分析

传统做法只进行1981年的回归分析,方程为:


regress lprice nearinc if y81



regress lprice nearinc if y81==0


4、双重差分


regress lprice y81 nearinc y81nrinc



上述回归分析结果与did命令结果一致,可以发现y81nrinc变量是不显著的,可以加入其他影响变量。

. regress lprice y81 nearinc y81nrinc age agesq lintst lland larea rooms baths
Source | SS df MS Number of obs = 321-------------+---------------------------------- F(10, 310) = 116.91 Model | 48.5621258 10 4.85621258 Prob > F = 0.0000 Residual | 12.8768595 310 .041538256 R-squared = 0.7904-------------+---------------------------------- Adj R-squared = 0.7837 Total | 61.4389853 320 .191996829 Root MSE = .20381
------------------------------------------------------------------------------ lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- y81 | .425974 .0284999 14.95 0.000 .3698963 .4820518 nearinc | .032232 .0474876 0.68 0.498 -.0612067 .1256708 y81nrinc | -.1315133 .0519712 -2.53 0.012 -.2337743 -.0292524 age | -.0083591 .0014111 -5.92 0.000 -.0111358 -.0055825 agesq | .0000376 8.67e-06 4.34 0.000 .0000206 .0000547 lintst | -.0614482 .0315075 -1.95 0.052 -.1234438 .0005474 lland | .099845 .024491 4.08 0.000 .0516554 .1480346 larea | .3507722 .0514865 6.81 0.000 .2494649 .4520794 rooms | .0473344 .0173274 2.73 0.007 .0132402 .0814285 baths | .0942767 .0277256 3.40 0.001 .0397225 .1488309 _cons | 7.651756 .4158832 18.40 0.000 6.833445 8.470067--------------------------------------------------------------------------


加入协变量使用双重差分命令diff进行分析,结果为:






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存