查看原文
其他

PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢?

计量经济圈 计量经济圈 2021-10-23


凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日,咱们圈子引荐了实证研究中用到的200篇文章, 社科学者常备toolkit”和实证文章写作常用到的50篇名家经验帖, 学者必读系列,受到各位学者欢迎和热议,很多博士生导师纷纷推荐给指导的学生参阅。


之前,咱们圈子引荐过1.PSM倾向匹配详细步骤和程序, 让Match进行到底2.执行PSM的标准操作步骤, 不要再被误导了3.PSM,RDD,Heckman,Panel模型的操作程序4.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器5.PSM-DID, DID实证完整程序百科全书式的宝典6.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例7.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王8.广义PSM,连续政策变量因果识别的不二利器等。


PSM解决的核心问题:Selection bias on observables,即基于观测变量基础上的选择偏差问题。一旦解决了这个问题,咱们就称其符合CIA(条件独立假定),因此政策干预变量的随机性就更充分了。随机性是(准)自然实验最本质的东西。设想一下,若任课老师说期末考试就考某几道题,然后你把所有精力都放在那几道题上,可不曾料到学院临时更换考题,此时你就面临一个随机性的外生冲击。读过这个“工具变量精辟解释, 保证你一辈子都忘不了”吗?


1

很多学者问如何保留倾向得分匹配(PSM)后的配对样本呢?咱们社群和因果推断研究小组都就这一问题开展过很多讨论。在2020年1月1日到来之际,咱们就把这一问题的具体操作程序分享给各位学者,以此祝各位学者新年快乐,心想事成。


以下是Stata软件操作程序,对于R软件也是类似的,引入MatchIt等Packages。
psmatch2 $treat $X, out(Y) logit ate neighbor(1) common caliper(.05) ties 
gen pair = _id if _treated==0
replace pair = _n1 if _treated==1
bysort pair: egen paircount5 = count(pair)  
drop if paircount5!=2  //把不等于2的删除掉就好


上面的程序能够保留匹配到的样本,其中_id与_n1两两配对,是否配对成功主要看下图中_pdif异同。


在1:1匹配的情况下,若只保留配对数据,能够保留下来的配对样本就比较少了,即会损失不少样本。


之前,咱们也说过可以通过drop if weight==.保留匹配样本,不过整体上留下来的样本比通过drop if paircount5!=2 要多一些,这是因为可能遇到1对多的匹配情况。


2

如果是1:4近邻匹配呢?咱们按照如下程序可以保留匹配上的处理组与控制组数据。

psmatch2 $treat $X, out(Y) logit ate neighbor(4) common caliper(.05) ties 
gen pair1 = _id if _treated==0
replace pair1 = _n1 if _treated==1
gen pair2 = _id if _treated==0
replace pair2 = _n2 if _treated==1
gen pair3 = _id if _treated==0
replace pair3 = _n3 if _treated==1
bysort pair1: egen paircount1 = count(pair1)
bysort pair2: egen paircount2 = count(pair2)
bysort pair3: egen paircount3 = count(pair3)
egen byte paircount = anycount(paircount1 paircount2 paircount3), values(2)

drop if paircount==0

各位学者可以用自己的数据运行一下。2020年,欢迎跟咱们一样分散在世界各地的学者到社群交流访问,欧、美、日、澳和加等地学者需要多走访联系。

拓展性阅读

之前,咱们圈子引荐过一些数据库,如下:1.这40个微观数据库够你博士毕业了2.中国工业企业数据库匹配160大步骤的完整程序和相应数据3.中国省/地级市夜间灯光数据4.1997-2014中国市场化指数权威版本5.1998-2016年中国地级市年均PM2.56.计量经济圈经济社会等数据库合集7.中国方言,官员, 行政审批和省长数据库开放8.2005-2015中国分省分行业CO2数据9.国际贸易研究中的数据演进与当代问题10.经济学研究常用中国微观数据手册

之前,咱们圈子引荐了1.断点回归和读者的提问解答2.RDD断点回归, 实证完整程序百科全书式的宝典3.2卷RDD断点回归使用手册, 含Stata和R软件操作流程4.政策评估里的断点回归设计是什么, 如何做?5.断点回归设计RDD全面讲解, 教育领域用者众多6.断点回归设计RDD分类与操作案例7.断点回归设计什么鬼?且听哈佛客解析8.断点回归设计的前沿研究现状, RDD9.PSM,RDD,Heckman,Panel模型的操作程序10.伊斯兰政府到底对妇女友不友好?RDD经典文献11.RDD经典文献, RDD模型有效性稳健性检验12.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References13.RDD slides资料公开分享

之前,咱们圈子引荐了一些处理内生性问题的文章,各位学者可以参看以下文章:1.“内生性” 到底是什么鬼? New Yorker告诉你2.Heckman两步法的内生性问题3.IV和GMM相关估计步骤,内生性、异方差性等检验方法4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题5.忽略干扰因素,内生性,遗漏变量偏差及相关问题下的估计6.非线性面板模型中内生性解决方案7.内生性处理的秘密武器-工具变量估计8.内生性处理方法与进展9.内生性问题和倾向得分匹配10.你的内生性解决方式out, ERM独领风骚11.面板数据里处理多重高维固定效应的神器12.面板数据是怎样处理内生性的13.计量分析中的内生性问题综述14.工具变量IV与内生性处理的解读15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法17.面板数据中heckman方法和程序18.控制函数法CF, 处理内生性的广义方法19.二值选择模型内生性检验方法20.2SRI还是2SPS, 内生性问题的二阶段CF法实现21.内生变量的交互项如何寻工具变量22.显著不显著的后背是什么

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle




数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 计量方法

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存