PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢？

Original 计量经济圈计量经济圈 2021-10-23

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日，咱们圈子引荐了①“实证研究中用到的200篇文章, 社科学者常备toolkit”和②实证文章写作常用到的50篇名家经验帖, 学者必读系列，受到各位学者欢迎和热议，很多博士生导师纷纷推荐给指导的学生参阅。

之前，咱们圈子引荐过1.PSM倾向匹配详细步骤和程序, 让Match进行到底，2.执行PSM的标准操作步骤, 不要再被误导了，3.PSM,RDD,Heckman,Panel模型的操作程序，4.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器，5.PSM-DID, DID实证完整程序百科全书式的宝典，6.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例，7.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王，8.广义PSM,连续政策变量因果识别的不二利器等。

PSM解决的核心问题：Selection bias on observables，即基于观测变量基础上的选择偏差问题。一旦解决了这个问题，咱们就称其符合CIA(条件独立假定)，因此政策干预变量的随机性就更充分了。随机性是(准)自然实验最本质的东西。设想一下，若任课老师说期末考试就考某几道题，然后你把所有精力都放在那几道题上，可不曾料到学院临时更换考题，此时你就面临一个随机性的外生冲击。读过这个“工具变量精辟解释, 保证你一辈子都忘不了”吗？

很多学者问如何保留倾向得分匹配(PSM)后的配对样本呢？咱们社群和因果推断研究小组都就这一问题开展过很多讨论。在2020年1月1日到来之际，咱们就把这一问题的具体操作程序分享给各位学者，以此祝各位学者新年快乐，心想事成。

以下是Stata软件操作程序，对于R软件也是类似的，引入MatchIt等Packages。

psmatch2 $treat $X, out(Y) logit ate neighbor(1) common caliper(.05) ties

gen pair = _id if _treated==0

replace pair = _n1 if _treated==1

bysort pair: egen paircount5 = count(pair)

drop if paircount5!=2 //把不等于2的删除掉就好

上面的程序能够保留匹配到的样本，其中_id与_n1两两配对，是否配对成功主要看下图中_pdif异同。

在1：1匹配的情况下，若只保留配对数据，能够保留下来的配对样本就比较少了，即会损失不少样本。

之前，咱们也说过可以通过drop if weight==.保留匹配样本，不过整体上留下来的样本比通过drop if paircount5!=2 要多一些，这是因为可能遇到1对多的匹配情况。

如果是1：4近邻匹配呢？咱们按照如下程序可以保留匹配上的处理组与控制组数据。

psmatch2 $treat $X, out(Y) logit ate neighbor(4) common caliper(.05) ties

gen pair1 = _id if _treated==0

replace pair1 = _n1 if _treated==1

gen pair2 = _id if _treated==0

replace pair2 = _n2 if _treated==1

gen pair3 = _id if _treated==0

replace pair3 = _n3 if _treated==1

bysort pair1: egen paircount1 = count(pair1)

bysort pair2: egen paircount2 = count(pair2)

bysort pair3: egen paircount3 = count(pair3)

egen byte paircount = anycount(paircount1 paircount2 paircount3), values(2)

drop if paircount==0

各位学者可以用自己的数据运行一下。2020年，欢迎跟咱们一样分散在世界各地的学者到社群交流访问，欧、美、日、澳和加等地学者需要多走访联系。

拓展性阅读

之前，咱们圈子引荐过一些数据库，如下：1.这40个微观数据库够你博士毕业了；2.中国工业企业数据库匹配160大步骤的完整程序和相应数据；3.中国省/地级市夜间灯光数据；4.1997-2014中国市场化指数权威版本；5.1998-2016年中国地级市年均PM2.5；6.计量经济圈经济社会等数据库合集；7.中国方言,官员, 行政审批和省长数据库开放；8.2005-2015中国分省分行业CO2数据；9.国际贸易研究中的数据演进与当代问题；10.经济学研究常用中国微观数据手册。

之前，咱们圈子引荐了“1.断点回归和读者的提问解答，2.RDD断点回归, 实证完整程序百科全书式的宝典，3.2卷RDD断点回归使用手册, 含Stata和R软件操作流程，4.政策评估里的断点回归设计是什么, 如何做？，5.断点回归设计RDD全面讲解, 教育领域用者众多，6.断点回归设计RDD分类与操作案例，7.断点回归设计什么鬼？且听哈佛客解析，8.断点回归设计的前沿研究现状, RDD，9.PSM,RDD,Heckman,Panel模型的操作程序，10.伊斯兰政府到底对妇女友不友好？RDD经典文献，11.RDD经典文献, RDD模型有效性稳健性检验，12.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References，13.RDD slides资料公开分享

之前，咱们圈子引荐了一些处理内生性问题的文章，各位学者可以参看以下文章：1.“内生性” 到底是什么鬼? New Yorker告诉你；2.Heckman两步法的内生性问题；3.IV和GMM相关估计步骤，内生性、异方差性等检验方法；4.最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题；5.忽略干扰因素，内生性，遗漏变量偏差及相关问题下的估计；6.非线性面板模型中内生性解决方案；7.内生性处理的秘密武器－工具变量估计；8.内生性处理方法与进展；9.内生性问题和倾向得分匹配；10.你的内生性解决方式out, ERM独领风骚；11.面板数据里处理多重高维固定效应的神器；12.面板数据是怎样处理内生性的；13.计量分析中的内生性问题综述；14.工具变量IV与内生性处理的解读；15.一份改变实证研究的内生性处理思维导图；16.Top期刊里不同来源内生性处理方法；17.面板数据中heckman方法和程序；18.控制函数法CF, 处理内生性的广义方法；19.二值选择模型内生性检验方法；20.2SRI还是2SPS, 内生性问题的二阶段CF法实现；21.内生变量的交互项如何寻工具变量；22.显著不显著的后背是什么

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2年，计量经济圈公众号近1000篇文章，

Econometrics Circle

数据处理：Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢？

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢？

您可能也对以下帖子感兴趣