粗化精确匹配CEM文献推荐, 程序步骤可复制
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@sina.cn
10.倾向匹配分析深度(Propsensity matching)
前些年,咱们引荐了“无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同”,受到学者广泛欢迎和讨论。那篇文章里包括详细的操作程序、步骤和数据,各位学者可以自行查看、下载和使用。
今天,咱们引荐一篇使用CEM进行非参数估计的文献。
作者使用2013-2014年中国教育调查小组(CEPS)的数据。由中国人民大学国家调查研究中心进行,CEPS是一项正在进行的以学校为基础的全国代表性纵向调查。采用分层、多阶段整群抽样的方法,从中国省20个省的112所学校随机抽取约20000名学生(第七年级10279人,第九年级9208人)。ceps分别对7年级和9年级的学生进行了认知测试,以测量他们的认知发展。这项测试包括七年级20项,九年级22项,来自初中生认知能力测试,其本身来源于台湾教育团体调查(Yang et_al)的无课程分析能力测试。2003年)。对于7年级和9年级的学生来说,认知测试旨在评估他们的语言(例如,语言推理、短语类比)、视觉(例如,图形模式分析、折纸和几何应用)和数学(例如,数学单词问题、自定义计算规则、抽象模式分析和概率)能力。
测量学生整体认知能力的主要结果变量是使用三参数(3pl)IRT模型从认知测试项目中生成的(de Ayala 2013)。irt是心理测量学领域的一项重要创新。它被广泛应用于测验、问卷和类似工具的设计、分析和评分,这些工具可以测量潜在的理论结构,如能力、态度、技能。为了作者的目的,使用三参数IRT模型对学生的认知能力进行评分的主要优势在于,该评分考虑了不同测试项目可能具有不同程度的辨别力和难度,以及一些学生可能比其他学生更擅长伪猜正确答案的可能性。此外,irt分数是独立于测试的,这意味着即使作者对7年级和9年级的学生进行了不同的测试项目,作者仍然可以将这两个样本集合在一起进行分析。IRT得分为无标度,近似正态分布为零均值。更多IRT程序的技术细节见Wang和Li(2015)。
处理变量,被调查者是否独生子女。作者的分析还利用了学校年级(即7年级与9年级)、性别、种族(汉族与少数民族)、出生时的户籍(城市与农村)、移民史(即学生是否离开出生地)、母亲教育、父亲教育、母亲职业和父亲职业。作者还考虑了被调查者的地理位置,主要是他们居住的省和县。
作者使用粗化精确匹配CEM(Iacus et al.2011a,b),这实际上是一个精确匹配加上一个预处理步骤,临时减少维度以增加匹配的数量,作为作者的主要分析工具。与倾向评分或其他形式的近似匹配不同,CEM通过研究者的事前选择限定处理组和对照组之间的最大不平衡程度。这个决策可以是数据驱动的、理论驱动的,也可以是由实质性知识指导的。在用于匹配的9个变量中,有5个变量(包括学校年级、性别、种族、出生时的户口和移民)完全匹配,没有粗化,而母亲和父亲的教育和职业在包含匹配之前粗化。
作者利用CEM方法提供的灵活性,并在四个步骤中进行了作者的分析。在分析的第一步中,作者主要关注的是评估处理组的独生子女(att)对认知发展的平均处理效果。为此,作者把有兄弟姐妹的孩子作为一组,并将他们与独生子女配对。在分析的第二步,作者有兴趣测试独生子女对认知发展的潜在出生顺序差异。为了做到这一点,作者将有兄弟姐妹的孩子分成两组:有弟弟妹妹的第一胎孩子和有哥哥姐姐的非第一胎孩子,分别与独生子女配对。同样,在分析的第三步,作者有兴趣测试独生子女的性别差异对认知发展的影响。作者听从了Hoet al. (2007)的建议首先进行非参数匹配,然后使用匹配的样本进行进一步的参数回归分析。这种方法结合了非参数匹配的能力和回归的灵活性,提供了一种测试异质性处理效果的简单方法。在分析的最后一步,作者将第二和第三步整合到一组模型中,同时测试独生子女的出生顺序和性别差异对认知发展的影响。作者进行了类似的分析,重点是出生顺序和出生时的户口状况(即农村与城市)。
在所有这些分析中,作者或多或少遵循了相同的模型构建策略。在每个步骤中,作者都从只匹配表1中列出的9个变量的模型开始。然后在第二个模型中,作者进一步将省id作为一个额外的匹配变量(不进行粗化)。通过限制匹配案例来自同一个省份,可以控制未测量的省份特征,提高匹配质量。在第三次cem分析中,作者进一步推进了这一思想,并通过将省id替换为县id作为额外的匹配变量,将匹配的案例限制为同一个县(县内模型)。在匹配模型中使用更精细的地理单元以降低统计能力为代价来改善匹配样本的平衡。作者通常倾向于县内结果,而不是全国样本结果和省内结果,尽管比较不同的模型以确定潜在的趋势总是一个好主意。
独生子女与非独生子女两组样本的比较。
独生子女与非独生子女认知能力比较。
出生顺序差异:非独生子女中老大与独生子女比较
出生顺序差异:非独生子女中弟弟妹妹与独生子女比较
性别差异,做了一个交互项。
长按以上二维码可查看全文
咱们圈子引荐了很多经典文献,也对里面的方法有或简或繁地讨论。下面是一些代表性文献,若想了解更多,各位学者可以搜索公众号。
拓展性阅读:
11.高效使用Stata的115页Tips, PDF版本可打印使用
3.2卷RDD断点回归使用手册, 含Stata和R软件操作流程
8.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征
10.在教育领域使用IV, RDD, DID, PSM多吗?
13.PSM-DID, DID, RDD, Stata程序百科全书式的宝典
其他名家专栏文章,建议全部阅读
4.必须反对实证主义--评陆铭《如何把实证研究进行到底》
8.陈强: 计量经济学实证论文写作全解析
10.陆蓉计量工具让经济学科学化了吗
12.于晓华计量经济模型进行实证分析的正确打开方式
13.方汉明美国经济学教育体系和对中国的启示
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 |
计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 |
数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。