查看原文
其他

【文献与探索】因果推论中的平衡样本规模边境匹配法

孙丹辉 治理学术 2022-05-11



类别:研究方法


今天重镑推出哈佛大学计算社会科学大牛政治学系教授加里·金(Gary King)等的最新研究论文。匹配法(matching)正逐渐大量应用于观测数据分析中的因果推论,成功运用匹配法需要减少不平衡(即增加处理组和控制组之间的相似性)和一个足够大的匹配样本。现有的方法是分析者从以上两点通过手动迭代来优化匹配方法,但存在一些问题和缺陷:若样本太小,减小的样本依赖和偏差将被一个难以接受的高方差抵消;而大样本的小方差可能会被高水平的不平衡(模型依赖和偏差)抵消。现有的方法可能会加剧这些问题。最近哈佛的Gary King,Christopher Lucas与麻省理工的Richard A. Nielsen三位美国学者合作在政治学研究类顶级期刊《美国政治学杂志》(AJPS)上共同发表了《因果推论中的平衡样本规模边境匹配法》,提出一个简化的方法来匹配因果推论,同时优化平衡和匹配的样本量,解决上述问题。也就是说,将此前争议的两方都统一归为一个模型中,这一前沿研究方法非常值得关注与学习。(The Balance-Sample Size Frontierin Matching Methods for Causal Inference,American Journal of Political Science,online first November 16, 2016,DOI: 10.1111/ajps.12272)


文章引入匹配边境(The Matching Frontier,也可称匹配边界,系统动力学中习惯用边境)(一组充分权衡平衡和匹配样本大小的匹配样本)研究人员从中选择匹配方案。创新之处在于允许研究人员通过剪去观测值来评估平衡,同时以此平衡来平衡较大匹配样本的小方差。在匹配边境的任一地方,该方法均提供了最低的不平衡。因此,在同样的不平衡指标下,没有匹配方法能够胜过匹配边境。操作容易且可避免传统方法的缺陷。


本文首先引入所有匹配方法中的问题,即如何权衡剪去观测值来减少依赖和保持观测值来减小方差,达到匹配边境的权衡。为能够直接优化,以不平衡代替偏差,以匹配样本大小代替方差,匹配的目的是同时优化平衡和匹配样本大小。现有的手动优化方法耗时且得不到最优结果,难以使用和重复,因此提供了机器优化算法。主要关注两个估计量处理组的平均处理效应(SATT)和可行的处理组平均处理效应(FSATT),实际应用中两者没有明显区别。例子:无法匹配的得到反事实状态下的数据,以加权平均的方式来估计SATT。


匹配边境的组成有四种:估计量、固定或可变比率匹配、剪去单元的定义、不平衡指标。其中,连续不平衡指标其核心是两个k维向量之间的距离。例:民主党在参议院选举的投票比例。为得到所有不平衡指标,应从两个观测者之间的距离推广到两组观测者的距离,计算方法如马氏不平衡指标。

实例应用

第一个例子运用SATT边境,可以直观比较实验和观测数据。第二个在纯观测研究中使用FSATT边境,可以着重理解新的因果数量估计。


1 工作培训。数据包括185个处理单元和16252个控制单元,估计SATT固定比例边境,只剪去控制单元,匹配8个变量,1978年的收入作为结果变量。数据3显示了匹配边境和因果效应的估计结果,在剪去15000个控制单元后,边境曲线急剧上升,与实验数据相交,在这里剪枝和不平衡发生最大程度的权衡。


2 性别和判决。对Boyd、Epstein和Martin的研究进行进一步补充。他们通过4个维度,认为除了性别歧视案件,男女法官对案件的判决没有不同。作者运用本文方法,分析210个上诉案件,设定6个协变量,构建了FSATT估计的马氏边境(数据4),确定了性别歧视案件中法官性别对判决的不同有一定影响,来源于男女经历不同所带来的信息差异。


结论

本文提供的匹配边境首次同时优化平衡和样本大小,容易使用,最大的优势在于一旦研究者选定一个不平衡指标和一组协变量,所有分析自动生成。但重要的是选定正确的预处理控制量并适当编码。是,大数据有利有弊,但它为我们带来了新的研究问题和方法。作者希望能够引起大家对大数据的关注,呼吁更广泛的对于大数据方法的使用和研究,并且提供了一些大数据方法供读者使用。本文的方法在技术方面没有重大变化。未来富有成效的研究在于将边境方法结合到因果推理的正式敏感性测试中。


总之,本研究对于我们今后如何在处理组与控制组之间达到样本大小和优化平衡,找到合适的匹配边境很有指导性价值。



如果您喜欢此文,请转发和分享给朋友们。谢谢!


附参考文献:

Athey, Susan, and Guido Imbens. 2015. “AMeasure of Robustness to Misspecification.” American Economic Review Papers and Proceedings 105(5), 476–480.


Iacus, StefanoM., GaryKing, and Giuseppe Porro. 2011a. “Multivariate Matching Methods That Are Monotonic Imbalance Bounding.” Journal of the American Statistical Association 106(493): 345–61. http://gking.harvard.edu/files/abs/cemmathabs.shtml.


King, Gary, Lucas Christopher, Richard A. Nielsen 2016. “Replication Data for: The Balance-Sample Size Frontier in Matching Methods for Causal Inference”,
doi:10.7910/DVN/SURSEO, Harvard Dataverse, V1 [UNF:6:N+6bvznjSZ2ZDl/OMFDocQ==]




近期推送的相关文献:(直接点击链接即可进入该页面)


【文献与探索】大数据方法:运用现代数据分析技术构建组织科学

【文献与探索】等效测量之误解:基于时间转换范式的研究

国际关系新研究方法:基于共同演变的纵向网络研究

【教学与交流】高影响因子定性研究杂志论文发表的五点建议

【文献与探索】具现化信息与非具现化信息:网上个人信息如何影响线下人际互动

【治理与反思】定性地理信息系统(GIS):社会工作研究未及方法


此处也可以下载全文:

https://www.researchgate.net/publication/309896554_The_Balance-Sample_Size_Frontier_in_Matching_Methods_for_Causal_Inference_THE_BALANCE-SAMPLE_SIZE_FRONTIER


原文链接阅读原文 点击左下角):


迎您提出与本文内容、主题或翻译有关的各种问题与建议!



迎关注、订阅微信公众号【上理公共管理】。本公众号是由公共管理学科的老师和学生志愿者开发的学术和交流平台,重点是公共管理领域的热点问题,我们每日整理、翻译并推荐一篇最新权威英文文献。核心内容分为三大板块:1、公共政策文献与案例,2、公共管理教学与交流,3、公共治理反思与探索。


欢迎推荐或自荐研究成果,来稿请致邮箱:usstgggl@163.com


PS:如何加入微信公众号:


您可以扫描下面的二维码,或者搜索公众号:“上理公共管理”,或者加原始ID:
  gh_dd2c06e61722 然后点击加入即可。



PS:如何查看以前推送的精彩文章:


只要点标题下方的“上理公共管理”,并选择“查看历史消息”即可,精彩就会尽现。谢谢!


  


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存