查看原文
其他

匹配还是不匹配?这真是个值得考虑的问题

编辑计量圈 计量经济圈 2020-02-22


欢迎投稿(荐稿)计量经济圈,计量相关都行

箱:econometrics666@sina.cn

编辑:计量经济圈


很多朋友做数据分析,通常是post hoc那种:数据资料(横断面资料、历史病例资料,等等)已经在眼前了,选择什么样的统计方法呢?


特别是,有病例,也可以选出对照。你会选择何种统计方法呢?

——小编是不是在诱导大家选择case-control呀?哈哈哈!


——当然,小编更倾向于将case-control当成一种研究方法,而不是一种统计方法,看不懂这句话的暂时请忽略,日后再详谈。


很多朋友会想到或问到:

  • 我们做回归不可以吗?多重回归不是一样可以校正混杂,校正协变量的影响码?还有分组分析,or分层分析,不也可以控制混杂吗?混杂偏倚的三种常见校正方法

  • 做case-control,做1:1,1:2匹配,那些找不到匹配对象的,还有多出来的,岂不是浪费数据资源了?岂不是造成选择偏倚了?

  • 另外,倾向值评分匹配不是也叫匹配吗?那是个什么鬼?这种匹配比case-control的匹配优胜在哪里?


今天,我们就来谈一下,到底——匹配还是不匹配?!


先放一炮答案吧:

  • RCT中,不做匹配也就算了。因为,随机下,无混杂!(也同时满足一个叫做“可忽略性”的条件,后面解释。)[国庆特辑]随机化意义的流行病学阐释

  • 非随机资料,能匹则匹,能配则配!因为,这是一个哲学问题!


下面详解,为何要匹配


小编刚好知道某个课题在running,给大家paraphrase一下(改头换面了已经,捂脸):

研究目的:我们要比较青霉素和万古霉素的抗菌效果!

研究方法:但是我们没有作RCT,我们用病例资料!

结果发现:用青霉素的最后都痊愈啦!

结果还发现:用万古霉素的,最后全都挂掉啦!死因很一致:耐药菌感染,我擦!

研究结论青霉素抗菌效果杠杠滴!万古霉素没用嗒!


就酱~!再次捂脸~!不要问我捂脸原因,懒得搭理你~!


正经一点:问题出在哪里了


组间没有可比性!用青霉素的,自然都是小病小灾,感冒发烧之类。而上万古的,基本上全是耐药菌感染患者,而这些患者,(感染菌)早已对青霉素耐药了。


那么,我们试想一下,

如果给用青霉素的患者上万古霉素,会如何呢?

  • 答案,。。。当然是吊销医师执照

那么给用万古霉素的患者上青霉素,会如何呢?

  • 答案,。。。患者家属签字了吗?没签字一样丢执照哦!


这就是我们业内人所说的,potential outcome(潜在结果)问题。或者叫做counterfactual framework(反事实框架)问题。


强调一下定义:潜在结果,即干预分配互换时可能发生的结果。例,干预组(本身体现干预组的效果),如果被分配到了对照组,那么它在对照组可能的结果,即“潜在结果”。这是在前提假设下的一种探讨,“潜在”的嘛。反事实框架也是这样,干预组已经分派给干预组了,那么如果它分配给了实验组,又会如何?这种假设与实施相悖了,所以叫做反事实


以案例来说,我们所期望比较的,是用了青霉素的患者,如果用了万古霉素会如何?(这批患者的,青霉素VS万古,效果比较。)

以及,用了万古霉素的患者,如果用了青霉素会如何?(这批患者的,青霉素VS万古,效果比较。)。


但很明显,这个例子中,我们不可能重现这种“如果”了。推而广之,实际上,我们在任何研究中,都没有办法呈现“如果”。因为要么选了其中一种,就不可能同时有另一种。真实世界中不存在那个平行世界!


那无法呈现“如果”之下的这种潜在的结果,这个问题就无解咯?


也不是的。我们选择对照组,实际上就是模拟这种潜在的结果

  • 用对照组的结果,模拟实验组的潜在结果。

  • 用实验组的结果,模拟对照组的潜在结果。


真的就可以模拟“潜在结果”吗?

我们说,要满足特定的条件!其中一个,非常重要的,叫做“可忽略性”!大概也就是我们所说的可比性?可比性是个什么鬼,不懂耶。


什么是可忽略性呢?

(可忽略的干预分配假定,ignorable treatment assignment assumption)

鉴于小号很多读者不喜欢公式,我还是paraphrase一下吧。

就是,干预分配,与潜在结果无关。一个患者,被分配到实验组还是对照组,应该与潜在结果没关系。——这样大概还是比较难理解。

举个栗子:上例中,分配青霉素还是万古霉素,与潜在结果有明显的关系分配方式互换——丢执照!我们换不了!所以,上例是不满足可忽略性的,因此,这个研究基本上得不出任何有意义的结论。


那如何满足可忽略性呢?

RCT咯,加一个随机化过程,自然而然,就保证了分组与潜在结果无关(跟随机化切断混杂一个道理,随机化,天生就是一把利剑!)。所以,这也是我们前面结论中,为何RCT通常不需要做匹配的原因。


RCT中,可以通过加随机化,实现可忽略性。那观察性研究中呢?类试验中呢?我们可以想办法保证可忽略性吗?

——当然可以!就是我们的匹配大法!


跟小编一起念:匹~配~大~法~好~!


匹配(matching),就是找出非常相似的个体,各方面都要非常相似的个体,进行配对。为何呢?我们前面提过,我们的实验组和对照组,是要相互之间模拟潜在结果的。如果实验组是一个胖子,对照组是一个瘦子,瘦子又如何能模拟胖子的潜在结果呢?


所以,必须匹配!严格将胖子与胖子的结果比较,瘦子与瘦子的结果比较,才能真正体现出我们干预效果的差异(当然,有时候不是干预,仅仅是某些类型的分组了)。如此,也可以满足我们所说的,可忽略性——分组与潜在结果无关:两个胖子匹配,无论怎么分组,都是“胖子的实验组结果 VS 胖子的对照组结果”。如果胖子和瘦子相匹配,那~是不是乱了呀?


这种匹配,也是程序上的公正~!


虽然,我们多重回归也可以(在某些程度上)校正混杂,但却失去了程序上的公正~!

——你没有人为地搭建一个“potential outcome”(潜在结果)框架出来,没有人为地搭建一个“counterfactual framework”(反事实框架)出来。而在框架缺失的前提下,直接使用了框架的产出——比较了实验组与对照组的差异。


这显然是不合理的!


另外,从实用角度,增加论文结论在因果推断方面的分量;让统计方法更花哨;堵住审稿人的嘴……


以上,希望可以解答“为什么不用回归”和“为什么要做匹配”的问题。


下面我们谈一下我们用case-control方法做匹配时遇到的一些问题如何解决。

  • 1:1,1:2匹配,浪费样本量的问题。

  • 匹配变量太多造成的过匹配和sparsity问题。


解决方案,就是——不用case-control!哈哈哈哈!


我们有PSM啊,可以用propensity score做matching呀~!


PSM是个什么鬼?


匹配党~的先驱们(Donald Rubin:反事实框架的奠基人;Paul Rosenbaum:倾向性评分的奠基人),当然也就是匹配的铁杆粉丝们啦!他们发现个问题,旧的匹配方式呀,需要匹配的因素太多(年龄性别体重,等等等,you name it),匹配着~匹配着~,每个配对组就很少人哦,甚至找不到配对的人。。。最后统计量的计算好难实现!


于是乎,他们想了一个大招!降维~!将众多的匹配因素,合并成一个变量!根据这个变量~倾向性评分~来对研究对象进行匹配!


推导证明,这个倾向性评分(一个变量指标)可以完美替代众多的需要匹配的因素(多个变量指标)。~实际上并没有那么完美,but,who cares,大家认可就行了呗。


根据倾向性评分,将研究对象分成几组,十几组,几十组,互相具有类似评分的组别。即,每一组都很相似。

  • 可以将组内对照组的结果,看成实验组的潜在结果。

  • 可以将组内试验组的结果,看成对照组的潜在结果。


用这种匹配方式,来构建我们的“potential outcome”(潜在结果)框架,或者叫“counterfactual framework”(反事实框架)。


这种根据倾向值评分匹配的方式,因为只将全部样本分为了有限几个十几个评分等级,所以可以很好的解决了1:1,1:2时找不到匹配对象,浪费匹配对象等等众多问题。


可是,倾向性评分,具体如何实现呢

期待续集吧~!据说,文末 ↓↓↓ 的“赞赏”,是小编写作的唯一动力哦!


总结一下:


我们做匹配,实际上是将观察性研究,重新打造成一个“类RCT”,增强其因果推断的强度(横断面研究之类,本来谈不上因果推断,仅仅是一个提示作用;类试验,在因果推断方面也很虚弱。但有了匹配,可以很大程度上增强这类在因果推断上的说服力!)。



所以,条件允许的话,还是能匹则匹,能配则配吧


注:文章来源于公众号:医学统计分析精粹


班花为什么还单身?魔鬼经济学给出最新研究成果


最近,二孩出生人数超过一孩的消息让很多年轻人十分伤感:没经济实力的年轻人不敢生,那些实力雄厚的中年人却在继续播撒他们的基因。


但在此之前,另一条消息被大家忽略了,2017年江苏省的初婚年龄竟高达34.2岁!



原来,不是不想生娃,得先结婚啊。


晚婚晚育,这是一个全球化的问题。一方面,生活的压力,让年轻人不敢轻易结婚生育;另一方面,受教育程度的普遍提高,当年轻人更加独立地进入职场,结婚的需求相对减弱。


在“婚姻市场”上,有个有趣的现象:很多看似普通的女生,能很快找到男朋友,毕业后也很快结婚;但有时候,班花都可能一直单身。


其实,这都和大学的男女比例相关。


近日,德国IZA劳动经济学研究所(IZA Instituteof Labor Economics)发布的一篇论文,就重点研究了大学男女比例对年轻人婚姻的影响。结果发现,女生比例越高的学校,女生就越难找到对象;而即便学校男生比例高,也不妨碍男生找对象。


这到底是为什么呢?


男女比例失衡耽误终身大事


在中国,高中时期的“早恋”是不被提倡的。因此上了大学,找对象的重要性并不是亚于学业,都是终生大事。而大学期间的恋爱往往纯真烂漫,如果能找到未来的结婚对象,感情基础会相对稳固。


▲图片来源:摄图网(图文无关)


然而,在同性扎堆的专业性大学里,找到心仪的另一半并不容易。


2015年,中国高校新媒体联盟发布了全国719所高校男女比例排行榜:前十名中,4所师范类院校和4所外国语大学赫然在列。相反,排在榜单后10名的高校中,除1所刑事学院、2所体育院校外,其余7高校均为理工类大学。



文科专业学校女生多、理科专业学校男生多,无论从经验上看,还是从数据看,这个现象都是普遍的。如果给这个榜单换一个名字——单身排行榜,可能也能成立。


2017年11月,德国IZA劳动经济学研究所发布的一篇论文显示,女生比例越高的学校,女生就越难找到对象;而即便学校男生比例高,也不妨碍男找对象。虽然这份研究是基于德国的情况,但在中国,这种现象依然普遍。



首先,从1977年到2011年,德国女大学生的比例从1/3上升到了48%,与此同时,工程专业以男生为主,人文学科女生为主,建筑、法律、医学等专业逐渐由男生专业变成女生专业。这和中国情况非常相似。


研究员Nico Pestel通过数据分析发现,在女生多的学校或专业里,女生单身的可能性更高,


女生比例每增加一个百分点,女生结婚的可能性就减少1.5个百分点;


但男生却不受此影响,男生比例每增加一个百分点,男生单身的可能性减少0.6个百分点,而不结婚的比例减少0.4个百分点。


也就是,男生越多,男生单身的可能性反而越低。因此,在理工科学校里,女生找到对象的可能性高于文科院校。


究其原因,就要引用“择偶梯度”这个术语。


这个术语是美国社会学家巴纳德提出的。他发现,在婚姻关系中,男性总是倾向于选择社会地位相当或较低、年龄较小的女性,而女性往往要求男性的受教育程度、社会地位、收入、年龄等等于或高于自己。


因此,德国IZA劳动经济学研究所报告指出,在女性多的学校,女性要在本专业、本学校找到对象更加困难;而高学历男性的择偶范围则可以扩大到大学以外。


选专业要看“婚姻市场”?


普遍认为,我们考什么大学,选什么专业,是基于对未来行业发展和就业情况的判断。也就是说,劳动力市场决定了一个专业的报考情况。


但是,研究院Nico Pestel却发现,“婚姻市场”也可能影响个人选择专业。例如,如果女生希望找到一个同样有大学文凭的对象,她很可能有意地选择女生少的专业和学校。因此,大学的男女比例不仅影响着”婚姻市场“,“婚姻市场”也会反过来影响大学的男女比例。


▲图片来源:摄图网(图文无关)


研究院分析德国工程专业的女生人数发现,上世纪70年代,工程专业的女生比例非常低,但到了2000年以后,工程专业的女生比例则增加了。


不过,“婚姻市场”并不是影响专业选择的主要因素,因为,考大学,尤其是在德国,并不是一件容易的事,需要层层筛选。能否拿到录取通知书,要受很多因素影响。


不过,仅从现象上看,中国最近几年理工科大学女生比例也也越来越多。


▲图片来源:每经小编整理


此外,2016年万事达卡发布的“女性科技新力量”调查报告显示,中国15至19岁的女生中(即高中生),学习科学、技术、工程和数学(即理工科)类科目的人数达76%,居亚太地区首位。


不过,理工科男女比例日趋均衡,是个可喜的趋势。但这一趋势发生的大背景则是,大学的“阴盛阳衰”,


据中国教育部统计,自2009年普通本专科女生比重首次超过男生后,男女生数量差距越来越大。2016年,全国本科女大学生人数,比男生多出了111万,硕士研究生中,女生比男生多了10万。



更高的学历,意味着女性未来在事业上有更多的进步可能;另一方面,按照“择偶梯度”理论,又可能造成择偶难问题。要在教育、事业、爱情和家庭之间找到平衡点,对个人来说,不容易,对一个社会来说,更是巨大的工程。


注:文章来源于公众号每日经济新闻(ID:nbdnews)


计量经济圈希望圈友继续支持咱们品牌,我们回馈的是,没有任何其他公众号比我们提供给大家学习机会更多,只要你愿意付出机会成本迈过这个门槛。


点击下图,有惊喜


 写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群息。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存