因果推断 | 必须警惕的坑:辛普森悖论
The following article is from 功夫计量经济学 Author 江河JH
本文转载自公众号功夫计量经济学
往期推荐
老姚专栏丨辛普森悖论、异质性与DID模型
辛普森悖论为英国统计学家E.H.辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
让我们看一个例子:
(假想数据)9102年,某大学在博士研究生招生录取工作中,有240名学生申请,男生120人,女生120人,最终录取75人,男生50人,女生25人,男生录取率为41.67%,女生录取率为20.83%。男生录取率高于女生,因而有不少人认为该学校存在性别歧视。
事实真的是这样吗?校长得知这件事后非常重视,派了大秘去进行调查。秘书收集整理了各个学院的招生录取数据,结果吃惊地发现:商学院男生录取率为49%,女生录取率为75%;法学院男生录取率为5%,女生录取率为10%;无论在商学院还是在法学院,女生的录取率都要高于男生。
那么,为什么会出现这种悖论现象呢?
其实很简单,商学院和法学院的录取率相差很大,商学院的录取率为53.33%,法学院的录取率仅为9.17%。
商学院录取率 = (49+15)/120 = 53.33%
法学院录取率 = (1+10)/120 = 9.17%
另一方面,两种性别的申请者分布比重却相反,男生偏爱申请商学院,女生偏好申请法学院。结果在数量上来说,录取率很高的商学院录取了很多男生,录取率很低的法学院,因为男生申请者少,所以不录取的男生相对较少。最后汇总的时候,男生的绝对录取数更多,从而使男生录取率高于女生。
不同学院的录取率和男女生申请比例是不同的,如果我们不考虑不同学院的情况(混淆变量),而只是总体比较男生和女生的录取率,就有可能得出错误的结论。
辛普森悖论的存在,让我们不可能光用统计数字来推导准确的因果关系。我们看到的数据很可能不是事实的全貌。
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
推荐 | 青酱
欢迎扫描👇二维码添加关注