查看原文
其他

特别推荐丨老姚专栏:经验观察误导之伯克森悖论

姚耀军、杨奇明 数据Seminar 2021-06-03

全文共2225个字,细读大约需要6分钟




 一、从体育与学习的关系说起 


在很多家长眼里,孩子学习成绩好是头等大事,而体育锻炼却可有可无。一些家长甚至认为,体育锻炼牵扯孩子的精力,只能给孩子带来“四肢发达”的效果,不利于其学习成绩的提高。然而,越来越多的科学研究表明,这是一种没有科学依据的偏见。

那么为什么人们会有这样的想法呢?

这种偏见形成的原因有二:第一,与牵扯孩子精力这一显性成本相比,体育锻炼促进学习的作用因属隐性收益而难以观察;第二,经验观察的误导。人们有可能从实践中发现,运动能力与学习成绩似乎具有“鱼与熊掌不可兼得”的关系。

本文将重点讨论形成上述偏见的第二个原因,在此先以本文第一作者的亲身经历来举例说明。

 

上个世纪90年代初,他就读于某县城的一所重点高中。这所高中招收了很多学习成绩好的初中生,同时也招收一些体育特长生。他发现,虽然不少同学学习成绩较好,但运动能力较弱,属于“书虫”。与之相比,那些体育特长生是体育场上的“霸主”,但学习成绩一般都较差。

基于经验观察,他发现一个“规律”——学习成绩与运动能力负相关。但这一“规律”是否真的靠谱呢?从下文可知,其实这只是一种被称为伯克森悖的统计谬误。




 二、何谓伯克森悖论 


若两个独立事件会产生相同结果,则以这个结果为条件,这两个原本独立的事件就不再相互独立了,这就是所谓的伯克森悖论


例如,抛掷A、B两枚硬币,“硬币A的哪一面朝上”与“硬币B的哪一面朝上”原本属于两个独立事件。然而,若给定了“恰好有一枚硬币正面朝上”这一结果,则这两个事件就不再相互独立了——若硬币A正面朝上,则硬币B必定反面朝上,反之亦然。再比如,假设“天下雨”与“洒水车经过”是两个独立事件,而“马路湿了”显然是两者都会产生的相同结果。现在给定“马路湿了”这一结果,若天未下雨,则洒水车必定经过了;若洒水车未经过,则天必定下雨了。亦即,两个原本独立的事件现在呈现出负相关关系。
回到学习成绩与运动能力负相关这个例子。该例之所以属于伯克森悖论,根源于这位作者所在学校实行的招生政策——招收学习成绩好的初中生,或者学习成绩不好但具有体育特长的初中生。在这种招生政策下,学习成绩好与运动能力强会产生相同的结果——被该所高中录取。因此,即使学习成绩与运动能力没有任何关系,在这所高中我们也会发现两者具有负相关关系——对于学习成绩好的学生,其运动能力处于平均水平;对于学习成绩差的学生,如果他们凭着体育特长而被这所高中录取,那么其运动能力应高于平均水平。当然存在学习成绩差且运动能力也较差的初中生,但他们没有机会进入这所高中,从而也就没有机会被这位作者观察到。
伯克森悖论可以解释日常生活中的很多现象。例如——
 

公司员工的社交能力可能被认为与专业素养负相关。实际上这可能只是源于我们所观察的公司招收员工的标准就是,社交能力强或专业素养高,二者必具其一。

再例如——
 

约会的女士们或许认为,英俊的男士往往不热情,而热情的男士往往不英俊。实际上这可能只是源于,只有英俊或至少热情的男士才有更多机会成为她们的约会对象。

还例如——
 

我们经常在优质民办学校或留学生群体中观察到所谓“寒门出贵子”的现象——那些家庭条件较差的同学往往具有较好的成绩。实际上这可能只是源于,有机会进入民办学校或出国留学的同学要么成绩较好——对于贫困生,成绩好可以让他们获得奖学金,要么成绩不好但能够承担昂贵的学费。





 三、实证研究中的伯克森悖论 


伯克森悖论也常常在专业的学术研究中出现,而研究者有可能因为忽视了这一悖论而得到错误的结论,白费一番功夫。例如,金融研究领域的学者们都知道,能够拿到银行贷款客户数据做研究是非常难得的。然而,此类数据有一个重要特点:这是一个受限样本,所收集的基本上都是那些已获贷款者的信息。若我们没有注意到这一特点,则很容易中伯克森悖论的“招”。在此列举两个具体例子:
有学者利用这类数据研究企业产权属性与效率的关系,结果发现民企效率高于国企效率。然而这个令人“眼前一亮”的结果有可能只是一个伯克森悖论——能成为银行贷款客户的企业,要么是存在国家隐性担保的国有企业,要么是优质的民营企业。因此,即使产权与企业效率没有任何关系,我们也会从这一类型的数据中发现两者的负相关关系——对于国企,其效率处于平均水平;对于民企,鉴于其已成为银行贷款客户,其效率应高于平均水平。
还有学者利用银行贷款数据研究企业软硬信息的替代作用,结果发现软信息可以很好地帮助那些缺乏抵押品等硬信息的企业获得贷款,缓解信贷约束。同样,这一“符合预期”的发现可能也只是一个伯克森悖论——企业拥有软信息或者硬信息,均可使其成为银行客户获得贷款。对于那些硬信息不足但却获得贷款的企业,他们一定拥有软信息。因此,样本数据会毫无意外地显示出,在软信息与硬信息间存在负相关关系。然而,由于那些拥有软信息但未获得贷款的企业没有进入样本,这里的负相关关系并不能表明,对于所有存在贷款需求的企业,软信息都能有效地替代硬信息。




 四、结语 


伯克森悖论表明,基于对受到限制样本的观察,常常成为日常生活和学术研究中获得错误结论的根源。


在日常生活中,我们要抵制因伯克森悖论而产生的偏见,应警惕“眼见为实”的心态,多想一想我们没有看到但确实有可能发生的事情。在学术研究中,基于某些特定的研究目标,我们通常会将一些特殊的研究对象作为观察样本单元。此时也一定要注意,在决定研究对象选取的因素之间,很容易出现一种虚假的相关性。这种虚假的相关性很可能被研究者视为“漂亮”的实证结果,但其实这不过是毫无意义的统计学谬误。








企研学术顾问 · 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。




►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

工具&方法丨还没理解主成分分析?理论与stata应用

数据呈现丨R VS Python,可视化效果孰强孰弱?

特别推荐丨老姚专栏:还拎不清主成分分析与因子分析?进来看看

工具&方法丨使用双重差分难?文献中的五套方法解惑

数据呈现 | R绘图:南丁格尔图,展示全国现制饮品店密度分布






数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:姚耀军、杨奇明推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存