查看原文
其他

老姚专栏 | “区群谬误”——用统计数据做计量分析的常见“病”

姚耀军 数据Seminar 2022-12-31

本文首发于澎湃商学院(2021-03-08)

原文标题:富国低生育率表明富人更不愿养孩子?小心“区群谬误”!》


启研学社由知名学者担任学术顾问,高校师生与企研数据科学团队联合组建,以大数据资源及相关技术助力中国学术与智库研究为宗旨的研究组织。团队当前的主要目标是挖掘经济社会大数据资源在学术和智库领域的应用价值,开展学术大数据治理研究,以及探索大数据分析技术融入中国经济社会研究的可行进路。





近日,几位朋友在微信群里聊及生育率这一话题。


经济发展水平越高的国家,其生育率越低

变得更富裕的人们为何更不愿意养孩子呢?

这都哪跟哪啊,即便‘经济发展水平更高的国家具有更低的生育率’是事实,你也不能由此推出‘富人更不愿意养孩子’这个结论呀!

道理何在,愿闻其详。

作为一个具有统计学背景且“好为人师”的大学教师,我马上意识到,对统计学进行科普的一次难得机会又被我遇上了。其实,B君由“经济发展水平更高的国家具有更低的生育率”这一事实推导出“富人更不愿意养孩子”的结论,陷入了一个著名的统计学谬误。

区群谬误


此统计学谬误就是所谓的“区群谬误”。听起来,这是一个比较抽象的术语,在此我们不妨首先通过一个具体案例来理解其含义。该案例引自美国社会学家劳伦斯·纽曼的著作《社会研究入门》,梗概如下:


有两个分别名为汤姆和琼斯的小镇。两个镇的总人口数相差不多,但汤姆小镇的平均收入水平更高,同时该镇的摩托车登记数量也更多,共有4000辆。琼斯小镇有很多穷人,所以平均收入水平低,同时该镇的摩托车登记数量也仅有100辆。在查看了关于这两个小镇的数据后,我们或许认为,富人更有可能拥有摩托车。


然而,假若我们不掌握摩托车究竟是由两个小镇的哪些家庭所拥有这种微观调查数据,则根本无法由平均收入与摩托车数量这两个宏观变量的关系,推导出“富人更有可能拥有摩托车”这一微观行为。在这里,宏观变量的分析单位是作为整体的镇子,而真实的微观行为也许是:在汤姆小镇,所有中低收入家庭都加入了摩托车俱乐部,但没有任何一个高收入家庭加入;在琼斯小镇,100辆摩托车全部由低收入家庭拥有。

《社会研究入门:如何理解我们的日常社会生活》,劳伦斯·纽曼 著,刘佳昕 译,后浪出版公司2021年3月出版。


上述案例表明,如果我们试图了解摩托车拥有情况与家庭收入之间的关系,就必须收集以家庭而非镇子为分析单位的数据。至此,何谓区群谬误就“水落石出”了——这是一种由于错误匹配分析单位而产生的统计学谬误。更具体地说,如果数据有着高层次或聚合的分析单位,而我们却据此对低层次或分解的分析单位做出结论性判断,就会犯下区群谬误。


有趣的是,虽然区群谬误是一个著名的统计学谬误,但最早却是由美国社会学家威廉·罗宾逊提出的。罗宾逊是一位极有个性的学者,他对当时社会学研究中充斥着区群谬误感到十分失望,最后竟然因此而退出了学术界。关于这段历史掌故,要从1950年罗宾逊发表于《美国社会学评论》的一篇论文说起。


在这篇论文中,罗宾逊基于美国1930年人口普查数据,分析了48个州的识字率与新移民人口比例的关系。他发现,在州层面,识字率与新移民所占总人口比例的相关系数为0.53——表明一个州的新移民比例愈高,则一般来说这个州的识字率愈高。按照人们通常的思维方式,这意味着:与本地人相比,新移民普遍具有更高的识字率。然而,罗宾逊对此推论表示怀疑,于是决定基于居民个体资料展开进一步的研究。


罗宾逊最后揭示出的真相是,新移民的识字率要比本地居民低;之所以在州层面出现识字率与新移民人口比例的正相关关系,是因为新移民倾向于在识字率较高的州定居。罗宾逊指出,假若人们基于识字率与新移民人口比例在州层面的正相关性,推导出新移民具有更高识字率的结论,就陷入了所谓的区群谬误。


不幸的是,由于当时社会学研究者所掌握的数据常常是区域或者城市层面上的宏观汇总数据,区群谬误在学术研究成果中广泛存在。例如,有研究发现,移民所占一个美国城市人口的比例越高,该城市的犯罪率就越高,而研究者据此推论道:移民要比本地居民更容易犯罪。但事实上,在移民多的城市,移民往往是受害者而非犯罪者,因为很多犯罪案件是本地白人针对移民的“仇恨犯罪”。


对于社会学研究成果的科学性,罗宾逊感到疑虑重重,遂在文章发表后就毫不犹豫地放弃了学术研究。罗宾逊提出区群谬误,不仅引发了社会学研究的危机,而且对整个社会科学研究造成了不小的冲击。这是因为,在社会科学研究中,社会学研究的数据处理方式是具有代表性的。


不过,“有危才有机”,区群谬误也成为了主要由美国密西根大学社会学系发起的“统计调查革命”的导火线。随着统计调查革命的兴起,学者们逐渐放弃使用一般由官方统计机构提供的宏观汇总数据,越来越重视通过统计调查收集微观个体数据,来展开对微观行为的学术研究。



行文至此,我们再通过一个简单的例子来加深对区群谬误的理解。


2016年的一项研究表明,在人口大国中,美国是肥胖率最高的国家,每年因肥胖问题而额外承担的医疗负担超过1500亿美元。鉴于美国同时也是一个高收入国家,那么我们是否可由此推断,肥胖主要是“富人的疾病”呢?


其实,居民层面上的微观数据显示,在高收入国家,肥胖更多是“穷人的疾病”。例如,在过去四分之一个世纪,美国穷人的身体质量指数(BMI,正常值在20至25之间,高于25为超重、高于30为肥胖)始终显著高于富人,穷人孩子的肥胖症率要比富家子弟高出70%。


如果富国高肥胖率不表明肥胖是“富人的疾病”,那么与此道理完全相同,富国低生育率也并不表明富人更不愿养孩子。要回答富人是否真的更不愿养孩子这个问题,需收集家庭微观数据进行统计分析。







企研数据创始学术顾问 · 耀军



姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授,博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,企研数据创始学术顾问。曾获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。研究领域:金融发展理论与实证、应用计量经济学。

邮箱:yaoyaojun@163.com

代表论文:

[1]姚耀军,施丹燕.互联网金融区域差异化发展的逻辑与检验——路径依赖与政府干预视角[J].金融研究,2017(05):127-142.

[2]姚耀军.制度质量对外资银行进入的影响——基于腐败控制维度的研究[J].金融研究,2016(03):124-139.

[3]姚耀军,董钢锋.中小企业融资约束缓解:金融发展水平重要抑或金融结构重要?-来自中小企业板上市公司的经验证据[J].金融研究,2015(04):148-161.





点击阅读原文进入CCAD数据库



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


资讯 | 中国学者不到40人?全球Top10%经济学家最新排名发布!

软件应用 | 为新手准备的现代化 R 包开发流程

学术前沿 | 你知道吗?在数据分析领域,农经学者是最早一批“吃螃蟹的人”

因果推断 | 前沿综述:因果推断与因果性学习研究进展

机器学习 | 通俗讲解

机器学习 | 大数据、机器学习与统计:挑战与机遇

资讯 | 国际学术期刊投稿问题征集







数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



文 | 姚耀军

排版编辑 | 青酱



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存