查看原文
其他

特别推荐丨老姚专栏:宏观数据VS微观问题:谨防生态学谬误

姚耀军 数据Seminar 2021-06-03


推荐语:因为数据的限制,在中国有大量的研究都存在用宏观数据研究微观问题的情况。不管是有意还是无意,我们很少看到作者承认,因为用宏观数据,可能会存在“生态学谬误”,哪怕有一些估计结果“不太好解释”。姚老师的这篇文章通过三个案例介绍了什么是“生态学谬误”,特别是第三个案例,真切地说明这种谬误在当前的学术研究中是存在的。这也进一步说明,大量微观数据的开发和挖掘对于学术研究和政策分析,都是非常有必要的。   

——杨奇明 


微观经济学对个人、家庭、企业等微观经济个体的行为选择提供了很多洞见。然而,鉴于微观个体数据一般而言要比宏观汇总数据更难以获得,很多关于微观经济理论与模型的实证研究避难就易,选择以宏观汇总数据作为数据基础。不幸的是,数据层次与理论分析对象不匹配,往往成为一些统计学谬误之源。具体来说,如果用宏观汇总数据来研究微观经济问题,很容易陷入所谓的生态学谬误。



 一、生态学谬误 


1950年,美国社会学家William S. Robinson在《美国社会学评论》上发表一篇文章。基于1930年的美国人口普查数据,Robinson分析了48个州的识字率与新移民人口比例的关系,结果发现:两者之间的相关系数为0.53,即平均来看,一个州的新移民比率愈高,则这个州的识字率便愈高。那么这是否表明,与本地人相比,新移民普遍具有更高的识字率呢?Robinson对此表示怀疑。基于对个体资料的分析,他发现,平均来看,新移民比本地人的识字率低。之所以在州层面出现识字率与新移民人口比例的正相关关系,是因为新移民都倾向在识字率较高的州定居。
在这篇文章中,Robinson创造了一个新术语,那就是生态学谬误(Ecological Fallacy),意指基于宏观汇总信息,人们很容易对微观个体性质做出错误的推论。在1950年以前,社会学研究可获得的数据基本上都是以地区为单位的宏观汇总数据。Robinson由此对社会学研究成果的科学性产生巨大的怀疑,以致在文章发表后就决然退出了学界。
社会学研究中确实不乏生态学谬误的例子。例如——

一些研究者会根据“城市的外来人口越多,城市的犯罪率越高”这一统计学证据,贸然得出“外来人口比本地人口的犯罪率高”这样的结论。


其实,在外来人口多的城市,违法犯罪者并不一定是外来人口。以20世纪三十年代以前的美国为例,在移民越多的城市,反而是本地白人针对移民的仇恨犯罪(Hate crime)越高发。
Robinson的文章引发了社会科学研究的危机,同时也成为了主要由密西根大学社会学系发起的“统计调查革命”的导火线。为了回应生态学谬误的挑战,研究者们放弃使用由政府提供的汇总数据,转而收集微观个体层面的数据,研究个体与家庭的行为选择。



 二、案例一:吃巧克力会变得更加聪明? 


《新英格兰医学杂志》2012年刊登的一篇文章报告了一个发现:一国人均巧克力消费量越高,其诺奖得主占总人口的比例就越高。此文很快被大众媒体广泛报道。这些报道多冠以“巧克力会让人更聪明?”“多吃巧克力是获得诺奖的秘诀?”等标题,似乎认为巧克力消费与获得诺奖真的存在因果关系。
文章作者弗朗茨•梅瑟利也试图对统计证据给出因果解释。他认为,巧克力的主要原料可可富含黄烷醇,而黄烷醇作为强抗氧化剂类黄酮的一个亚类,能提高记忆、学习能力,改善推理、决策、语言理解和数学逻辑等认知功能。然而,笔者认为,梅瑟利很可能陷入了生态学谬误,对统计证据做了过度解读。理由是——

一个国家人均巧克力消费量越高并不代表那些诺奖得主就吃了更多的巧克力。亦即,爱吃巧克力的人与诺奖得主并不一定属于同一群人。


实际上,根据哈佛大学医学院黄烷醇专家诺姆·霍伦伯格的观点,梅瑟利对统计证据的理论解释也是错误的。原来,虽然黄烷醇在天然可可中含量很高,但在巧克力中含量却很低。这是因为,黄烷醇会使巧克力吃上去发苦,因此巧克力制造商会尽量降低巧克力中黄烷醇的含量。
那么,我们究竟应该如何解释梅瑟利的统计发现呢?2001年诺贝尔物理学奖得主埃里克•科内尔认为,一个国家的巧克力消耗量与该国的富裕程度相关联,而越富裕的国家对科研投入更多,从而越可能产生更多的诺奖得主。因此,巧克力消费量就和诺奖得主数量正相关所反映的是经济发展对两者的促进作用,而非两者之间的因果关系。
科内尔其实是在批评文章作者梅瑟利犯了将“虚假关系”解释成因果关系的统计学错误。所谓虚假关系,是指对于不存在因果关系的两个变量,它们会因为分别与第三个变量具有因果关系而产生相关性。例如——

小朋友的手掌大小与阅读能力原本没有因果关系,但两者正相关,原因是随着年龄增长,小朋友手掌变大,同时阅读能力也会提高。




 三、案例二:金融发展不利于技术创新? 


在笔者所从事的金融发展研究领域,也存在生态学谬误的困扰。例如,在研究金融可获得性与企业技术创新的关系时,由于缺乏微观数据,一些学者利用关于金融发展与技术创新的省际层面汇总数据来展开实证研究。很多研究发现,技术创新与金融发展负相关。于是一些研究者解释到,金融可获得性的提高会导致企业“脱实向虚”,从而不利于技术创新。其实,这里就很可能存在生态学谬误。原因是,与上面巧克力的例子类似,一个省份金融发展水平高,只能说明总体上企业融资更容易,但并不表明融到资金的企业就是那些从事技术创新的企业。
如果在微观层面,金融可获得性提高确实有利于企业技术创新,那么应该如何解释宏观汇总数据中所出现的,技术创新与金融发展负相关这种统计现象呢?一种可能的解释是,由于政府行政干预以及资本市场不完善等原因,金融资源存在“错配”——与高效率创新型企业相比,那些低效率的企业因为各种非市场原因反而更容易获得金融支持。在这里,金融资源错配,正是生态学谬误的缘起。
另外一种可能的解释是:在金融发展水平低的地区,大多数创新能力弱因而盈利能力也弱的企业被淘汰,少数创新能力强因而盈利能力也强的企业存活下来;在金融发展水平高的地区,由于融资较容易,无论是创新能力强还是弱的企业,基本上都存活下来。宏观汇总数据所统计的信息经常来自于存活下来的企业,从而导致在金融发展水平低的地区出现样本选择偏差问题——诸如企业平均创新水平这类平均指标高估了企业总体的真实创新水平。



 四、结语 


基于宏观汇总数据来研究微观个体的行为选择,很容易陷入生态学谬误。从很多公开发表的经济学实证研究成果来看,生态学谬误这一最早源自社会学研究的统计学问题,并未引起经济学研究者们的注意或者充分重视。本文对生态学谬误的起源进行了简单介绍,并以巧克力与诺奖的“伪”因果关系案例以及金融发展研究领域中的一个案例作为“反面教材”,提醒读者汲取相关教训,谨防生态学谬误让实证研究沦为统计学游戏。




企研学术顾问 · 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。



►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

工具&技巧 | 经济学圈特供 小刘帮你画专业社会网络图(一)

学术前沿 | 想要用好机器学习,这三个坑你千万得留心

特别推荐丨老姚专栏:“读书无用论”有道理吗?从比较的视角看“识别”问题

数据呈现丨装X利器来袭,Python可视化库Bokeh助你俘获小姐姐的心

工具&方法 | 六步法,用Python进行机器学习项目可以如此明了




数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:姚耀军推荐:杨奇明编辑:青酱





    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存