查看原文
其他

特别推荐丨老姚专栏:漫谈小样本问题

姚耀军 数据Seminar 2021-06-03


推荐语不仅仅是因为收集足够的样本需要更多时间和资金,有时候就像这篇推文中提到的例子那样,样本就只有这么多。对统计知识的误用无论在生活上还是在学术研究中,都大量存在。姚老师的这篇推文提醒年轻学者,一定要时刻警惕无法避免的小样本问题对统计结果的影响。当我们真正了解小样本问题的“危害”且有时候并不容易处理和解决时,也许会对自己做的各种“因果推断”更多保持谦逊与谨慎。    

——杨奇明





 一、小数定律 


1974年,行为经济学奠基人丹尼尔·卡尼曼和阿莫斯·特沃斯基在《Science》上发表了《不确定性下的判断:启发法和偏见》这一著名论文,文中提到如下问题:


某个镇上有一大一小两家医院。在较大的医院,每天大约有45个婴儿出生;在较小的医院,每天大约有15个婴儿出生。如你所知,男婴在新生儿中的比例大约是50%。然而,实际的比例每天都会有所变化,有时会高于50%,有时会低于50%。

在一年的时间里,两家医院都记录了新生儿中男婴比率超过60%的天数。现在的问题是:哪一家医院记录的天数更多,还是两家医院记录的天数大致相等?


两位作者让大学生们来回答这个问题,结果发现大多数学生给出的答案是:两家医院记录的天数大致相等。其实,正确答案是:小医院记录的天数更多一些。原因很简单,基本的统计学常识告诉我们,小样本均值要比大样本均值更容易偏离总体均值。在这里,人口总体中男婴出生比例的均值就是50%,而60%显然是偏离均值的。在小样本所在的医院即小医院,这种偏离情况出现的概率会更高。

统计学中有一个著名的大数定律,是指大样本均值向总体均值趋近。但不幸的是,当人们在判断不确定事件发生的概率时,大多数人往往会将大数定律移植到小样本中,误认为小样本均值也趋于总体均值,从而给出“两家医院记录的天数大致相等”这样的错误回答。这一行为偏差被卡尼曼和特沃斯基称为小数定律,已成为行为经济学的一大洞见。

关于小数定律的经典例子,最著名的莫过于赌徒谬误——


重复抛一个匀质硬币,当连续抛出几次正(反)面朝上后,赌徒会认为下一次抛出反(正)面的机会更大,进而他可能加大赌注。是的,根据大数定律,如果抛出次数足够多,那么正反面出现的次数应该趋于相等。但在有限的抛出次数下,这一统计规律并不成立。例如,连续抛10次硬币,前5次都抛出正面并不意味着后5次基本上都会抛出反面,除非硬币具有记忆。其实,后5次到底会出现什么情况,与前5次已经出现的情况毫无关系,因为每次抛硬币都是一次独立事件。



 二、贸然的因果推断 


在《思考,快与慢》一书中,卡尼曼提供了一个发人深省的小数定律案例。


通过对美国3141个县肾癌发病率的调查,一项研究发现疾病的分布存在明显模式:发病率最低的县差不多都位于中西部、南部和西部人口稀少的乡村(以下简称“乡村县”),而这些区域主要属于共和党的治理范围。人类是“因果关系推断的动物”。基于此实证发现,人们很容易作出推断:肾癌发病率低主要归因于乡村生活方式很健康,例如没有空气污染和水污染,食品新鲜且不含添加剂,等等,而共和党治理得也不错。


很讽刺的是,若调查发现的是乡村县不是“发病率最低”而是“发病率最高”,则人们也能给出“合理”的解释,他们会认为:肾癌发病率高主要归因于乡村生活条件和生活习惯的问题,例如医疗条件差、高脂肪饮食、酗酒、嗜烟,等等,而共和党的治理不善也“难脱其咎”。从逻辑上看,乡村生活特征与共和党的治理无法同时解释两种互斥事件,总有一个解释不符合事实。然而,根据小数定律,乡村县“发病率最低”和“发病率最高”这两种统计结果都是可能出现的,理由是:如果乡村县属于小样本,那么相比于属于大样本的城市县,乡村县的样本统计结果更容易出现高发病率与低发病率这样的极端结果。因此,我们对统计结果的正确反应是,首先应注意统计结果是否因样本容量不足而缺乏可靠性,而不是贸然对统计结果进行因果推断。



 三、问题根源及解决方案 



追根溯源,小样本之所以会成为问题,根源在于小样本很可能缺乏对总体的代表性,进而使得基于样本计算出的估计量缺乏有效性,精度不高。若从小样本缺乏对总体的代表性这一视角看,则“样本选择偏差”这一经典统计学问题也可归为小样本问题。此时,基于小样本计算的估计量不满足无偏性,同时也不满足一致性——即使增加样本容量,估计量也不会向总体参数趋近。

学习过统计学的朋友可能会问,为了避免小样本问题的误导,难道我们不可以通过假设检验方法来避免随机结果的误导吗?答案是,确实应该进行假设检验,毕竟假设检验考虑了与样本容量相关的自由度问题。但小样本下的假设检验结果很可能不稳健,因为误差项不一定服从正态分布与之相比,大样本下的假设检验能够利用中心极限定理,故其检验结果更加稳健。另外,若存在样本选择偏差问题,则假设检验完全失效。

要解决小样本问题,最根本的解决方案是增加样本容量。然而,增加样本容量有时并不容易。例如,如果某一类型的观测单元在总体中所占的比例很小,那么其被抽到的概率就很小,以致这种类型的观测单元在样本中很少。对此有两种解决办法:其一是进行普查,但其成本往往很高;其二是弃用简单抽样方法,采用分层抽样或者其他更复杂的加权抽样方法。

有时候我们还会碰到更加极端的例子——某种类型的观测单元不仅在总体中所占比例小,而且从绝对数量上看也很少,此时无论采取何种抽样方法,都不足以解决问题。

举一个在医学动物实验中解决类似小样本问题的例子。


为了考察某种药物的副作用,实验人员会将药物注射进老鼠的身体里。然而,如果参照人们对药物的正常使用量来相应配制动物实验中所用的药物剂量,那么药物剂量可能过小,从而不足以让“足够”数量的老鼠出现药物反应。为解决这一小样本问题,实验人员通常会加大药物剂量,以使得有足够多的老鼠会出现药物反应。不幸的是,公众往往不理解这一过程,结果对动物实验中出现的药物副作用产生恐慌,夸大药物在正常使用情况下的副作用。

 


 四、启示 


经济学大师萨缪尔森曾戏言:

“你不必为知道牛肉的滋味而吞掉整头牛”

投资大师巴菲特也曾言:

“厨房里不会只有你看到的那一只蟑螂。”

是的,为了揭示事物的真相,我们通常并不需要总体,因为很多时候基于样本就能够对总体进行很好的推断,而这正是统计学的威力所在。然而在此过程中,我们也要注意到,一叶知秋,亦能障目。在进行统计推断时,我们须对样本容量大小保持足够的敏感,否则很容易受到随机性的愚弄。

注:本文初稿发表于《今晚报》副刊2019.7.22,作者笔名“文浩”。




企研学术顾问 · 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。


►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

数据呈现丨台风天,别出门,在家学热力图

特别推荐丨老姚专栏:关于实证研究,我只能告诉你这么多了

学术前沿丨认真起来,统计学、统计模型和机器学习原来不一样!

学术前沿丨当计量经济学遭遇机器学习(三):高维回归之岭回归

工具&方法丨菜鸟升级打怪系列之python代码优化(2)



数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:姚耀军推荐:杨奇明编辑:青酱




    欢迎扫描👇二维码添加关注    



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存