统计大牛R. A. Fisher简介
编者按:
2023年秋学期,在北京大学预防医学专业本科《卫生统计学》课程中,给同学们布置了围绕“相关-关联-因果”进行讨论的课后作业,几位同学的“小作文”让我眼前一亮,遂请助教协助组织联合写作,形成了“天才的诡辩——否认吸烟致癌的统计学大师”一文。从统计学天才Fisher的逸事中深入了解“因果推断”,知识中不乏趣味,有点儿意思。因篇幅较长,遂分为4个推送与各位看官共享。
天才的诡辩——否认吸烟致癌的统计学大师
I. 吸烟与肺癌的关联性研究背景
II. 统计大牛R. A. Fisher简介
III. 天才的诡辩和学界的反驳
IV. 深层思考——因果推断
II. 统计大牛R. A. Fisher简介
Fisher个人简介
Fisher是优生学的倡导者,他认为人类的品质和能力主要取决于遗传,而不是环境。他认为,通过选择和改善人类的遗传基因,可以提高人类的素质和福祉。他坚定地认为,吸烟和肺癌之间的相关性,其实是有特定的遗传基因在背后驱动所导致的表象——有些人天生就有患肺癌的倾向,而这些人也更容易吸烟成瘾,吸烟-肺癌两者并无真正的因果关系。
R. A. Fisher,英国著名统计学家,达尔文的迷弟。他在统计学上提出极大似然估计、F 检验、试验设计等概念和方法,被誉为 “现代统计学之父”。他的贡献可不仅限于统计学,还涉及到遗传学、生物学、农业学等领域,包括Fisher原理、Fisher氏失控理论、Fisher自然选择定理、性别比例理论等理论和模型。他还是优生学的倡导者,继承了Karl Pearson一半的衣钵并成立了优生学系,与著名经济学家凯恩斯等人创立剑桥大学优生学学会。
从山重水复到柳暗花明——天才曲折的一生
他的童年时期并不一帆风顺——出生于一个七个孩子的中产大家庭,父亲是成功的商人。然而他体弱多病,视力严重受损,为保护他高度近视的双眼,医生禁止他在灯光下读书。十几岁的时候又家道中落——母亲病逝,父亲破产。但这些似乎对他的“学霸”之路没有丝毫影响:从小酷爱数学和天文,7、8岁已经出席著名天文学家罗伯特.鲍尔的大众讲座,14岁进入哈罗公学读书展现了惊人的数学能力,后来,在剑桥大学读本科期间,他就结识了笔名“student”的Gosset和当时的统计学大咖Karl Pearson等人,常常用一两个星期就解决了学界百思不得其解的难题。
后来,他在投资公司做过统计,在农场做过工人,还在多所学校当过数学和物理老师……但这些经历一次比一次糟糕,学生们完全无法理解在他看来显而易见的内容,令他非常生气。兜兜转转,他终于来到洛桑农业试验站,并在这里做出了最杰出的成绩,终于得到英国皇家统计学会的认可。
Fisher先后任职于伦敦大学、澳大利亚的国协科技研究组织。1943年,Fisher回到剑桥担任优生学系教授和主任,1956年受封爵士,一直到1957年退休。2年后,他受邀到澳大利亚担任联邦科学与工业研发组织(CSIRO)任研究员,在名誉和声望中度过了晚年。
精于统计的“老烟枪”
据说Fisher每天至少要抽两盒烟(40支),有时甚至可达4盒(80支)。身为一名“利益相关”的老烟民,为“吸烟导致肺癌”的假说打抱不平倒是顺理成章的。抛开统计学上的艰深理论,我们来看看Fisher坚持为吸烟辩驳的理由:
(1)现身说法:Fisher从小就开始吸烟,一直到晚年都没有戒烟,自认为身体素质尚可,也没得肺癌。他可能不愿意承认自己的习惯有害健康,或者是觉得自己有足够的抵抗力,不会受到吸烟的影响。他也可能觉得自己的个例可以反驳吸烟和肺癌的相关性。事实上,他最终死于结肠癌,吸烟也是该病的重要危险因素之一。
(2)命数天定:Fisher是优生学的倡导者,他认为人类的品质和能力主要取决于遗传,而不是环境。他认为,通过选择和改善人类的遗传基因,可以提高人类的素质和福祉。他坚定地认为,吸烟和肺癌之间的相关性,其实是有特定的遗传基因在背后驱动所导致的表象——有些人天生就有患肺癌的倾向,而这些人也更容易吸烟成瘾,吸烟-肺癌两者并无真正的因果关系。
题外话:
因为他的优生学观点与普世价值观不符,剑桥大学宴会厅的橱窗撤下了代表他学术贡献的著名的拉丁方设计图(图7)
图7 拉丁方设计图
(3)固执信念:Fisher是一个非常自信和固执的人,他对自己的观点和方法非常坚持,不容易被别人说服。但他也是一个非常理性和逻辑的人,他不轻易相信没有充分证据的结论,也不轻易放弃自己的假设。他认为吸烟导致肺癌的说法是一种没有充分证据的猜测,而不是一种科学的结论。他认为自己的观点和方法更加科学和客观,而不受情感和偏见的影响。
我们可以看到,在“吸烟是否导致肺癌”的问题上,在Fisher“疯狂”的大脑里有两面旗帜:一面是统计学专业知识,一面则是“吸烟不是肺癌的危险因素”的口号。Fisher的性格是偏执甚至暴躁的,他的固执个性是他在统计学理论上深耕的动力,但也容易与一些与他意见相左的学派产生矛盾,甚至是对抗整个社会观念。
广为流传的学术恩怨
争执和恩怨——Fisher与Pearson
说到统计学,在Fisher之外,也不得不提到Karl Pearson——Fisher的老前辈,在统计学和生物统计学界大名鼎鼎的人物。Pearson是数学家,生物统计学家,是数理统计学的创立者,自由思想者,对生物统计学、气象学、社会达尔文主义理论和优生学做出了重大贡献。看到这些成就,我们是不是感到很熟悉?没错,许多Pearson有的成就,Fisher都有。Pearson与Fisher都是数理统计的代表人物,都是数理统计的奠基人,而且都是天才型的多面手,他们两人间可谓不打不相识,是在批评中前进的学界典范。
传说,Pearson和Fisher二人在学术中颇有恩怨,年轻的Fisher多次在长者Pearson创办的《生物统计》上投稿,但都被Pearson拒稿。这对想趁着年轻在统计学领域闯出一翻自己的天地的Fisher而言,无疑是一种打击甚至是羞耻。Fisher也因此跟Pearson赌气,发誓终身不在此杂志上投稿,但最后还是在《生物统计》上发表了一篇文章,原因是——这篇文章里,他解决了Pearson长久思考的高尔顿相关系数统计分布的难题。
据说他只花了一个星期,通过将问题转化成几何公式,就得到了完整的解答。可惜,专家们貌似都没看懂。Pearson知道特殊情况如何求得问题的部分解,而他的方法需要大量的计算,他让手下同事计算这些解,发现一一符合Fisher给出的一般解。但Pearson仍然没有同意直接发表Fisher的这篇论文。而是不断要求他修改,降低其一般性。这篇论文前前后后拖了一年才发表,而且只是作为Pearson的大型计算表格的注解附录发表的——在读者看来,Fisher的数学处理只是对Pearson及其同事做的大量重要计算的一个补充说明而已。
虽然Fisher难免对《生物统计》《皇家统计学会期刊》等权威期刊背后的势力感到不满,但他无可奈何,只能另辟蹊径,在一些“圈外”的杂志,甚至自掏腰包发表文章。从此,Fisher便成为了Pearson论文的专业挑错者,也因此受到了Pearson等人的猛烈抨击。Fisher潜心研究统计学知识,终于受到学术界的认可。有意思的是,Pearson退休后,Fisher在受任原属Pearson的伦敦大学“高尔顿”教席和优生学系主任一职时,对时任新的生物统计系的Pearson的儿子也有不小的敌意,不过两人还是在同一栋楼里共同工作了数年,没有发生过明显的争执。
此外,Fisher还是现代统计学中非常重要的学派——频率派的代表人物,他基于样本信息估计总体参数的经典方法直到现在都在教科书里占据重要之地。但是,江山代有人才出,科学的世界是不断更新迭代的。有了所谓“完整”的理论体系,就往往会有人“见缝插针”,“殚精竭虑”地试图通过质疑甚至推翻前人的理论来证明自己,例如英国学者贝叶斯(Bayes)从主观角度考虑参数存在形式的贝叶斯学派,也通过经验积累证明了自己理论的优势。至今,概率派和贝叶斯派的争论也仍在继续,可谓各有千秋。
贡献:北京大学公共卫生学院预防医学专业本科生曹颖、胡珀宁、黄哲、李赛卓、宁越、唐诗隽参与写作;北京大学公共卫生学院流行病与卫生统计学博士研究生杜敏(助教)、 南京中医药大学魏良敏参与修改;北京大学公共卫生学院预防医学专业本科生刘雨田负责推送排版;文心一言在引导下提供了部分文字素材;写作指导、文字修改和审阅:北京大学魏永越老师。欢迎提供修改意见、联系转载。