编辑部按:统计之都访谈第45期为翻译作品。原文作者Susan Holmes, Carl Morris and Rob Tibshirani,标题为Bradley Efron: A Conversation with Good Friends,于2003年发表在Statistical Science。译文主要由潘岚锋、雷博文完成,冯裕祺翻译了部分内容。魏太云、丁鹏、李赛、邱怡轩、郭旭曾在翻译过程中给予了很多细致、专业的建议和帮助。感谢原文作者、译者和审校人员的辛勤付出。
摘要:Bradley Efron是斯坦福大学统计学和生物统计学教授。他致力于理论和应用主题的结合,包括经验贝叶斯、生存分析、指数族、bootstrap、jackknife方法以及置信区间。他的大部分应用工作都来自斯坦福医学院(Stanford Medical School)的生物医学咨询项目,还有一些关于天文学和物理学的论文。甚至他的理论论文通常都是从具体的应用问题开始的。本文中的三位采访者都是他的紧密科研合作伙伴。
1938年5月,Brad出生在明尼苏达州圣保罗,他的父母是俄罗斯犹太移民Esther和迈Miles Efron。在获得一项奖学金之后,他来到了加州理工学院,并于1960年毕业于数学系。同年秋天,他来到斯坦福大学,在统计系Rupert Miller 和 Herb Solomon的指导下,获得了博士学位。统计系的教师还包括Charles Stein、Herman Chernoff、Manny Parzen、Lincoln Moses和Ingram Olkin。Brad自1960年以来一直住在斯坦福大学,并在哈佛大学、帝国理工学院和伯克利大学学术休假。他曾在斯坦福大学担任过多个行政职务:统计系主席、理学院副院长、大学顾问委员会主席和教师委员会主席。他目前是应用数学本科项目的主席。
Efron被授予很多荣誉,包括来自芝加哥、马德里和奥斯陆的博士学位,麦克阿瑟奖、美国科学院和美国艺术与科学院院士、国际数理统计学会(IMS)和美国统计学会(ASA)会士、威尔克斯奖章、帕尔森奖、新成立的Rao奖以及芝加哥ASA分会颁发的杰出统计学家奖。他曾担任Rietz、Wald和Fisher荣誉讲座人,还是斯坦福大学人文与科学学院荣誉教授(由Max H.Stein捐赠)。专业服务包括JASA期刊(Journal of the American Statistical Association)的理论与方法主编和IMS主席。2004年开始,他担任了ASA当选主席。[译者注:原文发表后,Efron教授荣获:美国国家科学奖章(2005),这是美国自然科学最高奖;英国皇家统计学会颁发的盖伊奖章金奖(2014);BBVA基金基础科学“知识前沿奖”(2016);国际统计奖(2019)]
本次访谈的部分内容摘自美国统计学会录制的访谈录像,由辉瑞研究中心赞助,2001年11月5日;其余的工作在斯坦福大学统计系完成。
早年
Tibshirani:让我们从头开始。你是如何和统计学相识的?
Efron:在明尼苏达州的圣保罗,我父亲是一名推销员和卡车司机,但他对数学有着极大的热爱。他还是保龄球和棒球的统计师,这对我的影响比我想象的要大。我和这些非常聪明的人一起去了加州理工学院,但几乎没有与统计相关的东西。我们除了Cy Derman的书以外没有别的统计的课程。我询问了一位导师Morgan Ward是否还有啥可以让我学习的,他给了我一本Cramér的书,我将这本书从头读到尾。我觉得它挺合我胃口。Cramér在第二次世界大战期间独立地写了这本书,我在加州理工学院独立地读了这本书。我决定从事统计学研究,因为我没有一个作为20世纪数学家的前途。在19世纪,我如果成为一个数学家是还可以的,但是我没有那种抽象的思维,而这种思维主导着现代数学。所以我最终进入了统计学领域。我去伯克利试了试,并跟两个很友善的人——Jerzy和Erich进行了一次非常愉快的面试。但不知何故,我最终来到了斯坦福大学。当我到那里时,我却发现我在数学系,因为我的导师之前告诉斯坦福,我可能打算成为一名数学家,所以我在数学系度过了第一年,然后转到了统计。
就在那时,Carl和我重逢了,他们第一次见面是在1957年左右,当时还是加州理工学院的新生。在科学界,没有人能独立工作,我有很多很棒的同事;你不能一个人在统计这样的领域工作。你必须得受点刺激——那种来自聪明人挑战。斯坦福系的一大优势是,它从不缺这种非常乐意并以愉快的方式挑战你的人!
Tibshirani:你真的被斯坦福大学开除了吗?
Efron:我来斯坦福的原因之一是因为它的幽默杂志。我一直想为一本幽默杂志写稿,我在加州理工学院就写过幽默专栏。斯坦福大学有一本很棒的幽默杂志“The Chaparral”。我在那里的头几个月,编辑疯了,不得不住院,然后我成了编辑。有一期我们模仿了花花公子,有点过火了。我就被学校开除了。如果不是因为在管理层中地位很高的AL Bowker、Halsey Royden和Herb Solomon说我是个好学生,我可能就被永远被开除了。所以我休学了6个月,然后回来了。那是我迄今为止最出名的一次。我的照片每天都在报纸上,因为我像个疯子一样抗争。
Morris:我记得Brad本科时是一个非常好的作家,但你当时所做的事情太平淡了,现在人们不会去想它。可能只是惹了当地的神职人员。
Efron:我曾在天主教堂的讲坛上受到谴责。
Morris:被逐出教会?
Efron:不,他们没权限那样做。但如果有的话,他们一定会。
Morris:我想你运用了那些写作天赋;这是你在统计学方面取得成功的一部分。你的表达能力能帮助人们更好地理解事务。
Tibshirani:说说你家庭的情况。我知道你有三个兄弟在学术界,而你的儿子正在进入学术界。
Efron:我父亲非常清楚地告诉我们,我们不适合从事繁重的体力工作。我的哥哥Arthur是一位退休的英语教授,著名的浪漫主义文学专家。他创办了自己的期刊《大腹便便》(Paunch),以Sancho Panza的名字命名,是关于浪漫文学的。我看过这个杂志,它交织于深奥的英语理论和淫词艳句之中。我的两个弟弟是双胞胎,他们一直很亲近。Don 被征召入伍,去了加拿大,在那里他是一个快乐的人。同事们都是精神病社会工作者。Don 经营着自己的家庭治疗杂志,而Ron 则成为了情绪低落方面的专家。他写了一本书叫《一直愤怒》(Angry All the Time)。我的儿子 Miles 是那种我们都喜欢的孩子,他是一名人文学科的学生,在过去几年里突然对统计学产生了兴趣。他现在在教堂山从事信息检索工作。有时他打电话给我,问我一些关于奇异值分解的难题。
Morris:在20世纪60年代,很多事情同时发生。有一件事是我当时无法做出职业选择,而统计学是一种做数学和其他一切科学的方法。今天我们的许多学生说,这是这个领域最吸引人的地方之一。它不仅是一种吸引力,实际上是一种必需品。大约在20世纪60年代,大多数系都成立了。统计学突然成为一门热门学科。至少在我们学习统计学的时候,统计学是非常抽象的。你有一部分是生物统计学,但你学了许多其他课程,这些课程几乎都是纯粹的数学。
我最终去了兰德咨询。我想我应该去兰德待一年,学习所有关于应用统计学的知识。我最终待了11年,在那里我度过了一生中最美好的时光。应用、数学和计算是统计学中的概念三角形;它们如何联系在一起是我们领域的核心。对这三个领域保持浓厚的兴趣至关重要。
Bootstrap的起源
Tibshirani:Brad,在我看来,你的工作越来越应用了。是不是可以说,你更有动力去解决真正的问题?
Efron:换句话说,我不再有好点子了。不知何故,这种情况发生在大约20年前。现在我只剩同事们和应用工作了。在统计学方面,无论男女,我们都有极好的机遇;我们是最后的绅士科学家,因为我们可以研究众多领域,并与困惑的聪明人交谈。这对我来说是进入一个话题的绝佳方式。有些人,更可敬的是,为了应用而做应用,但我一直对统计感兴趣。例如,Rob和我一直在一起研究微阵列(microarrays)。这非常刺激。但是我对微阵列生物学不太感兴趣。当然,作为一个业余爱好者,我很感兴趣。我真正感兴趣的是统计推断理论将如何从中产生。
Tibshirani:有一件事让我感到惊讶,那就是我们觉得统计学相对容易,但其他科学家却觉得它很难。我的一位优秀科学家同事说,我教他统计学比他教我生物学要难得多。当我看生物学时,它看起来非常令人生畏;这是一大堆看起来神秘的事实。但是统计学是一种思维方式,如果其他人没有在这个领域接受过早期训练,他们很难发展这种思维方式。所以,对我们来说,我们有独特的东西是个好事情。
Morris:你认为这很难,还是我们让它变得很难?
Tibshirani:这是事实,但我认为重要的简单概念并不像它们表面上看起来那么简单。
Morris:比如……?
Tibshirani:从一组数据推断p值的置换检验。
Morris:我就猜到你要说p值。看,我认为p值很难。如果只是把p值当作数字的话是很好理解的。但从某种意义上说,它非常令人困惑,因此人们经常误用它们。当然,p值说的给定原假设,你的数据是否能拒绝;但人们认为它说的是给定数据后接收原假设的概率。
Tibshirani:另一个例子是混淆因子(confounding)。许多非常优秀的科学家设计了糟糕的实验,在这些实验中,重要的影响与实验偏差混淆在一起。混淆因子是我们学科的基本问题,我们理解它并知道如何解决它。
Efron:我认为我的许多科学家同事都非常擅长概率论;他们可以轻松的进行涉及复杂模型的概率计算,但是他们非常不擅长从数据来逆向推断概率模型可能是什么。我记得第一年进入统计学专业时,我想“这很容易,我已经学过很难的数学了”。但是对我来说,一开始统计学就比任何领域都难。我花了几年时间才觉得舒服一些。很难弄清楚为什么要学我们做的这些事情,为什么使用p值,为什么是这样那样的。
你必须做一些应用问题,并对它有一些感觉。统计学是唯一进行统计推断的地方。我们真的提供了服务。这是一种逆向思维。你从具体情况出发思考,回到一般情况,而不是相反。根据哲学家的说法,这甚至可能是不可能的。但我们每天都在这么做。
Tibshirani:我在1981年来到斯坦福大学,就在你发明bootstrap的几年之后。讲讲它的想法,以及它是如何来的。
Efron:bootstrap恰好说明了拥有好同事的作用。Rupert Miller写了一篇论文“值得信赖的刀切法”(A Trustworthy Jackknife),尝试从理论上证明Jackknife的合理性。1972年,Rupert和我都在帝国理工学院休假,和David Cox在一起,Rupert做了一个关于Jackknife的演讲。David后来走到我跟前问我:“你真的认为这有什么意义吗?” 多年后,我意识到他给了我一个强烈的暗示,让我去做这个研究。1977年,我被要请去做Rietz讲座,我写下了一句话:Jacknife是在近似什么?当我写下这句话的时候,我实质上已经碰触到答案了。我从一个非常复杂的模型开始,我称之为数据组合的分布,因为我用组合代替排列。然后我开始意识到我可以去掉一些机械无意义的过程,然后进一步地摆脱了更多,再然后就没有任何冗余了。这看起来很无聊,但我做完演讲大家却都喜欢这个想法。打那以后,我不再认为我能对自己的工作做出正确的评价。
Tibshirani:它被统计年刊(Annals of Statistics)刊登了。受到了什么样的待遇?
Efron:Rupert Miller当时是Annals的主编。我提交了在Rietz讲座上的文章,但被拒绝了。匿名副主编说,这里面没有任何数学定理。所以,我在最后加入了一些定理,给Rupert施加了很大的压力,他才最终发表了这篇文章。早些时候,我是JASA的主编,这让我想起了我的一条规则。当一篇文章让人生气时,你应该更仔细地看看它。让人愤怒的论文有两种。一种是最差的,但另一种是好的。
之后,我还写了很多论文。如果你认为我提交的每一篇论文都能马上被接受,那你就错了。我有许多文章被拒了。我通常非常努力地修改。我努力重写并认真对待裁判,但我从不因审稿人不喜欢某样东西而气馁,因为有时候这是因为你可能有了新的想法。
Tibshirani:当我毕业后作报告时,我注意到bootstrap有一个奇怪的地方。和我们统计领域内的人交谈它非常困难;但当我与物理学家或化学家交谈时,他们会说“哦,是的,这是一个模拟,我们一直都在这样做。”但作为一种统计推断工具,它更难被接受,它涉及随机数生成,这令人不安。
Morris:我记得那是非常耗时的。我们花了300美元一小时来使用计算机,而之前的300美元现在可能是1000美元。计算机速度很慢,而进行这些计算可能需要几分钟到一个小时,所以这是一个真正的缺点。bootstrap恰好与个人计算时代相遇。我们现在都知道,计算并不是什么大不了的事,至少从成本上来说,它不是什么大不了的事,但从概念上来说,它仍然是一件大事。bootstrap是这样一个例子,你试着阅读文献,处理一些你知之甚少的事情,Jackknife,并想出一个与之相关的理论。这种方法,阅读别人的结果并把他们做得更好,可以非常成功。但总的来说,我认为这种方法比你刚说的过去20年来的做法要差:深入一个真正的问题,很快你就会看到一些从未解决过的问题。
Efron:我一贯就不爱阅读文献,但一旦我开始做某件事,我就想阅尽所有该领域的内容。我发现,当我在某个领域站稳脚跟,并且能够了解人们为什么要做某事,阅读起来就会容易得多。这是你写作时最难的事情:告诉别人你为什么要做这个事,而不是你在做什么。一旦他们明白你为什么这么做,他们很有可能会跟你共情。
Morris:在bootstrap的例子中,为什么你会从理论而不是数据出发去解决这个问题?
Efron:当我的同事们提出一个有趣问题的时候,这对我来说似乎很直观。很多文献都很枯燥,基本上是因为它没有出人意料的内容。你读它,一看开头你就非常清楚结尾是什么。偶尔你会看到一些令人惊讶的事情。我记得Benjamini Hochberg[1]关于错误发现率(false discovery rates)的结果真的让我吃惊。一旦我感到惊讶,我就会更加感兴趣地阅读。
Tibshirani:另一件让你与众不同的事情是你合作者寥寥。我们是少数几个和你一起写论文的人。你的工作方式倾向于个人主义。
Efron:个人主义是一个礼貌说法;Rob可能想说,我是个不好合作的人。首先,我什么都不懂,但当我懂的时候,我坚持用我的方式。我的注意力穿梭很快。统计学的奇妙之处之一是你可以研究许多不同的领域。对于一个注意力持续时间很短的人来说,这真是一个理想的领域,因为如果你厌倦了做活检数据,你可以转到天文学数据上去。我们这个领域的人不多。如果你画一幅数学图,会有一个非常密集的中心点,有一些小点从中心向外延伸。如果你画一张统计图,它会更加分散,在未知区域有更多的开放空间。
Morris:我知道bootstrap还做了一件事,那就是给了许多统计学家一个理由,让他们买一台电脑,这改变了一切。贝叶斯派落后了一段时间。当然,后来他们搞出了MCMC(GemanGeman[3]和Gelfand Smith[2]的文章),突然间人手都有了一台电脑。
贝叶斯和经验贝叶斯
Tibshirani:1981年,你问了一个问题:为什么并非每个人都是贝叶斯主义者?22年后,你认为贝叶斯学派在我们中的比例增加了吗?
Efron:是的,我认为人们对贝叶斯统计的兴趣在增长,特别是在英国。英国皇家统计学会(Royal Statistical Society)似乎每一期中都突出介绍贝叶斯。这是有充分理由的。其中一个很好的原因是,贝叶斯统计现在与20年前有所不同。它更现实,旨在实际解决问题,而不是抛出哲学观点,批评频率主义为何错了。例如,José Bernardo刚刚发了一封邮件,宣布召开一次关于贝叶斯统计实际应用的会议。当然,贝叶斯统计还发生了计算革命。
MCMC的Gibbs采样是一个非常令人印象深刻的应用。我相信经验贝叶斯理论是频率主义和贝叶斯理论之间的天然结合点,但这一理论并没有像我设想的那样蓬勃发展。MCMC贝叶斯理论有一个缺点,因为它会导致使用相当简单的先验,因为这些先验对MCMC很有效。与所有数学或计算的进步一样,人们选择阻力最小的道路。在某种意义上,这掩盖了贝叶斯统计的主要问题,即选择先验。经验贝叶斯的优点是,如果使用得当,它可以很好地解决在高维参数空间中选择先验的问题,这是贝叶斯统计和频率统计的本质区别。
Morris:你认为经验贝叶斯没有充分展现出来它的价值。
Efron:经验贝叶斯只有与Wilcoxon检验相比才算展现不充分,后者被使用了数十亿次。人们确实比以前更普遍地使用经验贝叶斯思想或分层建模,但它实际上还没有发展到应用统计圈。此外,我还考虑了这些方法可能带来的收益。在经验丰富的人手中,Wilcoxon检验和t检验相比,并没有多大收益。但是使用经验贝叶斯在实践中获得的收益甚至会统计学家感到惊讶。你可以很容易地节省75%或50%的风险。那为什么不多用呢?原因是我们对这个理论以及它的应用不太自信。方差分析非常有用,它适用于许多情况。它如此有用的部分原因是因为Fisher告诉科学家们,统计学家可以很好地处理方差分析,所以这些研究人员在设计实验时会一直留意着方差分析。如果我们善于分析经验贝叶斯的情况,并对其在理论和应用上都充满信心,那么我认为实验者就会在设计实验时,使用经验贝叶斯所需要的那种并行结构。微阵列就是一个有用的并行结构的好例子。
Holmes:在做经验贝叶斯时,不是存在连贯性(coherence)问题吗?是什么促使混合范式,采取贝叶斯观点,然后像频率学家一样使用数据?
Efron:连贯性问题是贝叶斯对最优性的回应。频率主义者通常会谈论最优性。而贝叶斯主义者则反驳说频率主义理论往往是不连贯的,因为它没有以符合逻辑的方式结合来自不同情况的信息。这是一个非常好的批评,尤其是当你必须结合一些信息的时候。贝叶斯方法还有其他吸引人的地方。它在建模时比频率主义更积极乐观。频率主义倾向于保守,试图避免做出错误概率很高的陈述。贝叶斯统计有很多我喜欢的地方。我不喜欢的是拍脑袋选择一个先验然后分析一下数据就说答案在这里。这是非常危险的,尤其是在高维问题中。
贝叶斯理论令人印象深刻,当你有一个很好的想法,先验至少是无害的。在一些复杂的情况,频率主义会迷失,比如多重比较;这时贝叶斯方法却开始展示出有趣的东西。
Tibshirani:我认为另一个重要的事实是,人们倾向于使用能帮他们解决之前解决不了的问题的工具。稳健统计在20世纪60年代非常庞大,但我们现在用了多少?在我们已经有结果的情况下,稳健的统计学可以提供更高质量的结果。bootstrap给出了一个以前没有答案的答案。这就是人们将要使用的工具,方差分析就是一个很好的例子。这是一个基本工具,能让我们科学地回答重要的问题。
Efron:bootstrap易于使用而且灵活。随着时间的推移,它变得越来越容易用。很难使用的是像“一致最小方差无偏”这样的理论,你必须为每个新的案例想一个新技巧才能应用它。而像最大似然估计这样的想法,一种算法包打天下。所以也许我想说的是经验贝叶斯需要自动化。
Tibshirani:我认为Brad的观点是,一种方法只有达到半自动化,才能普及。如果每次都需要统计学博士才能应用它,那么我们周围就没有足够的人来使它成为一种流行的工具。
Morris:比如说,不管好坏,现在很多不同的软件包都包含了压缩模型的方法。在你看来,这已经足够了吗?
Efron:当你使用贝叶斯或经验贝叶斯估计时,你不会像经典理论中那样保证每个θ的都有无偏的估计方法。在最大似然估计中,每个参数都是以一种近乎无偏的方式估计的。如果你使用经验贝叶斯估计,一切都被拉向中心隆起的地方。你必须咬紧牙关,相信这样一个事实,即使任何一个估计都可能是错误的,但总的来说,你得到了很大的改善。这就是我们必须让人们,包括我们自己相信的。
Morris:事实上,我相信他们都在进步,不是在频率学家的意义上,而是在你可以获得的信息的基础上,他们中的每一个都更有可能得到进步。当然,稍后如果你告诉我真正的值,我会发现有些比其他的更好。
Efron:但你应该知道,例如,通常一个较大的参数值会有80%的几率被低估。
Morris:我一点也不这么认为。如果你把模型的两个层次都设计对了,在你把数据放进去之后,你会做得更好。其诀窍是你需要了解模型的第二个层次,这里面涉及参数的可交换性,或者更复杂的东西。
Efron:所以,正如我们所写的,你必须相信所有参数之间的关系。你正在测试青霉素、氨苄西林和其他10种抗生素,你对每种抗生素都有一个估计,你必须相信所有的数据都包含一定的关于青霉素的信息和知识,而不仅仅是青霉素数据。
Morris:你必须先验地决定是否愿意合并估计;数据应该决定你是否可以做很多收缩 (shrinkage)。例如,在查看有关医院的数据时,我倾向于合并并压缩正在进行一系列类似程序的弗吉尼亚州医院的数据,大约有160个。我相信其中的信息与其他信息有一定的相关性。我不知道有多少,但数据可以帮我决定。
Efron:但是如果你带着最好的分数去医院,告诉他们你正在缩小他们的数据,因为你非常确定其中一些数据是幸运儿,他们可能不会同意你。
Morris:他们不会喜欢的。但我是对的,很多时候……在第一门课程中教授这些想法也是非常困难的,很多用户只上过第一门课程。
Efron:嗯,我认为重要的一点是,20世纪的统计学主要教会我们如何独立对待每一个参数,基本上是试图无偏地估计它,或者用无偏的估计来检验它。21世纪可能不得不扭转这种局面。你必须接受再也没有无偏的保障。
Tibshirani:你之前也说过,科学家问我们的问题是我们教他们去问的。例如,他们要求我们进行t检验,因为他们认为我们可以这样做。有时候我认为这就是他们认为我们能做的。随着他们学习更多关于统计科学的知识,如果我们能在经验贝叶斯中很好地处理并行问题,那么我们会更经常地被问到这个问题。
Morris:所以,我们可能会尝试用不同的方式来教授我们的初级课程。例如,如果我们教那些永远不会成为统计学家的人,我们应该教他们统计学能做什么。出现什么问题,他们什么时候应该聘请统计学家。他们可能也更喜欢我们的课程,因为他们会看到他们需要知道的东西,而不仅仅是受一个学期的折磨。
Efron:现在,我们的教学内容历史悠远。我们从20世纪初开始使用常规的理论方法,然后发展到更复杂的参数方法。也许到了第三部分,你才会用到非参数方法。假设时光倒流,计算机在数学出现之前就已经存在,那我们可能会从非参数开始,非参数基本上更简单,更容易解释。然后我们将进入非常困难的东西,t检验,再后来正态理论。
Morris:我们现在所做的就像是从解释T型发动机的工作原理开始教人开车。但大家只想学开车。
Fisher和其他影响
Tibshirani:你谈了很多关于Fisher的事,他是你的智慧英雄之一。在过去的50年里,还有谁对你有影响?
Efron:Fisher应该是每个人的英雄,因为我们非常幸运,在我们的领域有这样高超的思想力。我非常钦佩Neyman、Hotelling和Rupert Miller的思想和工作,但难以界定是否是英雄。如果说看谁对我的工作影响最大,并以此标准来评判英雄,那就是:Charles Stein,我也非常钦佩他,还有Herb Robbins。
Tibshirani:David Cox呢?
Efron:非常好,但我和他没有亲密接触。作为一个清晰地思考统计推断的典范,我不认为谁能比Cox做得更好,Cox体现了Fisher的传统。现在很难看出Fisher主义是如何发展的;在这个水平上看不到另一个Cox。我希望它不会消失,因为这是一个非常好的传统,很好地适应了做实际统计推断的社区。
Morris:这真是一个惊人的声明。我没听你说我们不会再有David Cox了。
Efron:我不确定;我离这个时间太近了,不能特别肯定。Fisher传统主要来自英格兰。这是一种很好的统计方法,它既不是频率学派,也不是贝叶斯学派。它有妥协和“给予”(given)的精神,也有很多算法的智慧,即使在它的英国本土,我也不认为这种智慧还在。
Morris:嗯,我们把他们都雇到美国去了。
Efron:对Fisher学派思维,美国并不是一个非常友好的地方。这是频率学派的保护区,在这之外,还有一种哲学上无神论的认可——属于机器学习的范畴。人们忘记了Tukey和Mosteller一起写了一本书,著名的绿皮书,书中没有概率,更不用说任何推断理论了。
Morris:在我看来,如果不深入到真正的问题,即使强如Fisher复活过来,也决不可能成为Fisher。他是一位伟大的遗传学家,但他也从事农业工作,并开发了实验设计。我认为现在有人这样做,但我担心理论方面的损失。
Tibshirani:我担心模型的消减。Tukey在20世纪60年代真正做的是,他说我们不再需要模型了。我认为他用探索性数据分析把钟摆摆得太远了。现在类似的事情正在机器学习中发生,人们表现得好像我们只需要这些准确的快速算法,不再需要模型。我相信要理解一个算法是如何工作的,你需要知道它适合什么模型。我认为这是一个非常肥沃的领域;我相信我们领域的核心是建模。
模型与计算
Morris:更深层次的科学可能在模型本身。即使它是错误的,也有人可能在明年用它来得到更好的东西。
Efron:模型的概念与最优性的概念紧密相连。除非你有一个模型,否则你不能真正谈论最优性。虽然机器学习的人现在对最优性不太感兴趣,但从长远来看,除非你找回它的理论,否则就没有科学。我也希望模型回来。它们很容易受到批评,因为人们做得泛滥成灾了。
Morris:Rob,我听说你在为模型辩护,但我认为你比我更非参,而你却对失去模型感到遗憾?
Tibshirani:模型可以更具冒险性,它们不必是简单的线性模型。你应该时刻记住一个模型,这样你就知道在给定的环境下你能做的最好的事情是什么。因为要知道一种方法何时失败,你必须知道什么是理想的方法。然后你可以进一步说,“这是一个行不通的情况。” 为了理解原理和性质,我相信你需要模型。
Morris:我认为模型通常是过于简单化的,希望不会太简单。
Efron:概率本身就是一个极大的简化。有很多无法解释、嘈杂的事情发生。概率的概念极大地简化了噪声,然后概率模型进一步简化了事情。
让我们的小脑袋在一个复杂的世界里转来转去,更不用说能够操纵它并从中预测了,这是一项艰巨的任务,你需要所有你能得到的帮助。现在,你有高效的计算机,可以做任何你想要的计算,这无疑是一个很大的帮助。
我曾经给美国数学学会做过一次演讲。我注意到的第一件事是每个人都非常之老(那时我还不老)。我一开始问,如果有人发明了速度无限快的计算机,数学会发生什么?然后,你可以把它带回家,从盒子里拿出来,到中午你就可以解决黎曼假设或哥德巴赫猜想。我问,“这会是数学的终结吗?”然后当他们看起来很担心的时候,我回答了我自己的问题,“不,这不会是数学的终结,人们会开始使用机器来回答更难的问题。”类似的事情在统计中发生过。我们可以回答过去的一大堆老大难问题;这是否意味着我们的领域是历史?不,我们刚开始问更现实的问题。事实上,现在有了更多的统计学家,统计学已经成为一个更重要的科学领域。
Tibshirani:说到变老,很多统计学家,当他们60岁或65岁时,开始研究哲学。他们找到了一个关于一切的大统一理论,但你没有做这一点。你似乎仍然在研究较小问题,但的确是真正的应用问题。这是一个有特意的决定吗?
Efron:我通常不会考虑这些事情,但当我真到了六十花甲之年。我开始想,“一直以来,我的计划就是没有计划;我就做任何有趣的事情,任何看起来有趣的同事,任何看起来有趣的论文 。也许我真的应该集中精力做一件大事。”但是我想了想,我发现我不可能听从这个建议。我们不可能坐下来做一件“大事”,至少我不能。所以,我又回去做了很多小事情,希望其中一些事情会好起来。统计学是一个非常宽容的领域,你不必是世界上最聪明的人,也不必日夜工作;你所要做的就是想出一个主意并坚持下去。就像我说的,这个领域的大部分都不那么卷。所以我一直在解决一些小问题。
统计与科学
Tibshirani:我发现的一个挑战是,从某种意义上说,我们是一个有趣的领域,很多其他非统计学家的人都做统计。我们不做化学或生物;我们不会进入实验室,开始填充试管。如果你有一台电脑,就能做统计了。所以,从某种意义上说,这是一个挑战,很多人认为他们能做好,但事实并非如此。我们不仅要做好统计工作,还要向其他科学传播做事的正确方法。
Morris:所以,如果统计要生存下去,就必须从根本上讲是跨学科的。
我想确保我们节省一些时间来讨论另一个你有真正观点的话题。据我所知,你俩在斯坦福大学担任过一些行政职务,这让你们对统计的作用有了更多的认识。斯坦福大学真是太棒了;你们有一个非常强的系和非常强的大学,有跨学科的任命。我们为何要保留统计系?我相信统计系会继续存在;我们能做些什么来保持统计系各个部门的健康和该领域的强大?
Efron:我做过一段时间的副院长,我的一个同事把这描述为一只老鼠训练成一只耗子。我是理学院副院长。这真的是一段非常有趣的经历。做这些事情并不容易,但是统计学家在院长办公室有相当大的优势,因为我们处理许多不同领域的问题,而大多数其他学者只处理他们自己领域的。统计学家非常擅长比较事物,这是院长经常做的事情。有时候你不能说A或B是好的,但是你可以说A是否比B好。我花了很多时间和其他科学家交谈。它们很棒,但我最终觉得统计学是一个非常幸运的领域。首先,我们比较小,在媒体上没有过度炒作;我们没有筹集资金的巨大压力。生物学家和化学家承受着很大的压力来维持大实验室的运转,因为这是你做此类科学的唯一方法。对我们来说,你可以很便宜地买一台计算机,如果你想按照传统方式工作,你甚至不需要买。统计学家们彼此很友好。有些领域竞争非常激烈。因为统计学没有大奖或大量宣传,人们彼此友善。我们常常争论不休,但基本上我们喜欢其他统计学家,我们会表扬彼此的工作,即使不是在期刊上,至少也会在心里表扬。我很高兴地回到统计系,希望我们的小部门能继续做得很好。正如我们之前所说,统计系是世界上唯一严肃地研究推断的地方。如果统计系没了,人们将能够继续做我们已经做过的一些事情,但在另一个Fisher出现之前,不会有任何新的推断思想。你说过Fisher不是纯统计学家;但在Fisher之前,几乎没人能成为统计学家。
Tibshirani:你对我们统计领域乐观吗?
Efron:是的,我不是那种对一切都乐观的人。如果你看看20世纪的统计学,这是一条稳步上升的曲线。我们很容易低估我们的影响有多大,但是没有其他领域像统计这样取代了其他几十个领域作为做科学的主要方式。
统计学是一个20世纪的现象;它的现代历史几乎完全始于1901年的Pearson和Biometrika。起初,几乎没有任何统计学家,后来越来越多的领域开始使用统计学作为交流手段。现在医学的做法是:你进行过临床试验吗?是随机的吗?它是双盲的吗?你的显著性水平是多少?这与病史方法相比是一个巨大的进步,病史方法是他们过去进行医学实验的方法:“我看到一个病人,我给他硝化甘油,他感觉好多了。”一个又一个领域都已经开始依赖统计方法。当然,它特别适合于数据有随机性的领域。你问一个人他是支持民主党还是共和党,这无关紧要。但是如果你问一千人,你会得到一个有用的民意测验。硬科学是最抵制统计的,因为他们不需要统计。他们的信息以硬单位提供。你进行了测量,并且确信爱因斯坦的理论比牛顿理论更能预测光的移动。
Morris:嗯,是的,我们搞应用的方式不同于数学。数学过去常说,“这适用于物理等领域。”我希望我们继续重视所有这些不同的联系,并重视能够建立这些联系的人。
Efron:根据斯坦福大学的经验,我一直认为可能会发生一件事;我们习惯于有生物统计系和统计系。也许会有天文统计系或地质统计系涌现出来。这些领域开始更多地使用统计学。在物理学中,之前的任何实验都需要个粒子,没有人需要统计学。但当你开始观察10或100种新粒子时,推断效率突然变得很重要。事实上,明年秋天将在斯坦福直线加速器中心举行物理和统计学会议。
Tibshirani:另一个例子是DNA微阵列。在许多遗传领域,不需要统计学家来告诉你这有巨大的影响。但是如果你在寻找6000种可能的影响,你需要统计帮助来从噪音中找到信号。
Morris:总结几点,我认为如果没有统计系,世界将会倒退。统计系是我们联系和沟通的方式,与其他领域有着跨学科的联系。这也很有趣。我想我们会找到喜欢这样做的人,而不是每个人都必须这样做。但是,统计系可以促进将良好的统计方法注入许多领域。我们必须认真对待它;我们必须让员工、教师和学生都愿意这样做。如果我们孤立自己,试图为彼此炫耀,而不是为其他任何人炫耀,我们将破坏跨学科的联系。
未来方向
Efron:在学术界、工业界和政府界,尤其是学术界,思想是这个领域的硬通货。我们真正要做的是不断想出好主意。我们的历史表现相当好;每隔几年,就会有一个真正有用的想法从统计中产生。如果我们保持这种状态,就不会担心统计系的未来。
Holmes:你刚刚成为美国统计学会的当选主席。你有没有什么特别的方向,希望看到统计学家作为一个群体去做?
Efron:美国统计学会的人问了我这个问题。主席为联合统计会议设定主题是一个很好的传统。经过一番反思,我选择的主题是“统计学作为一门统一的学科”。当然,没有人会担心“物理学作为一门统一的学科”或“天文学作为一门统一的学科”,但它们有着千年悠久的传统和明确定义的主题。统计学几乎是一个一两个世纪的领域,其主题是“推断”,而这在自然科学中根本不存在。统计中存在着巨大的离心力,因为我们在这么多战线上工作,而我们中的人并不多。很容易想象这个领域会分裂成数理统计学家、制药公司统计学家、生存分析师、抽样调查专家等等。
在我为美国统计学会所做的竞选宣传中,我半开玩笑地谈到了“另请高明”。当他们要求我竞选主席时,我感到受宠若惊,也许是因为西海岸的学术统计学家并不是美国统计学会的重要组成部分,而是被国际数理统计学会(IMS)吸引。我很高兴我们有不止一个统计机构,但美国统计学会是我们的呵护伞。我希望伯克利、斯坦福、芝加哥和西雅图等部门的人能感觉到他们与默克、辉瑞、能源部、保诚等公司的统计学家处于同一个领域。
我很高兴我们有许多统计学家从事的不同领域。这为我们拓宽了边界,与其他科学家站在一起。统计有一个伟大的记录,从其他领域的人获得重要的想法。甚至Fisher可能就是一个例子,Wilcoxon肯定是。诀窍是保持一个强大的领域中心,同时对外界的问题和想法保持开放。回到美国统计学会,它有着巨大和传统的优势。在美国统计学会办公室的墙上,是写于1839年的一次会议的漂亮的手写会议记录。(他们似乎担心会有更多的成员。)他们还有JASA,这是一本精彩的杂志,吸引了大量的贡献,还有联合统计会议(JSM),吸引了大量的参会者。
建议和关切
Holmes:当你谈到来到我们这里的学生时,你认为对一个来统计系的学生来说,最好的训练是什么?
Efron:怎样才能在统计学方面取得好成绩?你必须精通一些数学;你必须真正热爱数据,否则你就无法忍受我们要经历的数据麻烦。没有多少数学家喜欢数据。他们倾向于回避它们。如果你看一本数学杂志,数据很少。一些科学知识当然会有帮助,因为科学推断是我们的主题。人们可以来自不同的背景。传统的数学背景本身并不是最佳的。我们花了大量时间重新训练那些数学背景更丰富的学生,使他们变得不那么公理化和不那么追求精确;相反,用更适合统计推断的精神来看待问题。你必须为你的问题找到合适的准确度。
Tibshirani:今天我们需要编程能力更强的学生。
Efron:这当然很有帮助,因为这是我们的主要设备。你不会想要一个不知道如何使用移液管的生物系学生。我喜欢现在我们有一些物理或生物专业的学生。他们对统计有很多贡献。也许他们以不同的方式处理问题。数学训练的一个问题是,它不太适合一般科学目的。你必须对科学和科学家有一些感觉。天文学家有恒星,地质学家有岩石,我们有科学,这是统计学家工作的原材料。刚开始数据分析可能非常困难。这里有大量的数据。我先做什么?有时做一点统计也会有帮助。我现在和生物科学家们一起工作,就像这个房间里的每个人一样。你知道他们有一种处理复杂问题的方法,这不是真正的纯数学。优秀的统计学家帮助他们以逻辑清晰的方式思考问题。
Holmes:有时科学家们指责我们试图给他们一个正确的答案,而他们想要一个简单的答案。他们会为更大程度的近似做好准备。
Efron:我们认为正确的东西,他们认为令人困惑。有时他们是正确的,这令人困惑。我记得作为一名顾问,我真正的失败之处在于一位优秀的女科学家给我带来了一个包含许多因素的大型二项式实验。我用逻辑回归仔细解释了这一切。她根本不把logits作为答案,最后把我的东西扔掉,公布了简单的百分比,对她的观众来说,这可能是对的。对她来说,这是对的。我一直希望我能多尝试交流。我可以很容易地用百分比来重申我的结果;我想这就足够了。从那以后,我一直小心翼翼地尝试用合理的语言给我的客户或合作者写通信,或者至少合理地喜欢他们习惯的想法。并不是说我总是能做到这一点。有时它涉及到我不了解的科学。
这就引出了一个有趣的问题:如果统计学家要和他人合作,应该了解多少科学知识?对此有不同的答案。“你知道的越多越好”的答案不一定正确。因为如果你知道的太多,你就会接近它,你会开始认为你是科学家。有些人真的很擅长快速自学了解一门学科。但是,如果你必须成为一名生物学家来帮助生物学家进行统计,那么就没有统计学了,只有擅长数字的生物学家。我强烈地感觉到统计推断的本质是跨领域的。这就是我们训练的内容。但是,我们当然也赞赏统计学家们在特定领域问题上能提供帮助,或许还很有见地,这将会是统计学家去合作的不同模式。
Holmes:如果你不知道科学的语言,你基本上就无法回答他们的问题。
Efron:语言当然很重要,例如,至少知道重要事物的名称。Vahe Petrosian非常擅长告诉我足够多的复杂天文学思想,这些思想涉及复杂的相对论变换。嗯,我不可能真正理解深奥的物理学,但至少他可以给我展示函数的形式,然后我可以和他谈谈。现在生物学的内容非常复杂;这是一辈子的工作。但是我们可以知道的足够多,这样我们就可以提供帮助。我们是否正确地训练学生?我不知道。我们不会告诉他们去生物实验室工作一年或类似的事情。也许我们应该,但不知何故我不认为那是最好的。让他们在这里学习统计学更有效,至少要知道与各个领域的科学家交流需要什么。然后,如果他们出去找一份工作,在未来20年里,他们将帮助微生物学家,对他们来说,学到比我更多的微生物学知识是非常明智的。但我认为我们的工作不是教微生物学。
Tibshirani:也许我们的入学数学标准太高了,所以排除了很多可能是优秀统计学家但不会做数理统计的学生。
Efron:斯坦福大学对此很担心。我怀疑很多大学都是这样。统计理论是用数学方式表述的,这是事实。我刚刚在研究1956年Herb Robbins的一篇论文,我看到过去的传统是多么的不同。首先是对sigma域、损失函数、风险函数、决策规则等的一系列数学定义,然后才是他真正写的有趣的东西。红杉大厅过去所有的演讲都是这样开始的。与1960年相比,我们现在不再是一个数学领域了。
但这不是一件可怕的事情。在20世纪60年代,我们仍然试图从Fisher、Neyman、Wald和其他巨人建立的美丽的推断理论中获得更多的结果。大多数问题涉及一个、两个或几个参数。统计推断非常挑战人类的心智,非常困难。这并不是说我们有了更好的统计学,事实上,在统计推断上进展甚微。发生的事情是,我们在解决方案的构成上放松了很多,这让我们能够解决科学家希望我们解决的更大的问题。就在几个小时之前,我正在研究一个有444个主要影响的基因组学问题,按照目前的标准,这是一个相当小的问题。在这里,公理化决策理论解决方案的希望不大,至少不在我手中,但有了一台好的计算机和一些现代统计工具,如广义线性模型、交叉验证、bootstrap、Splus、统计图表、平滑法等等,我们真的可以在这方面有所作为。事实上,这个分析让我意识到我以前做的一些微阵列工作中的一个推论缺陷。也许我们所做的所有这些方法论工作都是为了推动推断理论的新一轮进展。我们很容易相信,我们所看到的计算能力增加了1000万倍,这将使统计学能更深入、更庞大。
参考文献
[1] BENJAMINI, Y. and HOCHBERG, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. J. Roy. Statist. Soc. Ser. B 57 289-300.
[2] GELFAND, A. and SMITH, A. F. M. (1990). Sampling-based approaches to calculating marginal densities. J. Amer. Statist. Assoc. 85 398-409 .
[3] GEMAN, S. and GEMAN, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence 6 721-741.
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
编辑|李萧纹