贝叶斯学派与频率学派,统计学领域的两大学派:究竟谁正确?
统计学作为一门重要的学科,涉及到对数据进行分析、推断和预测。而在统计学领域,存在着两大主流学派——频率学派和贝叶斯学派。这两个学派采用不同的理论基础和方法论,对未知参数的推断和估计有截然不同的观点。
对于频率派与贝叶斯派(其中又包含客观贝叶斯和主观贝叶斯派)的是非对错目前还没有定论。但是这无疑是重要的思想和理论问题。甚至可以说,这个问题理解好了,就可以更好地看待唯物与唯心,甚至科技与人文之间的关系。
《概率论沉思录》的译者就翻译本书所得辨析了二者的区别,对读者有很大的启发。
波利亚的合情推理
本书的三大思想来源是波利亚的合情推理、考克斯定理以及杰弗里斯概率论.波利亚对于合情推理模式的描述体现在其 1954 年出版的《数学与猜想:合情推理模式》(Mathematics and Plausible Reasoning: Patterns of Plausible Inferences)一书中.
该书对于类比和归纳推理的定性规则有更多的举例和说明.但是作者在试图将定性形式转化为定量形式、使用概率论来定量描述归纳推理逻辑时,认为遇到了不可克服的困难:作者试图估计牛顿定理可靠的概率,但是在正确预测了一些罕见的事实后,作者认为其可靠性应该至少提高上万倍!这样,在未做预测时,牛顿定理可靠的概率就不能超过万分之一.作者认为这是不可接受的,因此不可能发展出定量理论.
杰恩斯在本书中对于产生该困难的原因进行了解释:作者是在做模型比较,而在做这种比较时明确指明备择模型是至关重要的,作者实际上计算的是几率而非概率.
在贝叶斯理论中,谈论一个模型或假设成立的绝对概率是没有意义的,只有条件概率,而没有无条件的概率.将这个疑难解决之后,波利亚的合情推理定性理论就可以向定量的概率论发展.值得说明的是,传统哲学认为推理主要分为演绎推理与归纳推理,这里的归纳推理严格来说应该改为合情推理才合适.
归纳推理和类比推理在数学发现中都起着很大作用,但是这两种推理都只是合情推理的特殊情况.归纳推理是一种从个别到一般的推理,这种“个别”一般有多个不同实例,但是合情推理却可以从单一实例中根据合情性推断很多事实:比如考古学家从考古挖掘发现的某个朝代的一件文物通过合情推理对这一朝代诸多原来尚不确定的问题的答案做出推断.
杰弗里斯概率论
杰弗里斯是著名地球物理学家,在地球物理学和地震学等方面都做出了突出贡献.同时,他也以作为学术权威顽固地攻击魏格纳的大陆漂移(板块构造)假说而著名.不过,这也不能掩盖他在统计推断和概率论方面的突出贡献.他在 20 世纪 30 年代写的《科学推断》和《概率论》至今还在发挥着影响.他的一位同事曾经感慨:“我写过五本书,但是没有一本还在印刷.杰弗里斯的书(指其《概率论》)则在出版 80 年之后还在重印.”
杰弗里斯在《概率论》前言中指出,该书旨在发展一种根据观测数据进行推断的自洽且实用的方法,实际上是将概率论作为归纳推理的形式法则来建构整个理论.他首先提出了建立该理论的一些指导规则.
(1) 所有假设都必须明确表述,结论必须从假设中得出.
(2) 理论必须是自洽的,也就是说,从假设和任何一组观测数据中都不能得出矛盾的结论.
(3) 给出的任何规则都必须适用于实践.除非被定义的事物在出现时能根据定义被识别出来,否则定义就是无用的.某个事物的存在或某个量的估计不应涉及不可能实施的实验.
(4) 理论必须明确说明它所做的推论有可能是错误的.定律可能包含可调整的参数,这些参数可能被错误地估计,或者定律本身可能在事后被发现需要修改.事实上,为了考虑新的信息(相对论和量子论就是明显的例子),科学定律经常需要修改,因此没有确凿的理由认为目前的任何定律都是最终的.但是,我们确实在同样的意义上接受归纳推理:我们有一定的信心,相信它在任何特定情况下都是正确的,尽管这种信心并没有逻辑上的确定性.
(5) 理论不得先验地否定任何经验命题:任何精确表述的经验命题都必须在给定适量相关证据的条件下,能够在上一条规则的意义上正式予以接受.
(6) 公设的数量应当尽量减少.
(7) 虽然我们不认为人类大脑是完美的推理器,但是必须承认它是有用且一可用的推理器.理论不必详细体现实际的思维过程,但应与之大体一致.
(8) 鉴于归纳法的复杂性较大,我们不能指望它可以比演绎法发展得更详尽.
因此,如果对这里所发展的理论的类似反对意见会使普遍接受的纯数学的一部分失效,我们将认为这种反对意见没有分量.
根据以上规则,杰弗里斯指出:“这些规则排除了任何用无限可能性的观察集合来定义概率的尝试,因为我们实际上不可能进行无限次的观察.根据规则 (3),维恩概率极限、费希尔的无限总体假设、吉布斯的无限集合对我们来说都是无用的.”
在这八条指导规则的基础上,杰弗里斯提出以下三条约定和七条公理,并由此推演出所有概率论定理.
约定 1 我们将给定数据中较大的数值分配给可能性较大的命题(因此,将相等的数值分配给可能性相等的命题).
约定 2 如果给定 p,q 和 q′ 是相斥的,那么根据数据 p 分配给“q 或 q′”的数值就是分配给 q 和 q′ 的数值之和.
约定 3 如果 p 蕴涵 q,则 P(q|p) = 1.
公理 1(概率可比较性公理).给定 p,q 比 r 的可能性大、相等或小的这三个选项中不可能有两个为真.
公理 2(概率可传递性公理).如果 p, q, r, s 是四个命题,给定 p,q 的可能性大于 r,且 r 的可能性大于 s,那么给定 p,q 的可能性大于 s.
公理 3(与演绎逻辑相容性).从命题 p 推导出的所有命题在数据 p 上的概率相等,与命题 p 不一致的所有命题在数据 p 上的概率相等.
公理 4(加法公理).如果给定 p,q 和 q′ 不同时为真,r 和 r′ 不同时为真,q 和 r 的可能性相同,q′ 和 r′ 的可能性相同,那么给定p,“q 或 q′”和“r 或 r′”的可能性相同.
公理 5(与实数对应性公理).按“更有可能”关系排序的给定数据的概率的集合,可以按递增顺序与一个实数的集合一一对应.
公理 6(蕴涵推理公理).如果 pq 蕴涵 r,那么 P(qr|p) = P(q|p).
公理 7(乘法公理).对于任何命题 p, q, r,有 P(qr|p) = P(q|p)P(r|qp)/P(q|qp).
考虑到篇幅,这里只列出杰弗里斯概率论的基本框架,尽管其公理体系看似比柯尔莫哥洛夫体系复杂得多,但是可以看出他从一开始就将自己的理论与根据数据进行科学推断以及现实应用联系起来.强烈建议想深入理解贝叶斯概率和统计理论的读者阅读杰弗里斯的《概率论》全书.
频率派、客观贝叶斯派、主观贝叶斯派,究竟谁正确?
到目前为止,我们看到至少有三种针对概率的观点:传统频率派,以本书作者杰恩斯为代表的客观贝叶斯派,以及以德菲内蒂为代表的主观贝叶斯派.这里将概率的古典定义和统计定义都归到频率派里,因为两者都是用两个数的比值(频率)来定义概率的.贝叶斯派其实还包含经验贝叶斯派等,这里姑且不论.有一个基本的问题:如果将概率论视为数学或者科学理论,那么究竟哪一种观点才是正确的呢?
这个问题的争论在最近的差不多一百年间持续进行,有些人甚至认为事关“唯心”与“唯物”之争.比较典型的是曾经影响一代人的莫斯科大学教授格涅坚科在《概率论教程》(丁寿田译,1956 年人民教育出版社第 1 版)中所持的观点.
在该书第 1 章第 2 节(对概率定义的种种见解)中,他对“把数学概率当作认识主体的‘信念程度’”这一“主观唯心论”定义进行了严厉的批评,并且认为作为对个体事件的信念程度的“概率”没有意义,因此绝不加以研究.不过值得一提的是,这本书在 1998 年出版了英文第 6 版,虽然格涅坚科在其中仍然不认同主观概率定义,但是意识形态意味已经大大减少.总之,频率派对于贝叶斯主义的主要批评是其作为信念度的概率缺乏基本的“科学客观性”.
再来说说主观贝叶斯派和客观贝叶斯派的区别.两者都将概率看作个人的“信念度”(degree of belief),但是更确切地说,客观贝叶斯主义认为概率是个人的“合理信念度”(degree of reasonable belief).
何谓“合理”?就是确定其值的过程要满足本书第 1 章提到的用实数表示、与常识定性对应以及一致性这三大合情条件,最终其推理规则满足概率论的基本加法规则和乘法规则.
所以本书设计了一个理想的“合情推理机器人”来做这种合情推理,这种机器人在给定先验信息和数据的情况下做出的概率推断是唯一的.只要给定同样的先验信息和数据,我们每个人都应该做出与这个合情推理机器人同样的概率推断,所以这种推断过程是完全“客观的”,没有任何主观成分.
同时,客观贝叶斯派认为先验概率分布也不是纯个人的选择,而是完全由证据确定的.事实上,客观贝叶斯主义认为将先验信息唯一地转化为先验概率分布的问题是概率论的重要问题之一.本书作者认为该问题还没有被完全解决,本书中探讨的最大熵、变换群等方法都是重要的工具.
而主观贝叶斯派认为先验概率在很大程度上取决于个人,也允许有不同.这样,在给定新数据后,每个人得到的后验概率也会有不同,不同的人得到的概率必然是不可比较的.
杰恩斯对于德菲内蒂主观贝叶斯派的第一个批评(见附录 A.2)就是这种纯主观性——这似乎不是在做科学研究,而是属于心理学的研究范围.另外,德菲内蒂的主观贝叶斯理论将概率论建立在需要满足“连贯性”(coherence)的基础上,而杰恩斯认为概率推理要满足考克斯意义上的“一致性”(consistency)才是最为重要的.
虽然有可能进行连贯但是不一致的推理,但满足一致性的推理则一定会满足连贯性.由于概率估计的唯一性,客观贝叶斯方法估计的概率一般需要做校准(calibration)工作,因为估计的概率最终还是需要或者说可以用数据来验证的.
比如上面提到的计算广告学中典型的点击概率预估问题,模型直接给出的概率预估结果未必满足校准性的要求,一般需要进一步的概率校准工作才是真正客观贝叶斯意义上的概率.
那么,这三种观点究竟哪种正确?也许还需要再等几十年,大家才会对该问题的答案形成基本共识.我在这里也只能简单谈谈自己目前对这一问题的思考和体悟.贝叶斯派经过与频率派的百年抗争才争取到现在至少半壁江山的地位,还是能说明其强大生命力的.
或然事件与不确定性在人类生活中普遍存在.类似“某件事发生的可能性有多大”的问题在人类思想中是自然且很早就存在的.这里所谓的“可能性”就蕴含着朴素的概率思想.当然,这里的“某件事”的类型有很多种:可能是重复性随机事件,比如抛硬币、扔骰子等;也可能是在集体现象中体现的随机性,比如放射性核衰变(每个原子核发生衰变的概率很小,但是有大量几乎等价的原子核,所以衰变呈现泊松分布的统计规律);更为普遍的则是所谓的“个体事件”,即非重复性事件.
明天是否会下雨?下个月某个城市的房价是否会上涨?基普乔格如果参加 2024 年奥运会,继续获得马拉松金牌的概率有多大?商朝灭亡的时间具体是哪一年?(考古学家可能需要根据考古证据进行推断.)对于这些事件,无论我们做出怎样的概率判断,都不太可能通过结果或实验去验证具体概率值的正确与否.
但是若说对于这些问题,概率论坚决不能应用和讨论,那么概率论的应用范围也就太狭隘了.甚至可以说,人在社会生活中面临最多的是各种“个体事件”,而重复性随机事件和集体现象只是其中的特殊情况.频率派将概率论限制在重复性随机事件和集体现象的讨论和研究上显然有些画地为牢的意味.贝叶斯派则完全没有这种限制,无论是主观贝叶斯派还是客观贝叶斯派都是如此.
本书将概率论视为扩展逻辑的理论,即合情推理或归纳推理的形式化理论,还有哪种事件不能被其研究呢?频率派完全根据数据进行的推断(p(θ|D))可以看作贝叶斯推断(p(θ|D, I))在没有什么先验信息时的特例.
这当然不是说频率派概率论完全没有独立的意义.一方面,这种理论对于重复性随机事件和集体现象的研究具有很大的指导意义,得出的结论也很客观、可靠.
另一方面,我们对于概率的赋值,无论是主观贝叶斯派还是客观贝叶斯派,都是在与频率派一致的意义上来理解的.假如某人预测基普乔格在 2024 年奥运会马拉松比赛中获得金牌的概率是 0.99,尽管 2024 年奥运会马拉松比赛只有一次,但我们知道他说这句话的意义是:假定比赛可以重复进行 100 次,基普乔格会赢99 次.
客观贝叶斯派的概率验证和校准都需要根据这一原则.值得说明的是,对于某些事件,概率的预测虽然严格来说是个体事件的概率预测,但是由于会做多次预测,因此大致可以作为集体现象进行验证.
比如天气预报和上面提到的计算广告学中的点击概率的预估:虽然每个地方、每天的天气都是唯一的,不同用户、场景、广告的组合都是独特的,单次预测的准确与否很难验证,但是可以通过某个集合上预估的平均概率与真实统计频率的比较来确定模型预测是否存在系统偏差.
那么又当如何看待客观贝叶斯派与主观贝叶斯派之间的分歧呢?这似乎可以联系到中国思想史上的孟子荀子之辩,或者朱子王阳明之辩.哲学上认为孟子、王阳明是主观唯心主义哲学家,荀子、朱子是客观唯心主义哲学家,大致可以将孟子、王阳明视为主观贝叶斯主义者,将荀子、朱子视为客观贝叶斯主义者.对于相同的问题,他们有不同的看法,那么究竟谁对谁错呢?
客观贝叶斯派将不同人概率评估的不同归结为掌握信息的不同,这种信息既可能是数据,也可能是先验信息.
本书作者在 5.3 节讨论了意见分歧与趋同的问题以及在客观贝叶斯框架下如何解释它们.但是我们看到,在对一些问题的分歧似乎不完全能用掌握的信息不同来解释.也许可以在客观贝叶斯推断(p(θ|D, I))的基础上再加上一层代表文化价值观或公理系统的先验的推断(p(θ|D, I, V ),其中 V 代表文化价值观或者公理系统等).
如果底层的文化价值观或者公理系统不同,那么即使接受同样的信息,对于世界的判断也会不同.如此看来,主观贝叶斯派似乎更好些,因为这一流派的理论可以讨论一切事件和问题.的确,我们也不可能阻止任何人对任何事件发生的“概率”进行评估.
但是科学意义上的研究和讨论似乎需要终止于客观贝叶斯主义哲学,因为纯主观的看法虽然并非一定没有意义,但是恐怕很难讨论出个是非曲直出来.我们也可以说,主观贝叶斯派和客观贝叶斯派的侧重点不太一样.人文方面的理论是偏主观的,而科学的理论则是偏客观的.
推荐阅读
《概率论沉思录》
作者:埃德温·汤普森·杰恩斯
译者:廖海仁
著名数学物理学家,圣路易斯华盛顿大学和斯坦福大学教授,统计力学和概率统计推断方面权谋埃德温·汤普森·杰恩斯,40年思想著作;
无数读者苦等15年的概率论神作,英文版豆瓣评分9.4高分;
概率论作为逻辑的延伸,是所有科学推断的基础。本书收集了概率统计的各种线索,将概率和统计推断融合在一起,用新的观点生动地描述了概率论在物理学、数学、经济学、化学和生物学等领域中的广泛应用,尤其是阐述了贝叶斯理论的丰富应用,弥补了传统概率论和统计学的不足,并揭开了众多悖论背后的玄机。
02
《贝叶斯的博弈》
作者:黄黎原
译者:方弦
法国数学类科普书、大学数学参考及教材类图书畅销书目,在机器学习、人工智能、逻辑学和哲学等众多领域中,探索贝叶斯定理蕴藏的智慧与哲理。
贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。