罗素的理发师和奥卡姆剃刀
正文
科学界有两位“剃头师傅”声名远播:
一位是著名的罗素爵士虚构出来的理发师,他的存在本身动摇了集合论的基础,直接导致了第三次数学危机;
另一位是14世纪的逻辑学家奥卡姆的威廉,他那把“奥卡姆剃刀”,在众多科学领域都有广泛应用。
我们接下来对两位进行分别介绍。
一战爆发以后,大哲学家罗素不去参战而去反战,有个老太太很生气地对他说:“别的小伙子都为了保卫文明穿上军装打仗去了,你就不惭愧么?”罗素回答说:“我就是他们要保卫的那种文明。”
上面只是个段子,但足以看出罗素其人有多碉堡。正经的来讲:
伯特兰·阿瑟·威廉·罗素(Bertrand Arthur William Russell,1872年—1970年),英国哲学家、数学家、逻辑学家、历史学家、文学家,分析哲学的主要创始人,世界和平运动的倡导者和组织者。出身贵族继承过伯爵的爵位,获得过诺贝尔文学奖,发表过《西方哲学史》、《数学原理》、《相对论入门》、《宗教与科学》、《论儿童教育》、《几何学基础》、《人类有将来吗》等重要作品。写过《婚姻与道德》,也因为出轨而离过3次婚,结过4次婚。发表过著名的《罗素—爱因斯坦宣言》,号召世界各国政府反战。接受过BBC电视采访,寄语一千年以后的人类。罗素是一位怀疑论者,名言是:“我绝不会为了我的信仰而献身,因为我可能是错的”。
小城里的理发师放出豪言:他只为,而且一定要为,城里所有不为自己刮胡子的人刮胡子。但问题是:理发师该为自己刮胡子吗?如果他为自己刮胡子,那么按照他的豪言“只为城里所有不为自己刮胡子的人刮胡子”他不应该为自己刮胡子;但如果他不为自己刮胡子,同样按照他的豪言“一定要为城里所有不为自己刮胡子的人刮胡子”他又应该为自己刮胡子。
有人说,这位理发师傅真是不可理喻,人家不给自己刮胡子你就非要给人家刮,简直丧心病狂嘛。那么如果真有这么轴的一位理发师傅,请问他到底该不该给自己刮胡子,他的胡子又能交给谁刮呢?事实上,这是罗素举的一个例子,称为理发师悖论。罗素之所以举这么一个例子,其实后面是有个故事的。
悖论后面的故事话说,德国数理逻辑大师戈特洛布·弗雷格曾研究用集合论去描述数理逻辑,为此他还写了一本书。他在给罗素的信中提到他的工作时说他为此构造了一个特殊的集合A,这个集合由所有不包含自己的集合构成。也就是说,集合A的元素X是一个集合,X自己不是自己的元素。罗素在回信中讲述了前面的理发师的故事。聪明的弗雷格看出了这实际上是指出了他所构造的集合 A的问题:如果A不属于A,那么根据定义A应该包含A,即 A属于A;但是如果A属于A,那么同样根据定义A又不应该包含A,即 A不属于A。可此时弗雷格的书已经付印,修改已经是不可能的了,弗雷格只能在书中加一个后记并写到:在工作结束之后而发现那大厦的基础已经动摇,对于一个科学工作者来说,没有比这更为不幸的了。
这一历史故事应该只是一个“故事”,而不完全是历史事实。从看到的一些罗素和弗雷格的通信来看,他们的交流是很学术的。但罗素悖论指出了弗雷格著作中的一个错误,使得他来不及修改他的著作而只能追加一段后记这是一个事实。
虽然罗素没有直接点出那个弗雷格所构造的集合的悖论,但人们还是将那个集合的悖论称作罗素悖论。罗素悖论可以简单描述为:构造一个由所有不包含自己的集合构成的集合A,即 A={X|X不属于A},但我们无法断定A是否应该包含A,无论包含或者不包含都会导出矛盾。由于罗素悖论只涉及集合的定义和从属关系的判断这些集合论最基础的问题,而集合论又已成为数学理论的基础,因此罗素悖论导致了第三次数学危机。不同于前两次的数学危机都得到了完美的解决,第三次的数学危机迄今为止尚没有完美的解决方案。目前数学家们的思路是通过将集合的构造公理化,来排除悖论的集合的存在性。例如,在策梅洛(Zermelo)和弗伦克尔(Fraenkel)等提出的ZF公理系统(也称ZFC公理系统)中,严格规定了一个集合存在的条件,这样就无法定义出悖论的集合。这也算是一种解决方法。
用集合论的语言来描述理发师悖论是这样的:小城里的人构成集合 A={a|a是小城里的人},对于每个小城里的人a可以构造一个A的子集S_{a}={x|a给x刮胡子} ,即a给属于S_{a}的人刮胡子。那么,如果城里人a给自己刮胡子,则a属于S_{a},如果a不给自己刮胡子,则a不属于S_{a},如果a不给任何人刮胡子,则S_{a} 为空。设理发师为s,则理发师的豪言就是:S_{s}={a|a不属于S_{a}}。问题是:如果s属于S_{s},这将与S_{s}的定义矛盾,但如果s不属于S_{s},根据S_{s}的定义,又应该有s属于S_{s}。
奥卡姆的威廉(约1287–1347),出生于英格兰的萨里郡奥卡姆(Ockham),在大学注册为奥卡姆的威廉。14世纪逻辑学家、神学家、圣方济各会修士,中世纪颇具影响力的哲学家,唯名论者。他以逻辑学家著称,主要是因为奥卡姆剃刀。其中的“剃刀”用来比喻切除不必要的假设,或者切分开两个类似的结论。
奥卡姆并未发明这个所谓的“剃刀”——之所以归功于他,是因为奥卡姆频繁而有效地使用它(Ariew 1976)。奥卡姆以很多种方式陈述过这个法则,然而其中最流行的“若无必要,勿增实体”(Non sunt multiplicanda entia sine necessitate),是由爱尔兰方济各会哲学家约翰·潘奇,在1639年对邓斯·司各脱著作的评论中总结的。
自然科学:牛顿说:“我们需要承认,自然事物各种现象的真实而有效的原因,除了它自身以外再无须其他,所以,对于同样的自然现象,我们必须尽可能地归于同一原因”。这话说的没毛病,但怎么看都像是给牛顿自己发现的万有引力定律打的广告语啊。
数学领域:奥卡姆剃刀的形式之一,是基础概率论的直接结果。根据定义,任何假设都会带来犯错误概率的增加;如果一个假设不能增加理论的正确率,那么它的唯一作用就是增加整个理论为错误的概率。
威廉·杰弗里斯(和哈罗德·杰弗里斯没有关系)和詹姆斯·贝尔格尔(1991)主张:“一个可调参数较少的假设,自然地会拥有较高的后验概率,因为它所作出的预言会更精确”。他们所提出的模型,在理论的预测准确性和精确度之间寻求均衡:精确地作出正确的预言的理论,优于给出一个大的猜测范围的或者不正确的理论
设计领域:以简约为美,不做过度设计。任何企图给维纳斯接上断臂的设计,显然都是徒劳无功的。在苹果产品的设计中,乔布斯也已将这一原则给淋漓尽致地体现了出来。
其他领域:。。。
当我们要找到一个给定的数据集中蕴含的规律,或者说要识别其中存在的模式时,如果假设的模型足够复杂,是可以完美地拟合已知数据的。但拟合一个模型的终极目的,是要在未知数据上有很好的预测能力,即泛化性能。过于复杂的模型,因为添加了过多的假设,让模型可选择的参数的自由度超过了数据所包含的信息量,从而引起过拟合,最终导致的结果是模型在已知数据上表现很完美,在未知数据上表现异常糟糕。
对于过拟合的现象,可以用方差-偏差分解,给予理论上的解释。一般来说,过拟合是因为过于复杂的模型,过度学习了数据中的噪声,从而丧失了“举一反三”的能力。此时,根据奥卡姆剃刀的原则,应当减少假设,降低模型的复杂度。
一方面,可以尝试更为简单的模型,比如,将非线性模型改为线性模型,用更简单的基函数等;另一方面,可以在已有模型的基础上,应用剃刀原则剔除一部分复杂度。比如,对树模型进行剪枝,对神经网络进行权重衰减或early stopping等。
这就像孔子曾讲:“逝者如斯夫,不舍昼夜”,道出了时间的连续性。但这更多的是感慨时光流逝的快,劝勉大家惜时,并没有更深的内涵,比如时间和空间的关系。再如,庄子讲:“一尺之锤,日取其半,万世不竭”,只是说明了这个二分的过程可以无限的进行下去,但并没有给出最后收敛到的状态,因此跟极限的理论也完全不同。因此,我们大可不必从画蛇添足的寓言中去过度找寻奥卡姆剃刀的原型。
言及于此,简单跑个题吐槽一下!我们在历史上确实有过璀璨夺目的思想成就,但跟别的文明相比之时也不必牵强附会,过于夸大其贡献。若是一个人,家道中落又碌碌无为又好面子,势必会言必称家里祖上如何如何。所以,还是我辈人自己努力的好。
读完这一章节,相信下次你女朋友问你“留长发还是短发”的问题的时候,你已经有了答案。告诉她:“你纠结这么久,说明你留长发和短发在好看程度上相差无几。根据奥卡姆剃刀原则,你应该留短发”。
1、《数学文化》 顾沛 高等教育出版社; 第2版
2、《理发师悖论的最终解决》 知乎
3、《The Elements of Statistical Learning: data mining, inference, and prediction》 Second Edition
返场附送
罗素有一个更著名的类比,通常叫做“罗素鸡”,用来形象地说明不完全归纳可以导出很不可靠的结论。这个例子在刘慈欣(也是《流浪地球》的作者)大名鼎鼎的科幻小说《三体》中,被用来说明宇宙普适的物理规律可能并不存在,因为人类总结出的物理规律都来自对人类能观测到的时空内的现象的不完全归纳,规律能够成立可能只是尚未找到反例而已。
罗素鸡
更多精彩内容
长按扫码可关注