人工智能如何掷骰子——三种概率理论

Original 2017-12-02 东方和尚 集智俱乐部

冯·诺依曼的手稿《自复制自动机理论》，由人工智能先驱 Arthur Burks 整理成书。集智俱乐部资深粉丝“东方和尚”将全书第一部分翻译成中文，张江做了详细点评。我们将其整理成“冯·诺依曼自动机器理论”系列文章，以飨读者。本文是第四篇。

爱因斯坦说：“上帝不掷骰子”。然而，现代科学理论——从基础物理到人工智能越来越多地依赖于概率论。冯·诺依曼敏锐地发现，现实世界不存在绝对可靠的自动机，我们必须时刻准备好与大自然中的偶然性进行斗争，甚至利用这种不确定性来让我们制造出的人工智能更加可靠。然而，作为理解不确定性的基础理论：概率论则从诞生以来一直处于一种“精神分裂”的状态。在很多情况下，概率仅仅是我们内心世界的一种信念，而非我们熟悉的事件的发生频率。不相信？那么，请做做著名主持人Monty Hall给你留下的选择题：Monty Hall精心布置了三扇门，两扇门背后都是羊，只有一扇门背后是个豪华跑车。下面，请你选择哪个是跑车，选对了，你就可以把它开走。当你说出你的选择后，他并不会立即揭露谜底，而是打开了另外一扇背后是羊的门，然后，他问出了那个经典的话：“你该坚持你的选择吗？”

注意，这个坑爹的电视娱乐节目曾经让无数数理英雄“竞折腰”哦～

全书纲要：

冯·诺依曼的遗产：寻找人工生命的理论根源

探寻计算的“原力”

神经网络与图灵机的复杂度博弈

　　第三堂课：人工智能如何掷骰子

　　第四堂课：大数之道

　　第五堂课：复杂自动机的一些考量——关于层次与进化的问题

在翻译过程中，做了以下的添加和修改：

1、为了方便阅读，为原文进行了分段，并加上了段标题；

2、为了让读者感觉更亲切，加上了若干副插图。

3、为原文添加了大量的评论，东方和尚的评论和张江老师的评论都会标注出来，另外，因为这本书是冯·诺依曼的助手 Arthur W. Burks(遗传算法之父 John Holland 的博士生导师)，所以在框中的文字是编者加的注解。大家要注意分辨。

自动机的鲁棒性

到此，关于信息的严格问题讨论已经告一段落，我们将继续从统计角度来讨论信息的本质。至少有两个原因可以说明统计和概率问题对于自动机和其功能实现是十分重要的：第一个原因可能显得有些任意且离题，虽然我并不这样认为。第二个原因则更加重要，下面我分别加以说明。

第一个原因是：实际上我们无法设想一台绝对可靠的自动机。假如你设计了一台自动机，并且严格地定义了它在任何情景下的全部行为。那么你一定忽略了问题的某些重要方面。如果你是一个新手，那么设计一台可以运行在完全确定环境下的自动机是一种很好的练习。但是只要稍具实际经验，我们就会知道这一步还仅是问题的最初阶段。

我们必须考虑统计因素的第二个原因是：如果你观察一台人造的，或者存在于自然界中的自动机，你会发现那些被严格程序所控制的仅仅是一些细节结构。大部分的控制是以一种允许错误，并且在错误发生时候采取补救措施（多少有效）的方式来实现的。而且，说它们能够预防失误还有些夸大，因为这种机制其实根本就不可能消除所有错误，而是实现了一种发生个别的失误根本无关紧要的容错状态。在这种机制下，无论是错误还是失误带来的后果，都不能被彻底消除。我们可以努力去做到的事情，就是设计一台自动机，让它在遇到通常错误后仍然可以照常工作。这种设计的目的是减小错误的影响，而不是去消除错误。实际上，大多数常见自动机的构造和设计思想，都是属于这类容错型的。为了允许错误作为一种独立的逻辑对象存在，我们不应该再以严格的方式表述公理，也就是说，公理不应该写成：“如果 A 和 B 发生，C 就会发生”这样的形式；而是“如果 A 和B 发生，一定的概率下 C 会发生，也有一定的概率 D 会发生等等”的形式。换句话说，每种给定情况下，都会有不同的结果，各自以不同的概率发生。从数学上说，我们可以简单地写出一个概率矩阵，说明各种状态之间发生转换的对应概率为何。你可以把问题写成这样“如果 A 和 B 已经发生，接下去发生 C 的概率有多大？”。这个概率矩阵就给出了一套以概率表示的逻辑系统。无论人工还是自然自动机，只要牵涉概率，都应该放到这个框架下研究，我接下来会谈到为何遇到复杂系统时候，我们就必须放弃严格逻辑而改用概然逻辑系统的原因。

编者Arthur W. Burks注：

假如单个元件出故障的概率固定，那么自动机越是复杂系统崩溃的可能性也越大。可参见冯·诺依曼的论文：《概然逻辑：用不可靠的组件构建可靠的组织（Probabilistic Logics and the Synthesis of Reliable Organs from Unreliable Components）》。

概率作为逻辑的扩展

上述原因使我们不得不把概率逻辑看作一般意义上的严格逻辑的一种扩展。这种把概率本身看作是逻辑的一种扩展的做法既非显而易见，也不为科学界所广泛接受，同时也远离了对概率的主流解释，但它却正是概率的经典解释之一。与此相对的是概率的频率解释，即认为逻辑本身是绝对严格的，但对一个我们不完全了解的现象，我们只能用出现频率大小来描述之。

我认为，这两种解释的区别，至少在拉普拉斯看来，是十分清楚的，他曾指出存在两种不同的方式来看待概率：频率和逻辑方式【《A philosophical Essay on Probabilities》】。在近代，经济学家凯恩斯也曾撰述概率方面的论文【《A Treatise on Probability》】，强调了两者之间的区别，并以此作为他的理论基础。凯恩斯相当详细地分析了概率问题，并说明了除了传统的频率解释以外，还可从逻辑的角度来解释概率。但他并没有试图把严格逻辑和概率区分开来，仅仅提到，如果你观察一个事件 A 和 B 的序列，这个序列可以用一个具体的量“B 紧跟着 A发生的概率”来刻画。这里同严格逻辑的唯一联系之处就是如果此概率等于 1，你可以说 A 导致 B 的蕴涵关系，如果概率是 0，那么 A 的发生就排除了 B 的发生。但是，当这个概率接近 0 或者 1 的时候，你还是可以用一种模糊的方式进行推理[59]。

不可否认，逻辑分析的立场有其固有弊病，有时候，零概率事件明明在发生，否认其存在是很荒谬的[60]。同时，我们也不清楚在何种意义上，小概率事件表示我们可以认为这件事根本不会发生。尽管如此，凯恩斯还是提出了一种自洽的概率体系[61]。现代科学的其他研究，如量子力学中的发现，使得我们很倾向于接受这种自洽式的概率定义，尽管概率的本质现在还远远没有定论，而且可能长期得不到结论。无论如何，在量子力学中，我们倾向于改变传统的逻辑定义，而把概率看成逻辑的内在组成。

编者Arthur W. Burks注：

在冯·诺依曼的著作《量子逻辑（严格的与概然的逻辑）》中，他做出结论：“概然逻辑是无法还原成严格逻辑的组合的，而应该被看成比后者本质上更广义的系统，量子力学中的概率形式 P(a,b)=Ф(o<Ф<1)本身应该被看成自立自足的物理现实。所以看起来概率逻辑应该是严格逻辑的重要延伸。这个观念，即所谓“逻辑概率论”构成了凯恩斯这方面的研究基础。”可参阅冯·诺依曼和 Birkhoff 合著《The Logic of Quantum Mechanics》，以及冯·诺依曼同摩根斯坦合著的《博弈论和经济行为》3.3.3 节

Jake 点评

这一章虽然比较短，但是它涵盖的信息量却非常大，实则横跨了至少三个非常不同的学科。因此，阅读这一章，也许你会觉得冯·诺依曼故弄玄虚、言之无物。然而，这一章的意义非同小可，因为它几乎指明了复杂性科学未来几十年的发展方向。就拿我自己的探索经历来说，大概在 2004 年左右的时候，我就读过了这一章，然而，当时的感觉就是头晕眼花，不知所云。于是，把这本书撂到了一边。有趣的是，大概 4 年的时间过去之后，偶然间读到了 E.T.Jaynes 对统计物理的新见解，使我对热力学、熵等概念发生了强烈的兴趣。之后，当我再次翻看了冯·诺依曼的这一章节的时候，我眼睛一亮，冯·诺依曼早就指出了主观概率、信息、热力学等等之间的联系。又过去 2 年的时间，当我认识到要理解概率的本质必须要了解量子力学的时候，我又一次看到冯·诺依曼在这一章里早就表达过此类观点了。我已分不清 2004 年的阅读是否已经潜移默化地被冯·诺依曼影响了；还是我的探索轨迹恰巧与冯·诺依曼的思路一致？总而言之，我与这一章从某种层面上说的确发生了共振，以至于我对这短小精湛的一章越来越喜欢了。下面，我将分别从概率、热力学和信息论这三个层面综述一下相对重要的文献和进展。

概率

虽然概率论最早发源于 17 世纪，然而将近 400 年过去了，人们对于概率本质的争论却仍然没有停息。概率论从一开始就分成客观概率的频率学派以及主观概率的贝叶斯学派。主流观点是将概率解释为某事件发生的频率，它是事物发生的一种客观属性。然而，仍然有很多人坚持认为概率存在于人们的主观意识中。例如，当我们说明天将会下雨的概率是 50%的时候，实际上我们表达了一种对明天是否会下雨的信念，而并不是说我们能够做 100 次重复试验，其中有 50 次明天下雨。那么我们是怎么得出明天下雨的概率是 50%的呢？实际上，我们是根据今天的天气情况（例如是否阴天），以及以往的观测纪录（例如最近几天是否处于雨季）等等已有的信息，做出了明天下雨这一命题的不确定性推断。所以，明天下雨的概率 50%并不是一个客观存在的概念，而是一种满足概率贝叶斯法则的推断。

Monty Hall 问题

也许你仍然认为这种认识只是看待概率的不同哲学观点，没有实质上的区别。那么，请看一个著名的决策问题的例子：Monty Hall 问题。Monty Hall 是美国一款著名娱乐节目的主持人。他曾提出了一个非常有趣的决策问题。假如舞台上有三扇关闭的门，已知这三扇门后面分别是羊、羊、汽车，主持人 Monty Hall 知道每扇门后面的情况，但是作为决策者的你并不知道。

现在，你来选择一扇门，如果该门后面是汽车，那么你就赢得了大奖，把汽车开回家，如果是羊，那么你什么都得不到。问题有趣的地方在于，当你做出一个选择的时候，比如你选了 3 号门，Monty Hall 并不把 3 号门打开，而是打开了另一扇后面是羊的门给你看（因为有 2 只羊，因此，他总能找到一个不是你的选择，同时又是羊的门，比如 1 号门）。现在，主持人 Monty 问你，你还要不要坚持你的选择 3 号门呢？

这是一个典型的概率问题。按照常理思维，3 号门背后是汽车的概率是 1/3。尽管主持人 Monty 打开 1 号门给你看那是一只山羊，这仍然不会改变 3 号门背后是汽车的概率（因为概率是客观存在的，固定死的数字）。但是，与直觉相悖的是，真正最优的选择恰恰是改选 2 号门，你赢得汽车大奖的概率会更高。

英国数学家贝叶斯 ( Thomas Bayes 1702-1761 )

只有当你认为概率并非一个事件所固有的客观属性，而是观测者判断某事情发生的主观信念的时候，概率分布才会因为主持人给你看了 1 号门背后的山羊这个事件而发生改变。事实上，根据贝叶斯原理，我们可以计算出新的概率分布。

我们记 A 事件为 3 号门背后是汽车，B 事件是 2 号门背后是汽车，C 表示 1 号门背后是汽车这个事件，X 表示主持人 Monty 打开了 1 号门的事件。这样，我们知道P(A)=P(B)=P(C)=1/3。

问题的难点在于 X 的概率计算，X 发生的前提有 3 种可能性：（1）如果 A 事件发生，即 3 号门背后是汽车，则主持人可能打开 1 号门，也可能打开 2 号门，这样 X 在 A 发生的条件下发生的概率是 P(X|A)=1/2；（2）如果 B 事件发生，X 发生的概率就是 P(X|B)=1，因为你选择了 3 号门，而 2 号门背后是汽车，主持人是了解这个情况的，所以他只能选择打开 1 号门而不是 2 号门。（3）如果 C 事件发生，X 发生的概率就是 0。因为主持人肯定会打开 2 号门，而不是 1 号。这样，当你确认到 X 这个事件发生了之后，A 事件仍然发生的概率就需要按照贝叶斯法则计算：

尽管它仍然是 1/3，但是，如果你改变选择 2 号门会有更多的机会赢得汽车，因为此时B 事件（2 号门背后是汽车）发生的概率却变成：

所以，你的最优决策是改选 2 号门，因为它的概率会是你坚持选择 3 号门概率的 2 倍。

从这个例子，我们可以清晰地看到后验的信息是如何改变事件概率的分布的。冯·诺依曼在本章中提到的“概率作为一种逻辑的延伸”就是指概率的主观（贝叶斯）学派解释。在这个学派中，现代的一位集大成者是统计物理学家 E.T. Jaynes（他的个人主页：http://bayes.wustl.edu/），他从主观概率的角度出发，将统计物理看作是信息论的一个分支。此外，他也将概率视作逻辑的一种延伸。有关 E.T. Jaynes 的学术观点，大家可以参看他的著作：《概率论沉思录》（Probability theory – the Logic of Science）。

此外，随着人们对物理世界的探索，人们逐渐认识到了一种全新的概率论：量子概率。与经典概率最大的不同之处就在于量子概率定义了一种称为概率幅的量，它可以取复数值，而当你观测系统的时候，这个复数就会“塌缩”成经典概率。(关于量子概率，读者可参考我写的一篇科普文章：《当概率成为复数——量子概率简介》点击阅读原文即可下载)。人们起初认为：微观粒子世界不得不被量子概率这套类似于魔法一样的数学去描述。然而，冯·诺依曼从数学和逻辑学的角度出发，将这套数学进行了大胆的抽象，从而奠定了量子逻辑这门学科（读者可以参考冯·诺依曼的经典著作：《Mathematical Foundations of Quantum Mechanics》Princeton University Press; Translation - from German edition (October 28, 1996)）。

近年来，量子逻辑，特别是量子计算、量子通讯等领域的长足发展让人们看到了量子法则是如何突破经典计算和经典通信的（可参考： Michael A. Nielsen, Isaac L. Chuang: Quantum Computation and Quantum Information,Cambridge University Press, 2000），这使得人们又重新注意到冯·诺依曼早在 20 年代就奠定的量子逻辑数学基础。

参考文献