为什么AlphaGo赢了？用博弈论解释人机大战

2017-06-03 袁岚峰 中国科普博览

2016年，AlphaGo在人机大战中以4:1击败十几届围棋世界冠军得主李世石，激起了人们对人工智能（AI）的强烈兴趣。

2017年，AlphaGo再次出手，以3:0完胜当今围棋第一人柯洁。

在最后一局比赛结束后的发布会上，AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯（Demis Hassabis）发表了一个很动感情的感言：“本周的比赛聚集了围棋起源地最优秀的棋手参与，是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。

因此，本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。”

不敌AlphaGo的围棋世界冠军五人天团

独孤求败内牛满面……

我的朋友、风云学会会员陈经是一位人工智能专家，写过很多对围棋AI的深入分析，预测过李世石战胜AlphaGo的战略（《在AlphaGo完胜后继续分析其算法巨大优势与可能的缺陷》），他在这第二次人机大战期间的反应可以作为一个绝妙的注脚。

陈经先是在开赛前为人类棋手加油打气，寻找战胜AI的办法，“现在不能认怂，还是应该争取战胜AlphaGo”（《再次对决AlphaGo，柯洁的胜算有多大》）。

在AlphaGo赢了第一局后，陈经继续为柯洁支招，“想要逼出AlphaGo的bug，柯洁必须把局面撑得很满，让双方都不能退，不进入复杂变化就吃亏”（《人机大战首局柯洁“憾负”AlphaGo的看点》）。

在AlphaGo赢了第二局后，陈经认为柯洁在前100手的表现已经接近完美，结语就在找台阶了：“也许我们应该放下胜负，并不一定要追求战胜AlphaGo。如果能象柯洁本局前100手一样，发挥出人类对围棋理解的最高水平，无论胜负，都是与水平超高发挥稳定的AlphaGo共同演绎出精彩的棋局。本局说明，棋局精彩到一定程度，真的是可以超越胜负的。”（《柯洁与AlphaGo第二局的精彩看点》）

到第三局的时候，陈经正在“观天下论坛”做关于人工智能未来的演讲（《柯洁战败了，中国AI技术距离世界第一还有多远？》），没去看棋就预测了柯洁以0:3告负。

到赛后总结时，标题已经成了《AlphaGo的强大远超人类，职业棋手阐释AI算法意义》：

“二次人机大战五盘棋结束，应该可以得出结论了：AlphaGo远强于人类棋手，而且即使它有bug，人类棋手也几乎找不到。我之前的文章中不断为人类棋手想办法，试图从算法的角度发现AlphaGo的弱点，希望人类棋手能利用其弱点战而胜之。现在看来，由于人类棋手与它差距实在太大，应该放弃这种想法了。”

不过，人类就没得玩了吗？不是的。

“AlaphGo不仅是通过战绩让世人震惊，从围棋艺术来说，它的很多招法，都体现了极度的震撼与美感。而这种震撼与美感，是人类的宝贵财富，是艺术精品，只有职业棋手才能最好的阐释，AlphaGo团队反而做不了。所以，人机大战人类棋手与机器并不只是对抗，即使人类失利，双方也共同对围棋艺术作出了极大贡献。”

多么悲壮而喜剧的过程……用陈经自己的话说：人类的逻辑是无敌的！

这个过程可能容易让人联想到人们对不可抗拒的打击的五阶段反应：否认、愤怒、谈判、绝望、接受。但是，陈经对围棋AI的胜利从来没有“愤怒”过。实际上，了解人机大战技术背景的人都不会觉得有什么好愤怒的，更不会对人类的未来感到绝望，——感到亦可赛艇还差不多。

然而，大多数人缺乏这方面的专业知识，大众传媒也充满了唯恐天下不乱的咋咋呼呼，好像不把人类的未来说成被matrix控制的电池就不好意思开口似的。真的用不着这么夸张！实际上，AlphaGo需要的不是恐惧，而是理解。狗是人类的朋友，狗狗很萌的，你们不要黑它~

下面我来写一个答客问，回答若干经常被误解的问题。

问：围棋是人类智慧“皇冠上的明珠”，人工智能在围棋上的胜利意味着电脑的智能已经完全超过了人，是这样的吗？

答：当然……不是！其实那个前提就错了，围棋不是整个人类智慧这顶大皇冠上的明珠，只是人类智慧的一小部分“完全信息博弈”这顶小皇冠上的明珠。在完全信息博弈这个领域里，人工智能的胜利是迟早的事情，这是一条数学定理保证的，所以丝毫没有值得惊慌的地方。因此，围棋AI击败人类的意义，简而言之就是：人工智能解决了最容易的一类问题中最难的一个问题。

问：完全信息博弈是什么意思？

答：规则明确（不是连规则都不知道或者朝令夕改），局面有限（棋盘不是无限大），信息完全（一览无余，没有底牌、战争迷雾之类），确定性（不像大富翁游戏那样掷骰子），两方（不像麻将或四国大战那样多方），对抗性游戏（一方所得必然是另一方所失，没有合作共赢）。

我们常见的棋类游戏，如围棋、中国象棋、国际象棋、五子棋、跳棋，都是这样的例子。

在完全信息博弈的问题中，围棋是最难的。但是在人类能够处理的所有问题中，作为整体，完全信息博弈又是最简单的一类，也是最适合电脑处理的。

改变任何一个限制条件都会使问题变得更难。比如说，送快递对于人来说很容易，对机器人来说就非常困难了，目前还没有成功，因为其中用到的能力太多了，识字、跑腿、上楼等等都不是完全信息博弈。

问：什么定理保证了人工智能在完全信息博弈中的胜利？

答：这条定理是1913年由德国数学家策梅洛（Ernst Friedrich Ferdinand Zermelo）证明的，称为博弈论中的策梅洛定理（Zermelo theorem of game theory）。之所以这么叫，是因为在集合论（set theory）中有另一个策梅洛定理。

德国数学家策梅洛，集合论的奠基人之一

博弈论中的策梅洛定理说的是：在完全信息博弈中，至少有一方可以找到一种在任何情况下都不输的策略，即或者赢或者平局。

换句话说，任何一种二人棋类游戏，如果双方都不犯错，就必然属于三种之一：先手必胜，后手必胜，或者双方都可以保平。

证明这条定理的基本思路是“递归”。

首先，在接近终局时，我们可以看清，从当前局面出发，双方都下出最佳应对的最终结果是“甲赢”、“乙赢”或者“和棋”，这样就把棋局分成了三类。

然后通过倒推（也就是“递归”），看哪些局面可以归结到这些结论已经确定的局面，就可以给越来越多的棋局确定类别。

最后，你可以把所有的棋局都辨别清楚，包括最初的局面：对象棋而言就是所有棋子都没动，对围棋而言就是空空荡荡的棋盘。

这个最初的局面如果属于“甲赢”，那甲就有必胜的策略；如果属于“乙赢”，那乙就有必胜的策略；如果属于“和棋”，那双方就都有至少不输的策略。

对于一些计算量不是很大的游戏，所有的棋局都已经被分析过了，这样的游戏已经被彻底破解。

例如跳棋，在2007年已经得出结论：如果双方都不犯错，唯一的结果就是和棋。因此在理论上，跳棋这种游戏已经死掉了，高手不用下都知道结果，——当然低手还是可以乐此不疲地去比拼谁犯错少。

对于围棋、中国象棋、国际象棋这样计算量庞大的游戏，棋局还没有被穷举，所以还没有被彻底破解。不过，策梅洛定理已经足以说明，在完全信息博弈中AI必然会打败人类，只是早晚的问题而已。

问：如果围棋被彻底破解了，会怎么样？

答：武当派掌门人冲虚道长发来贺电！请看《笑傲江湖》第27章《三战》的情节：

冲虚道人举目望着殿外天井中的天空，呆呆出神，心下盘算令狐冲的剑招。众人见他始终不动，似是入定一般，都觉十分奇怪。过了良久，冲虚道人长吁一口气，说道：“这一场不用比了，你们四位下山去罢。”此言一出，众人尽皆骇然。令狐冲大喜，躬身行礼。解风道：“道长，你这话是甚么意思？”冲虚道：“我想不出破解他的剑法之道，这一场比试，贫道认输。”解风道：“两位可还没动手啊。”冲虚道：“数日之前，在武当山下，贫道曾和他拆过三百余招，那次是我输了。今日再比，贫道仍然要输。”

（图片来自网络）

呐，做人呢，最重要是开心……冲虚道长就很懂得开心的道理。

围棋如果被完全破解了，也会出现这样的景象：假如黑方有必胜的策略，那么看到黑方第一手走在必胜的落子范围内，白方就直接认输；假如白方有必胜的策略，那么黑方第一手都不用下就直接认输。

总之都是冲虚道长对令狐冲，唯一的问题只是：谁是冲虚，谁是令狐冲？

现在的围棋AI在每一步都会给出对双方胜率的估计。如果围棋完全破解了，在一开始就会显示一方的胜率是100%，另一方是0%。这时棋就完全没有下的意义了。

这里需要讨论一下和棋。

对象棋来说，和棋是经常出现的结果，事实上高手之间对弈大多数时候都是和棋。对围棋来说，和棋是极其罕见的结果，只出现在像三劫循环这样同一局面再现时。

所以我们暂时不考虑围棋中的和棋。但如果以后发现最优的策略就是向三劫循环前进……到那时候再说吧！

问：你只是说明了，围棋中必然有一方有必胜的策略，但到底是黑方还是白方呢？

答：有一点需要注意的是，围棋跟其他的棋类游戏不同，有贴子、贴目的规则（这也是围棋中和棋极少的原因），而且规则到现在都没统一，还在不断尝试。那么围棋中哪一方有必胜策略，显然是和规则有关的。

在目前的中国规则（黑贴还3又3/4子）下，大多数棋手都认为执白有利，很可能白方就是有必胜策略的。

而在以前的中国规则（黑贴还2又3/4子）下，大多数棋手都更倾向执黑，很可能就变成了黑方有必胜策略。

有人认为电脑可以让人类的最高手二子，策梅洛定理告诉我们，这种状况即使出现，也是不能保持的。在让二子的情况下，黑方肯定有必胜的策略。

如果电脑还是能赢，不能说明这是必然的，只能说明人类棋手的水平太低了。但人类棋手的水平是可以进步的，总有一天会接近让二子情况下的最优策略，到那时电脑必然会输。

同样的道理，现在的AlphaGo能让2016年战胜李世石的版本三子，并不等于现在的AlphaGo能让李世石三子。这只是因为现在的AlphaGo找到了2016年版本中的bug，对此进行了强化训练而已。

问：现在围棋已经到“不用下”的程度了吗？

答：当然还没有。在AlphaGo跟自己对弈的棋谱中，很可能一开始白方就有一个非常高的胜率，但不到100%。

策梅洛定理说的只是：破解下棋问题是有可能的。考虑到技术的不断进步，破解可以说是迟早会发生的，但具体是什么时候，需要一年还是一百年，那就不知道了。

用数学的语言说，这条定理只是保证了解的存在性，并没有直接给出解。

然而，解的存在性已经是一个非常重要的结论了。因为如果问题没有解（例如发明永动机），那么再聪明的智能也无济于事。

有人把人工智能当成像开了金手指一样无所不能，这是完全错误的！这是一个十分常见的误解，一定要认清。（程序员：万能的AI啊，请给我找个女朋友……）

问：把棋盘扩大成21×21或者更大，电脑就下不过人了！

答：无论是棋盘在二维上扩大，还是把棋盘改成三维甚至金刚石形状（每个点周围的四个点组成一个正四面体），都有人考虑过。

但无论怎么改，这些游戏都属于完全信息博弈的范畴，因此基本的结论不会改变：有一方存在必胜的策略，或者双方都存在保平的策略。只要假以时日，电脑一定会在这样的问题中超过人类。

金刚石结构（图片来源于网络）

围棋并不是一产生就是现在这个样子的，实际上，魏晋之前的棋盘是17×17的。进化到现在的19×19，是达到了一个有趣程度的高峰。继续扩大棋盘，不会改变人脑斗不过电脑的本质，倒很有可能丧失游戏性。

例如知乎大V“马前卒”对“围棋可能发展到三维吗？”的回答：

二维防线上任何一个冒头，都意味着3个方向的渗透，而三维防线上任何一个冒头都意味着5个方向的渗透……这就彻底消灭了布局的作用。没有了对峙和大局观，只有无数割裂的小战场。如果说二维围棋是战争，那么三维围棋就是一连串的械斗。战争有艺术，械斗就只有个人经验了。谁会喜欢这样的游戏呢？

问：既然围棋AI的胜利只是“解决最容易的一类问题中最难的一个问题”，而且在数学上这是必然会发生的，那么为什么还会引起轰动呢？

答：因为围棋的复杂度远远高于其他棋类游戏。

围棋的局面数目高达10的170次方，远高于国际象棋的10的46次方，甚至比宇宙中质子的数目10的80次方还大。

这决定了，把国际象棋中“更深的蓝”击败卡斯帕罗夫的方法移植到围棋中，远远不足以击败围棋高手。

事实上，在AlphaGo横空出世之前，有一段时间围棋AI的水平是相对停滞的。许多人认为电脑在围棋上击败人类还需要10年、50年甚至100年。

在这个背景下，人工智能突然从打不过任何职业棋手突飞猛进到战胜世界冠军，自然就令人震惊了。

这背后的道理，是人工智能算法的重大进步。具体而言，AlphaGo的成功是综合运用策略网络、价值网络和蒙特卡洛搜索等技术的结果。我不熟悉这些算法，而陈经是这方面的专家，写了很多深入的分析文章，有兴趣的读者请去参考他的著作。

问：既然人类再也下不过电脑，以后是不是就没人愿意下围棋了？

答：不是的。

一方面，人类不一定再也下不过电脑。通过跟电脑的拆招，这一年来人类对围棋的领悟也增加了很多。

柯洁在被AlphaGo零封之后，立刻就把韩国的世界冠军元晟溱吊打得体无完肤，这就是上强化班的效果。这样下去，在一段时间之后，人类棋手再次向电脑发起挑战，是完全有可能的。

当然，机器不会出错，人在时间压力下会出错。所以为了公平起见，建议以后的人机对战大大延长对局时间，甚至像当年秀哉名人对吴清源那样随时“打挂”（暂停棋局，考虑好了再来）。

只有这样，才能发挥出人类棋手的最高水平，下出高质量的棋局，而不是每次都在时间压力下因为一些小错误被击溃。

另一方面，即使人类确实再也不是电脑的对手，也不会抹杀人们下棋的乐趣。实际发生的情况会是，人类用电脑作教练，更加高效地学习棋艺。

国际象棋就是这样，世界第一都下不过手机版本的软件，可是国际象棋的流行程度却达到了前所未有的高峰，棋手们跟着AI，棋艺都大涨。呐，做人呢，最重要是开心！既然大家都这么想得开，你又何必“为古人担忧”呢？

问：既然围棋只是完全信息博弈这最简单的一类问题中的“皇冠上的明珠”，那么整个人类智慧的“皇冠上的明珠”是什么？

答：当然是——科学研究啊！

如果问历史上最聪明的人有哪些，最先被提出来的肯定是牛顿、爱因斯坦、阿基米德、高斯等科学家，而不是黄龙士、吴清源、聂卫平等棋手。陈毅元帅写过：“棋虽小道，品德最尊。”虽然“品德最尊”，但还是“小道”嘛。

科研为什么这么困难？

因为科研是高度开放性的问题，一眼看上去不知道答案到哪里去寻找，甚至连有没有答案都不知道。这是科研跟考试中做难题的根本区别，再难的题你至少知道是有答案的，这就已经大大降低难度了。而科学的答案又必须经得起实验或逻辑的检验，这是科学跟宗教的根本区别。

因此，科研是需要最高创造性的人类活动，是人类区别于任何其他物种的本质。相比之下，下棋只是封闭问题，复杂程度相差不可以道里计。

问：“天网”是不是已经近在咫尺，机器人快要统治人类了？

答：连影子都没有。人们经常拿来吓唬自己的，都是有自我意识的“强人工智能”。

但实际上，对强人工智能如何实现，我们还完全没有头绪。目前所有的人工智能研究，处理的都是“弱人工智能”。

沿着这些技术路线走下去，能不能实现强人工智能？没人知道，很可能是不能。

在这种情况下，机器人统治人类还完全不是个现实的担忧。当然这方面的哲学思考是需要的，只是说不要什么都不敢干了，自己把自己吓死。

事实上，对技术毁灭人类的担心，这并不是第一次。

核武器刚发明出来不久，科学家就对它的巨大破坏力极为忧心。在整个冷战时期，核武器毁灭世界是最流行的话题，被比作悬在人类头上的达摩克利斯之剑。

爱因斯坦、罗素、鲍林等仁人志士全力投入反战运动，才阻止了核大战。苏联解体仅仅20多年，我们这么快就忘记了当年的千钧一发，把和平、繁荣当成了理所当然的，真是惊人的健忘！

问：听说人机大战只是谷歌操作股价的一个广告？

答：这样的说法我见过不少。例如这样：“明眼人都能看出来其本质就是广告和炒作，无非电脑善于高速计算、因此在简单而重复的操作上有优势而已。所谓算法的改进也只是聚焦于如何提高计算或检索效率。”

还有人说AlphaGo有几千个CPU，计算能力比人脑高得多，击败人类是理所当然的，丝毫不值得奇怪。沿着这种思路，甚至还有人猜测李世石的那一盘胜利是谷歌故意放水，以便炒作。

这些观点的问题在于，严重低估了技术进步的作用。能拿出几千个CPU的企业有得是。真正的瓶颈不是在计算能力上，而是在算法架构上，AlphaGo最大的进步是在这方面。

这种观点就好像清朝人说洋鬼子只不过船坚炮利，其他的都不如天朝一样，完全是小农心态。

幸好中国的企业和科技人员没有听这些人唧唧歪歪，很快也发展出了中国的围棋AI，例如“绝艺”。

当你落后的时候，承认差距、加油赶上是唯一的正道，吃不到葡萄说葡萄酸是可笑可鄙的！

绝艺在野狐围棋上升为十段

问：美国的人工智能这么厉害，中国是不是又要被碾压了？

答：正好相反。在人工智能方面中国是一个相当先进的国家，显著超过美国之外的其他国家，跟美国的差距也在迅速缩小。

在人工智能领域发表的科技论文数，中国已经超过了美国，而中美两家都大大超过其他国家，基本上是一个双头竞争的格局。

由于中国有世界上最大的用户群体、大数据和研发人员群体，对中美竞争的结果还可以抱有一定程度的乐观。

无论如何，中美的前景都不会差，而其他国家会被中美拉得越来越远。对此，陈经在观天下论坛的演讲中有详细的讨论，读者可以参考。

上图是关于深度学习领域的论文，可以看出中国和美国的论文数量遥遥领先于其他国家，也就是说从研发的角度，中美也是遥遥领先。

问：我们能够对中国人工智能的发展做些什么？

答：从普通人的角度看，我们的社会心态和舆论需要学会平常心，对投入大量资源追求突破性成果持鼓励的态度。

把自己认真地看做引领人类发展的先驱，从内心里支持创新，宽容失败，为创新本身感到兴奋，这是一个社会成熟的标志。

无论是什么科研领域，关键归根结底其实就是一点，要舍得投入资源。

追赶的难度跟原创有本质区别，用金钱来衡量，原创的性价比必然低于追赶。我们要转换思维方式，像富人一样思考，而不是像穷人一样思考，更多地要以花别人2倍的钱办别人1.5倍的事自豪，而不是以花别人10%的钱办别人20%的事自豪。

要认识到，研发是回报最大的投资之一，投入越多其实是节约越多，这是富国的发达之本。中国的研发经费占GDP的比例应该翻一番，从目前的2%出头增加到韩国的4%水平，这是实现中国梦的关键！

出品：科普中国

制作：中国科学技术大学袁岚峰

监制：中国科学院计算机网络信息中心

作者简介：

袁岚峰，中国科学技术大学化学博士，中国科学技术大学合肥微尺度物质科学国家实验室副研究员，科技与战略风云学会会长，微博@中科大胡不归，知乎@袁岚峰。

请关注风云学会的微信公众平台“风云之声”，微信号fyvoice

“科普中国”是中国科协携同社会各方

利用信息化手段开展科学传播的科学权威品牌。

本文由科普中国融合创作出品，转载请注明出处。

近期热门

五万公里黑不倒我为人类续一秒

公众号：中国科普博览

走过18年，我们为科学代言

转载注明出处未经授权不得转载

点击下方，进入作者知乎主页

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

“四川大学姜涛与爱人程月玲”，你们现在还好吗？