为什么AlphaGo赢了?用博弈论解释人机大战
2016年,AlphaGo在人机大战中以4:1击败十几届围棋世界冠军得主李世石,激起了人们对人工智能(AI)的强烈兴趣。
2017年,AlphaGo再次出手,以3:0完胜当今围棋第一人柯洁。
在最后一局比赛结束后的发布会上,AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)发表了一个很动感情的感言:“本周的比赛聚集了围棋起源地最优秀的棋手参与,是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。
因此,本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。”
不敌AlphaGo的围棋世界冠军五人天团
独孤求败内牛满面……
我的朋友、风云学会会员陈经是一位人工智能专家,写过很多对围棋AI的深入分析,预测过李世石战胜AlphaGo的战略(《在AlphaGo完胜后继续分析其算法巨大优势与可能的缺陷》),他在这第二次人机大战期间的反应可以作为一个绝妙的注脚。
陈经先是在开赛前为人类棋手加油打气,寻找战胜AI的办法,“现在不能认怂,还是应该争取战胜AlphaGo”(《再次对决AlphaGo,柯洁的胜算有多大》)。
在AlphaGo赢了第一局后,陈经继续为柯洁支招,“想要逼出AlphaGo的bug,柯洁必须把局面撑得很满,让双方都不能退,不进入复杂变化就吃亏”(《人机大战首局柯洁“憾负”AlphaGo的看点》)。
在AlphaGo赢了第二局后,陈经认为柯洁在前100手的表现已经接近完美,结语就在找台阶了:“也许我们应该放下胜负,并不一定要追求战胜AlphaGo。如果能象柯洁本局前100手一样,发挥出人类对围棋理解的最高水平,无论胜负,都是与水平超高发挥稳定的AlphaGo共同演绎出精彩的棋局。本局说明,棋局精彩到一定程度,真的是可以超越胜负的。”(《柯洁与AlphaGo第二局的精彩看点》)
到第三局的时候,陈经正在“观天下论坛”做关于人工智能未来的演讲(《柯洁战败了,中国AI技术距离世界第一还有多远?》),没去看棋就预测了柯洁以0:3告负。
到赛后总结时,标题已经成了《AlphaGo的强大远超人类,职业棋手阐释AI算法意义》:
“二次人机大战五盘棋结束,应该可以得出结论了:AlphaGo远强于人类棋手,而且即使它有bug,人类棋手也几乎找不到。我之前的文章中不断为人类棋手想办法,试图从算法的角度发现AlphaGo的弱点,希望人类棋手能利用其弱点战而胜之。现在看来,由于人类棋手与它差距实在太大,应该放弃这种想法了。”
不过,人类就没得玩了吗?不是的。
“AlaphGo不仅是通过战绩让世人震惊,从围棋艺术来说,它的很多招法,都体现了极度的震撼与美感。而这种震撼与美感,是人类的宝贵财富,是艺术精品,只有职业棋手才能最好的阐释,AlphaGo团队反而做不了。所以,人机大战人类棋手与机器并不只是对抗,即使人类失利,双方也共同对围棋艺术作出了极大贡献。”
多么悲壮而喜剧的过程……用陈经自己的话说:人类的逻辑是无敌的!
这个过程可能容易让人联想到人们对不可抗拒的打击的五阶段反应:否认、愤怒、谈判、绝望、接受。但是,陈经对围棋AI的胜利从来没有“愤怒”过。实际上,了解人机大战技术背景的人都不会觉得有什么好愤怒的,更不会对人类的未来感到绝望,——感到亦可赛艇还差不多。
然而,大多数人缺乏这方面的专业知识,大众传媒也充满了唯恐天下不乱的咋咋呼呼,好像不把人类的未来说成被matrix控制的电池就不好意思开口似的。真的用不着这么夸张!实际上,AlphaGo需要的不是恐惧,而是理解。狗是人类的朋友,狗狗很萌的,你们不要黑它~
下面我来写一个答客问,回答若干经常被误解的问题。
问:围棋是人类智慧“皇冠上的明珠”,人工智能在围棋上的胜利意味着电脑的智能已经完全超过了人,是这样的吗?
答:当然……不是!其实那个前提就错了,围棋不是整个人类智慧这顶大皇冠上的明珠,只是人类智慧的一小部分“完全信息博弈”这顶小皇冠上的明珠。在完全信息博弈这个领域里,人工智能的胜利是迟早的事情,这是一条数学定理保证的,所以丝毫没有值得惊慌的地方。因此,围棋AI击败人类的意义,简而言之就是:人工智能解决了最容易的一类问题中最难的一个问题。
问:完全信息博弈是什么意思?
答:规则明确(不是连规则都不知道或者朝令夕改),局面有限(棋盘不是无限大),信息完全(一览无余,没有底牌、战争迷雾之类),确定性(不像大富翁游戏那样掷骰子),两方(不像麻将或四国大战那样多方),对抗性游戏(一方所得必然是另一方所失,没有合作共赢)。
我们常见的棋类游戏,如围棋、中国象棋、国际象棋、五子棋、跳棋,都是这样的例子。
在完全信息博弈的问题中,围棋是最难的。但是在人类能够处理的所有问题中,作为整体,完全信息博弈又是最简单的一类,也是最适合电脑处理的。
改变任何一个限制条件都会使问题变得更难。比如说,送快递对于人来说很容易,对机器人来说就非常困难了,目前还没有成功,因为其中用到的能力太多了,识字、跑腿、上楼等等都不是完全信息博弈。
问:什么定理保证了人工智能在完全信息博弈中的胜利?
答:这条定理是1913年由德国数学家策梅洛(Ernst Friedrich Ferdinand Zermelo)证明的,称为博弈论中的策梅洛定理(Zermelo theorem of game theory)。之所以这么叫,是因为在集合论(set theory)中有另一个策梅洛定理。
德国数学家策梅洛,集合论的奠基人之一
博弈论中的策梅洛定理说的是:在完全信息博弈中,至少有一方可以找到一种在任何情况下都不输的策略,即或者赢或者平局。
换句话说,任何一种二人棋类游戏,如果双方都不犯错,就必然属于三种之一:先手必胜,后手必胜,或者双方都可以保平。
证明这条定理的基本思路是“递归”。
首先,在接近终局时,我们可以看清,从当前局面出发,双方都下出最佳应对的最终结果是“甲赢”、“乙赢”或者“和棋”,这样就把棋局分成了三类。
然后通过倒推(也就是“递归”),看哪些局面可以归结到这些结论已经确定的局面,就可以给越来越多的棋局确定类别。
最后,你可以把所有的棋局都辨别清楚,包括最初的局面:对象棋而言就是所有棋子都没动,对围棋而言就是空空荡荡的棋盘。
这个最初的局面如果属于“甲赢”,那甲就有必胜的策略;如果属于“乙赢”,那乙就有必胜的策略;如果属于“和棋”,那双方就都有至少不输的策略。
对于一些计算量不是很大的游戏,所有的棋局都已经被分析过了,这样的游戏已经被彻底破解。
例如跳棋,在2007年已经得出结论:如果双方都不犯错,唯一的结果就是和棋。因此在理论上,跳棋这种游戏已经死掉了,高手不用下都知道结果,——当然低手还是可以乐此不疲地去比拼谁犯错少。
对于围棋、中国象棋、国际象棋这样计算量庞大的游戏,棋局还没有被穷举,所以还没有被彻底破解。不过,策梅洛定理已经足以说明,在完全信息博弈中AI必然会打败人类,只是早晚的问题而已。
问:如果围棋被彻底破解了,会怎么样?
答:武当派掌门人冲虚道长发来贺电!请看《笑傲江湖》第27章《三战》的情节:
冲虚道人举目望着殿外天井中的天空,呆呆出神,心下盘算令狐冲的剑招。众人见他始终不动,似是入定一般,都觉十分奇怪。过了良久,冲虚道人长吁一口气,说道:“这一场不用比了,你们四位下山去罢。”此言一出,众人尽皆骇然。令狐冲大喜,躬身行礼。解风道:“道长,你这话是甚么意思?”冲虚道:“我想不出破解他的剑法之道,这一场比试,贫道认输。”解风道:“两位可还没动手啊。”冲虚道:“数日之前,在武当山下,贫道曾和他拆过三百余招,那次是我输了。今日再比,贫道仍然要输。”
(图片来自网络)
呐,做人呢,最重要是开心……冲虚道长就很懂得开心的道理。
围棋如果被完全破解了,也会出现这样的景象:假如黑方有必胜的策略,那么看到黑方第一手走在必胜的落子范围内,白方就直接认输;假如白方有必胜的策略,那么黑方第一手都不用下就直接认输。
总之都是冲虚道长对令狐冲,唯一的问题只是:谁是冲虚,谁是令狐冲?
现在的围棋AI在每一步都会给出对双方胜率的估计。如果围棋完全破解了,在一开始就会显示一方的胜率是100%,另一方是0%。这时棋就完全没有下的意义了。
这里需要讨论一下和棋。
对象棋来说,和棋是经常出现的结果,事实上高手之间对弈大多数时候都是和棋。对围棋来说,和棋是极其罕见的结果,只出现在像三劫循环这样同一局面再现时。
所以我们暂时不考虑围棋中的和棋。但如果以后发现最优的策略就是向三劫循环前进……到那时候再说吧!
问:你只是说明了,围棋中必然有一方有必胜的策略,但到底是黑方还是白方呢?
答:有一点需要注意的是,围棋跟其他的棋类游戏不同,有贴子、贴目的规则(这也是围棋中和棋极少的原因),而且规则到现在都没统一,还在不断尝试。那么围棋中哪一方有必胜策略,显然是和规则有关的。
在目前的中国规则(黑贴还3又3/4子)下,大多数棋手都认为执白有利,很可能白方就是有必胜策略的。
而在以前的中国规则(黑贴还2又3/4子)下,大多数棋手都更倾向执黑,很可能就变成了黑方有必胜策略。
有人认为电脑可以让人类的最高手二子,策梅洛定理告诉我们,这种状况即使出现,也是不能保持的。在让二子的情况下,黑方肯定有必胜的策略。
如果电脑还是能赢,不能说明这是必然的,只能说明人类棋手的水平太低了。但人类棋手的水平是可以进步的,总有一天会接近让二子情况下的最优策略,到那时电脑必然会输。
同样的道理,现在的AlphaGo能让2016年战胜李世石的版本三子,并不等于现在的AlphaGo能让李世石三子。这只是因为现在的AlphaGo找到了2016年版本中的bug,对此进行了强化训练而已。
问:现在围棋已经到“不用下”的程度了吗?
答:当然还没有。在AlphaGo跟自己对弈的棋谱中,很可能一开始白方就有一个非常高的胜率,但不到100%。
策梅洛定理说的只是:破解下棋问题是有可能的。考虑到技术的不断进步,破解可以说是迟早会发生的,但具体是什么时候,需要一年还是一百年,那就不知道了。
用数学的语言说,这条定理只是保证了解的存在性,并没有直接给出解。
然而,解的存在性已经是一个非常重要的结论了。因为如果问题没有解(例如发明永动机),那么再聪明的智能也无济于事。
有人把人工智能当成像开了金手指一样无所不能,这是完全错误的!这是一个十分常见的误解,一定要认清。(程序员:万能的AI啊,请给我找个女朋友……)
问:把棋盘扩大成21×21或者更大,电脑就下不过人了!
答:无论是棋盘在二维上扩大,还是把棋盘改成三维甚至金刚石形状(每个点周围的四个点组成一个正四面体),都有人考虑过。
但无论怎么改,这些游戏都属于完全信息博弈的范畴,因此基本的结论不会改变:有一方存在必胜的策略,或者双方都存在保平的策略。只要假以时日,电脑一定会在这样的问题中超过人类。
金刚石结构(图片来源于网络)
围棋并不是一产生就是现在这个样子的,实际上,魏晋之前的棋盘是17×17的。进化到现在的19×19,是达到了一个有趣程度的高峰。继续扩大棋盘,不会改变人脑斗不过电脑的本质,倒很有可能丧失游戏性。
例如知乎大V“马前卒”对“围棋可能发展到三维吗?”的回答:
二维防线上任何一个冒头,都意味着3个方向的渗透,而三维防线上任何一个冒头都意味着5个方向的渗透……这就彻底消灭了布局的作用。没有了对峙和大局观,只有无数割裂的小战场。如果说二维围棋是战争,那么三维围棋就是一连串的械斗。战争有艺术,械斗就只有个人经验了。谁会喜欢这样的游戏呢?
问:既然围棋AI的胜利只是“解决最容易的一类问题中最难的一个问题”,而且在数学上这是必然会发生的,那么为什么还会引起轰动呢?
答:因为围棋的复杂度远远高于其他棋类游戏。
围棋的局面数目高达10的170次方,远高于国际象棋的10的46次方,甚至比宇宙中质子的数目10的80次方还大。
这决定了,把国际象棋中“更深的蓝”击败卡斯帕罗夫的方法移植到围棋中,远远不足以击败围棋高手。
事实上,在AlphaGo横空出世之前,有一段时间围棋AI的水平是相对停滞的。许多人认为电脑在围棋上击败人类还需要10年、50年甚至100年。
在这个背景下,人工智能突然从打不过任何职业棋手突飞猛进到战胜世界冠军,自然就令人震惊了。
这背后的道理,是人工智能算法的重大进步。具体而言,AlphaGo的成功是综合运用策略网络、价值网络和蒙特卡洛搜索等技术的结果。我不熟悉这些算法,而陈经是这方面的专家,写了很多深入的分析文章,有兴趣的读者请去参考他的著作。
问:既然人类再也下不过电脑,以后是不是就没人愿意下围棋了?
答:不是的。
一方面,人类不一定再也下不过电脑。通过跟电脑的拆招,这一年来人类对围棋的领悟也增加了很多。
柯洁在被AlphaGo零封之后,立刻就把韩国的世界冠军元晟溱吊打得体无完肤,这就是上强化班的效果。这样下去,在一段时间之后,人类棋手再次向电脑发起挑战,是完全有可能的。
当然,机器不会出错,人在时间压力下会出错。所以为了公平起见,建议以后的人机对战大大延长对局时间,甚至像当年秀哉名人对吴清源那样随时“打挂”(暂停棋局,考虑好了再来)。
只有这样,才能发挥出人类棋手的最高水平,下出高质量的棋局,而不是每次都在时间压力下因为一些小错误被击溃。
另一方面,即使人类确实再也不是电脑的对手,也不会抹杀人们下棋的乐趣。实际发生的情况会是,人类用电脑作教练,更加高效地学习棋艺。
国际象棋就是这样,世界第一都下不过手机版本的软件,可是国际象棋的流行程度却达到了前所未有的高峰,棋手们跟着AI,棋艺都大涨。呐,做人呢,最重要是开心!既然大家都这么想得开,你又何必“为古人担忧”呢?
问:既然围棋只是完全信息博弈这最简单的一类问题中的“皇冠上的明珠”,那么整个人类智慧的“皇冠上的明珠”是什么?
答:当然是——科学研究啊!
如果问历史上最聪明的人有哪些,最先被提出来的肯定是牛顿、爱因斯坦、阿基米德、高斯等科学家,而不是黄龙士、吴清源、聂卫平等棋手。陈毅元帅写过:“棋虽小道,品德最尊。”虽然“品德最尊”,但还是“小道”嘛。
科研为什么这么困难?
因为科研是高度开放性的问题,一眼看上去不知道答案到哪里去寻找,甚至连有没有答案都不知道。这是科研跟考试中做难题的根本区别,再难的题你至少知道是有答案的,这就已经大大降低难度了。而科学的答案又必须经得起实验或逻辑的检验,这是科学跟宗教的根本区别。
因此,科研是需要最高创造性的人类活动,是人类区别于任何其他物种的本质。相比之下,下棋只是封闭问题,复杂程度相差不可以道里计。
问:“天网”是不是已经近在咫尺,机器人快要统治人类了?
答:连影子都没有。人们经常拿来吓唬自己的,都是有自我意识的“强人工智能”。
但实际上,对强人工智能如何实现,我们还完全没有头绪。目前所有的人工智能研究,处理的都是“弱人工智能”。
沿着这些技术路线走下去,能不能实现强人工智能?没人知道,很可能是不能。
在这种情况下,机器人统治人类还完全不是个现实的担忧。当然这方面的哲学思考是需要的,只是说不要什么都不敢干了,自己把自己吓死。
事实上,对技术毁灭人类的担心,这并不是第一次。
核武器刚发明出来不久,科学家就对它的巨大破坏力极为忧心。在整个冷战时期,核武器毁灭世界是最流行的话题,被比作悬在人类头上的达摩克利斯之剑。
爱因斯坦、罗素、鲍林等仁人志士全力投入反战运动,才阻止了核大战。苏联解体仅仅20多年,我们这么快就忘记了当年的千钧一发,把和平、繁荣当成了理所当然的,真是惊人的健忘!
问:听说人机大战只是谷歌操作股价的一个广告?
答:这样的说法我见过不少。例如这样:“明眼人都能看出来其本质就是广告和炒作,无非电脑善于高速计算、因此在简单而重复的操作上有优势而已。所谓算法的改进也只是聚焦于如何提高计算或检索效率。”
还有人说AlphaGo有几千个CPU,计算能力比人脑高得多,击败人类是理所当然的,丝毫不值得奇怪。沿着这种思路,甚至还有人猜测李世石的那一盘胜利是谷歌故意放水,以便炒作。
这些观点的问题在于,严重低估了技术进步的作用。能拿出几千个CPU的企业有得是。真正的瓶颈不是在计算能力上,而是在算法架构上,AlphaGo最大的进步是在这方面。
这种观点就好像清朝人说洋鬼子只不过船坚炮利,其他的都不如天朝一样,完全是小农心态。
幸好中国的企业和科技人员没有听这些人唧唧歪歪,很快也发展出了中国的围棋AI,例如“绝艺”。
当你落后的时候,承认差距、加油赶上是唯一的正道,吃不到葡萄说葡萄酸是可笑可鄙的!
绝艺在野狐围棋上升为十段
问:美国的人工智能这么厉害,中国是不是又要被碾压了?
答:正好相反。在人工智能方面中国是一个相当先进的国家,显著超过美国之外的其他国家,跟美国的差距也在迅速缩小。
在人工智能领域发表的科技论文数,中国已经超过了美国,而中美两家都大大超过其他国家,基本上是一个双头竞争的格局。
由于中国有世界上最大的用户群体、大数据和研发人员群体,对中美竞争的结果还可以抱有一定程度的乐观。
无论如何,中美的前景都不会差,而其他国家会被中美拉得越来越远。对此,陈经在观天下论坛的演讲中有详细的讨论,读者可以参考。
上图是关于深度学习领域的论文,可以看出中国和美国的论文数量遥遥领先于其他国家,也就是说从研发的角度,中美也是遥遥领先。
问:我们能够对中国人工智能的发展做些什么?
答:从普通人的角度看,我们的社会心态和舆论需要学会平常心,对投入大量资源追求突破性成果持鼓励的态度。
把自己认真地看做引领人类发展的先驱,从内心里支持创新,宽容失败,为创新本身感到兴奋,这是一个社会成熟的标志。
无论是什么科研领域,关键归根结底其实就是一点,要舍得投入资源。
追赶的难度跟原创有本质区别,用金钱来衡量,原创的性价比必然低于追赶。我们要转换思维方式,像富人一样思考,而不是像穷人一样思考,更多地要以花别人2倍的钱办别人1.5倍的事自豪,而不是以花别人10%的钱办别人20%的事自豪。
要认识到,研发是回报最大的投资之一,投入越多其实是节约越多,这是富国的发达之本。中国的研发经费占GDP的比例应该翻一番,从目前的2%出头增加到韩国的4%水平,这是实现中国梦的关键!
出品:科普中国
制作:中国科学技术大学 袁岚峰
监制:中国科学院计算机网络信息中心
作者简介:
袁岚峰,中国科学技术大学化学博士,中国科学技术大学合肥微尺度物质科学国家实验室副研究员,科技与战略风云学会会长,微博@中科大胡不归,知乎@袁岚峰。
请关注风云学会的微信公众平台“风云之声”,微信号fyvoice
“科普中国”是中国科协携同社会各方
利用信息化手段开展科学传播的科学权威品牌。
本文由科普中国融合创作出品,转载请注明出处。
近期热门
公众号:中国科普博览
走过18年,我们为科学代言
转载注明出处 未经授权不得转载
点击下方,进入作者知乎主页