棋王所失 人类所得

棋王所失人类所得

Original 2016-03-18 刘润东 知社学术圈

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

2016年3月9日至15日，人工智能围棋软件AlphaGo在韩国首尔，挑战曾获得14个世界冠军的李世石九段，吸引了过亿人通过网络和电视观看。才出道两年的AlphaGo，以四比一战胜棋王，震撼了国际棋坛和人工智能科学界。世界正目睹人工智能的巨大飞跃，未来它在博弈决策，科研开发等多个领域的应用，将对人类社会产生极其深远的影响。本文由刘润东博士授权转载，略有调整，特别致谢。

跳出人类的推理极限

比赛现场的专业九段棋评家，品评AlphaGo时，有时说这一步“不正常”，那一步“意想不到”，“罕见”等等。其他的一些棋评人，甚至说有些步法“有疑问”。其实，对于没有精神压力和缺乏情绪波动的机器，这些拟人化评语是毫无意义的。人类棋手的判断，多半只对棋的局部形势有效。纵使是九段高手，在错综复杂的局势，其实也无法精确算出每一步对整盘最后结果的影响。再者，AlphaGo是利用神经网络 (Neural Network)，通过学习和自我对弈来提升“思考”水平。AlphaGo的软件开发团队，对它的某一步是完全没有控制的。

AlphaGo有两个神经网络，第一个是“策略网络”，它通过大量学习高段棋手的实战历史，总结出较有优势的下法，并推测对手的可能对策。这其实也是职业棋手从小训练的必经步骤，而AlphaGo只用一两年就完成了训练。第二个是“价值网络”，它对可能出现的各种变局，赋予一定价值，价值高者代表胜局。

AlphaGo利用以上两个神经网络，在对弈的每一步，把各种未来变局建立成一个蒙特卡洛 (Monte Carlo) 树，从中搜索出最有把握得胜的步法。要强调的是，尽管有其他可能取得更高得分的步法，AlphaGo总会选择胜算更高的一步。这跟一般人偏于选择取得眼前利益的方法不同。由于人类棋手无法算出一百步以后的结果，于是唯有选择比较明显的利益 (例如占地)。初学者更常常铤而走险，采取高风险、高回报的走法。另一方面，由于难以推算长远结果，人类棋手也不一定能理解AlphaGo所选的某些步法。

总结AlphaGo战胜棋王李世石的原因，其实就是机械式地运算，并稳健选择对全局最有胜算的每一步。

人类棋手有所谓“棋风”或“流派”，实质上，就是他们进取策略和风险管理的取向。对机器而言，它通过强化学习，调整网络的内在参数，在实战时，只是乖乖地执行运算。所以，各大专家多方钻研，总摸不出机器的派别，只能说它“稳重”而已。

世事如棋，人工智能的目的，当然不在击败棋王，更重要的是帮助人类找出顾全大局的决策。

外交全局决策

以当今时局为例，美俄借叙利亚内战打代理战，结果是渔人得利，伊斯兰国极端组织壮大。而美俄双方，谁都没预测到这个结果。中东战火连年，导致难民大量涌入欧洲，使欧洲蒙受莫大冲击，也是各国始料不及。

在东方，北朝鲜发射卫星和导弹，又声称拥有小型核武器，美国明知道北朝鲜没有这种武器，却又选择与南韩作联合军事演习，希望以武力震慑一个不按常规办事的独裁者，将来的发展结果又会怎样呢？十多年前，美国怀疑伊拉克有核武器，便先发制人，发动战争生擒萨达姆。学习这段历史，对应付北朝鲜是否有帮助呢？

每个时期的政客，都受自身环境所限，选择眼前利益，或凭借直觉采取可行方法。就像棋手那样，缺乏真正的全局观念和长远推演。就这样，历史不断重演，悲剧重复出现。

可以想象，利用人工智能网络，大量学习历史，从而避免战争，减少人类伤亡将是极具价值的。国际组织如联合国，若能以此为工具，找出平衡各方利益，顾全长远大局的协议，而非受个别大国的利益左右，长远来讲对整体成员国会更为有利。

投资博弈策略

转到经济层面，投资策略中有所谓“基本派”和“技术派”，前者以商业体的盈利能力、现金流、资产负债、和未来增长作为估值基础，后者则观察市场的数据走向来指引买卖。当然，还有很多其他五花八门的投资策略。海量的市场和公司数据，大大超出了人类分析员能涵盖的范围。个别能胜于市场指数者，也难有把握将成功复制。

一般情况下，市场处于一个动态平衡。但这种平衡是不稳定的，投资者的贪婪和恐惧，加上全球化的羊群效应，在经济长落，和随之而来各国中央银行金融政策收紧或放松时，往往引起市场巨大起伏。有时，潜在风险被长时间忽略，最后导致大规模金融危机，冲击全球实体经济。

利用人工智能网络，学习历史数据和市场反应，并订立全面和长线的回报价值，来推演最佳投资策略。和围棋不同，这是一个多方博弈的环境。博弈多方虽然各自优化自己的回报，但整体能够达到一个动态平衡。这就像水平相近的棋手对弈，大家如果都没有失误，双方得分在整个过程是非常接近。而且，由于人工智能没有贪婪和恐惧，以投资组合整体的长线回报为目标，这个多方博弈的动态平衡是比较稳定的。

各国中央银行的决策者，也可以用人工智能工具，预测市场和实体经济对金融政策的反应，从而制定更为适合时宜的政策。

控制热核聚变

再举一个科技研究的例子。聚变是两颗轻的核子聚合成一颗重核、并因质量亏损而放出巨大能量的物理过程。自上世纪六十年代起，科学家便开始研究热核聚变，期望能控制聚变燃料，使它缓慢地释放能量，并用来发电。

可是直到现在，控制聚变还停留在科研阶段。主要原因是，热核聚变的燃料，是极高温的电离物质 (称为等离子体)，它会产生各种各样的“集体行动”，逃脱科学家对它们的约束。

物理学家传统的方法，是通过等离子体物理理论，找出约束聚变燃料的方法。然而，等离子体的“集体行动”有着非常复杂的相互作用，所有这类理论都只是近似模型，难以精确预测它们的行动。

一个崭新的方法，是用人工智能网络监察和学习大量实验数据，从中得出控制聚变燃料的参数。例如，调控微波发射器的方向和强度，注入燃料的速率，约束磁场的大小等等。对比起从纯理论推导的公式和由此而建立起来的电脑模型，这种主动的控制方法可能更有成效。

围棋的未来发展

回到棋界，经此人机一役，我认为人类棋手已经明显弱于智能机器。将来的围棋比赛，大概会有一个机器组。各个机器对弈，不断相互强化学习，慢慢达到一个终极极限，在现有围棋规则下，顶级机器相互拉平，并且逐步抛离人类棋手。棋友们观看机器对弈，对比起观看人类对弈，跟我们现在看汽车大赛，对比看起田径赛跑差不多。

传统围棋有边界所限，这种不对称性的存在，使得在棋盘四个角和边界下子更有优势，从而限制了起始布局的可能方式，也减少了在边和角对弈的变化。要去除这种不对称性，可以把棋盘变成“无界棋盘”，在纵横方向，以19 (或更大的数) 为周期作重复。也就是，第20节点跟第一节点是等同的。这样一个有限但无界的围棋，布局不受边界限制，下法完全是棋手战略 (strategy) 和战术 (tactic) 的运用。对“无界围棋”的研究，可以帮助人工智能优化战略和战术。

结语

在各种策略中广泛应用人工智能，能把人类固有的情绪、直觉剔除到决策之外，从而制定出顾全大局的长远决策。在多方博弈的环境中，各方的策略可以达到一个动态平衡，保持整体平稳演变。当然，人工智能只是一个工具，对从来没有见过的事件，它可能是束手无策。它比人脑有优越之处，但却不可能反过来主宰人类。

作者：刘润东，中山大学物理学士，麻省理工学院物理博士，曾参与等离子体物理、太阳物理、混沌和非线性系统研究，最近20年从事资讯技术研发工作。

扩展阅读

顾险峰: 人工智能对决人类，奇点已经降临！

李世石首战惜败AlphaGo，现场棋局解析

谷歌vs脸书: 谁搞定了围棋人工智能？| 深度解析

本文由刘润东博士授权转载，特别致谢投稿、授权、合作事宜请联系

service@scholarset.com 或微信ID: scholarset

回复“目录”或“分类”，浏览知社更多精华。长按二维码识别，可以关注/进入公众号进行回复。

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！