棋王所失 人类所得
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
2016年3月9日至15日,人工智能围棋软件AlphaGo在韩国首尔,挑战曾获得14个世界冠军的李世石九段,吸引了过亿人通过网络和电视观看。才出道两年的AlphaGo,以四比一战胜棋王,震撼了国际棋坛和人工智能科学界。世界正目睹人工智能的巨大飞跃,未来它在博弈决策,科研开发等多个领域的应用,将对人类社会产生极其深远的影响。 本文由刘润东博士授权转载,略有调整,特别致谢。
比赛现场的专业九段棋评家,品评AlphaGo时,有时说这一步“不正常”,那一步“意想不到”,“罕见”等等。其他的一些棋评人,甚至说有些步法“有疑问”。其实,对于没有精神压力和缺乏情绪波动的机器,这些拟人化评语是毫无意义的。人类棋手的判断,多半只对棋的局部形势有效。纵使是九段高手,在错综复杂的局势,其实也无法精确算出每一步对整盘最后结果的影响。再者,AlphaGo是利用神经网络 (Neural Network),通过学习和自我对弈来提升“思考”水平。AlphaGo的软件开发团队,对它的某一步是完全没有控制的。
AlphaGo有两个神经网络,第一个是“策略网络”,它通过大量学习高段棋手的实战历史,总结出较有优势的下法,并推测对手的可能对策。这其实也是职业棋手从小训练的必经步骤,而AlphaGo只用一两年就完成了训练。第二个是“价值网络”,它对可能出现的各种变局,赋予一定价值,价值高者代表胜局。
AlphaGo利用以上两个神经网络,在对弈的每一步,把各种未来变局建立成一个蒙特卡洛 (Monte Carlo) 树,从中搜索出最有把握得胜的步法。要强调的是,尽管有其他可能取得更高得分的步法,AlphaGo总会选择胜算更高的一步。这跟一般人偏于选择取得眼前利益的方法不同。由于人类棋手无法算出一百步以后的结果,于是唯有选择比较明显的利益 (例如占地)。初学者更常常铤而走险,采取高风险、高回报的走法。另一方面,由于难以推算长远结果,人类棋手也不一定能理解AlphaGo所选的某些步法。
总结AlphaGo战胜棋王李世石的原因,其实就是机械式地运算,并稳健选择对全局最有胜算的每一步。
人类棋手有所谓“棋风”或“流派”,实质上,就是他们进取策略和风险管理的取向。对机器而言,它通过强化学习,调整网络的内在参数,在实战时,只是乖乖地执行运算。所以,各大专家多方钻研,总摸不出机器的派别,只能说它“稳重”而已。
世事如棋,人工智能的目的,当然不在击败棋王,更重要的是帮助人类找出顾全大局的决策。
以当今时局为例,美俄借叙利亚内战打代理战,结果是渔人得利,伊斯兰国极端组织壮大。而美俄双方,谁都没预测到这个结果。中东战火连年,导致难民大量涌入欧洲,使欧洲蒙受莫大冲击,也是各国始料不及。
在东方,北朝鲜发射卫星和导弹,又声称拥有小型核武器,美国明知道北朝鲜没有这种武器,却又选择与南韩作联合军事演习,希望以武力震慑一个不按常规办事的独裁者,将来的发展结果又会怎样呢?十多年前,美国怀疑伊拉克有核武器,便先发制人,发动战争生擒萨达姆。学习这段历史,对应付北朝鲜是否有帮助呢?
每个时期的政客,都受自身环境所限,选择眼前利益,或凭借直觉采取可行方法。就像棋手那样,缺乏真正的全局观念和长远推演。就这样,历史不断重演,悲剧重复出现。
可以想象,利用人工智能网络,大量学习历史,从而避免战争,减少人类伤亡将是极具价值的。国际组织如联合国,若能以此为工具,找出平衡各方利益,顾全长远大局的协议,而非受个别大国的利益左右,长远来讲对整体成员国会更为有利。
转到经济层面,投资策略中有所谓“基本派”和“技术派”,前者以商业体的盈利能力、现金流、资产负债、和未来增长作为估值基础,后者则观察市场的数据走向来指引买卖。当然,还有很多其他五花八门的投资策略。海量的市场和公司数据,大大超出了人类分析员能涵盖的范围。个别能胜于市场指数者,也难有把握将成功复制。
一般情况下,市场处于一个动态平衡。但这种平衡是不稳定的,投资者的贪婪和恐惧,加上全球化的羊群效应,在经济长落,和随之而来各国中央银行金融政策收紧或放松时,往往引起市场巨大起伏。有时,潜在风险被长时间忽略,最后导致大规模金融危机,冲击全球实体经济。
利用人工智能网络,学习历史数据和市场反应,并订立全面和长线的回报价值,来推演最佳投资策略。和围棋不同,这是一个多方博弈的环境。博弈多方虽然各自优化自己的回报,但整体能够达到一个动态平衡。这就像水平相近的棋手对弈,大家如果都没有失误,双方得分在整个过程是非常接近。而且,由于人工智能没有贪婪和恐惧,以投资组合整体的长线回报为目标,这个多方博弈的动态平衡是比较稳定的。
各国中央银行的决策者,也可以用人工智能工具,预测市场和实体经济对金融政策的反应,从而制定更为适合时宜的政策。
再举一个科技研究的例子。聚变是两颗轻的核子聚合成一颗重核、并因质量亏损而放出巨大能量的物理过程。自上世纪六十年代起,科学家便开始研究热核聚变,期望能控制聚变燃料,使它缓慢地释放能量,并用来发电。
可是直到现在,控制聚变还停留在科研阶段。主要原因是,热核聚变的燃料,是极高温的电离物质 (称为等离子体),它会产生各种各样的“集体行动”,逃脱科学家对它们的约束。
物理学家传统的方法,是通过等离子体物理理论,找出约束聚变燃料的方法。然而,等离子体的“集体行动”有着非常复杂的相互作用,所有这类理论都只是近似模型,难以精确预测它们的行动。
一个崭新的方法,是用人工智能网络监察和学习大量实验数据,从中得出控制聚变燃料的参数。例如,调控微波发射器的方向和强度,注入燃料的速率,约束磁场的大小等等。 对比起从纯理论推导的公式和由此而建立起来的电脑模型,这种主动的控制方法可能更有成效。
回到棋界,经此人机一役,我认为人类棋手已经明显弱于智能机器。将来的围棋比赛,大概会有一个机器组。各个机器对弈,不断相互强化学习,慢慢达到一个终极极限,在现有围棋规则下,顶级机器相互拉平,并且逐步抛离人类棋手。棋友们观看机器对弈,对比起观看人类对弈,跟我们现在看汽车大赛,对比看起田径赛跑差不多。
传统围棋有边界所限,这种不对称性的存在,使得在棋盘四个角和边界下子更有优势,从而限制了起始布局的可能方式,也减少了在边和角对弈的变化。要去除这种不对称性,可以把棋盘变成“无界棋盘”,在纵横方向,以19 (或更大的数) 为周期作重复。也就是,第20节点跟第一节点是等同的。这样一个有限但无界的围棋,布局不受边界限制,下法完全是棋手战略 (strategy) 和战术 (tactic) 的运用。对“无界围棋”的研究,可以帮助人工智能优化战略和战术。
在各种策略中广泛应用人工智能,能把人类固有的情绪、直觉剔除到决策之外,从而制定出顾全大局的长远决策。在多方博弈的环境中,各方的策略可以达到一个动态平衡,保持整体平稳演变。当然,人工智能只是一个工具,对从来没有见过的事件,它可能是束手无策。它比人脑有优越之处,但却不可能反过来主宰人类。
作者:刘润东,中山大学物理学士,麻省理工学院物理博士,曾参与等离子体物理、太阳物理、混沌和非线性系统研究,最近20年从事资讯技术研发工作。
本文由刘润东博士授权转载,特别致谢
service@scholarset.com 或微信ID: scholarset
回复“目录”或“分类”,浏览知社更多精华。长按二维码识别,可以关注/进入公众号进行回复。