《连线》揭秘人工智能Libratus是如何击败德州扑克顶级玩家的？

2017-02-03 人工智能学家

人工智能学家

Libratus是个里程碑，这意味着从华尔街的交易到网络安全乃至于拍卖和政治谈判，这种AI都可以扮演角色。

编者按： 1 月 30 日，宾夕法尼亚州匹兹堡Rivers赌场，耗时20天的德州扑克人机大战尘埃落定。卡耐基梅隆大学（CMU）开发的AI程序Libratus 击败人类顶级职业玩家，赢取了20万美元的奖金。尽管之前Google DeepMind的AlphaGo在与李世石的5番棋围棋大战以及在网络上跟顶级围棋选手的60番棋大战中出尽了风头。但相对而言德州扑克对于AI却是更大的挑战，因为AI只能看到游戏的部分信息，游戏并不存在单一的最优下法。那么CMU的Libratus是如何击败人类顶级的职业玩家的呢？《连线》杂志的这篇文章为我们揭秘。

在几乎3个星期的时间里，Dong Kim都呆在匹兹堡的一个赌场内跟一台机器玩扑克。但Kim不是普通的扑克玩家。跟他对垒的也不是普通的机器。而这场比赛也不是普通的扑克游戏。

28岁的Kim是全世界最好的扑克玩家之一。而那台由卡内基梅隆大学的两位计算机科学研究人员开发的机器，是一套运行在匹兹堡的一台超级计算机的人工智能系统。在整整20天的时间内，他们都在玩无限制德州扑克比赛，这是一种尤其复杂的扑克游戏形式，其投注策略往往要经过很多手。

这场比赛刚刚结束不久。大概赛程过半的时候，Kim开始觉得Libratus好像能看到他的牌。不过他说：“我不是指责它作弊。而是说它有那么好。”实际上好到击败了Kim及其他的3名全球顶级人类玩家——这是人工智能的第一次。

在这次比赛期间，Libratus的创造者对这套系统的运作方式显得遮遮掩掩，大家不清楚它是如何设法取得如此成功的，如何以其他机器前所未有的方式模仿了人类直觉的。但结果证明，该AI能达到如此高度是因为它不仅仅只是一个AI。

Libratus依靠了3套不同的系统的协作，这提醒我们现代AI并不是由一项而是多项技术驱动的。这段时间以来深度神经网络抓住了大多人的眼球，当然这也有很好的理由：它们为一些全球最大型的技术公司从图像识别到翻译乃至于搜索的一切提供了动力。但神经网络的成功也为大量其他帮助机器模仿甚至超越人类天才的AI技术注入了新生命。

比方说，Libratus就没有使用神经网络。它主要靠的是强化学习，这是人工智能的一种，一种极其强调试错的方法。其实质就是自己跟自己玩大量的游戏。

Google的DeppMind实验室利用强化学习来开发AlphaGo，这套系统攻克围棋的时间比预期早了10年，但这两套系统之间有一个关键的不同。AlphaGo是通过分析人类玩家的3000万份棋谱来学习游戏的，然后才通过自己跟自己下棋来改进自己的技能。相对而言，Libratus却是从零开始学的。

通过一种名为反事实遗憾最小化（counterfactual regret minimization）的算法，它先是随机地玩，然后最终在经过几个月的训练以及玩了上万亿手扑克之后，它也达到了能挑战最好人类玩家的高度，不仅如此，它的玩法还是人类所不能的——它下注的范围要大得多，而且会对这些赌注随机化，这样对手就更难猜自己手上都有什么牌了。跟导师Tuomas Sandholm一起开发了这套系统的CMU研究生Noam Brown说：“我们只是向AI描述了这个游戏，但没有告诉它怎么玩。它完全是独立于人的玩法形成自己的策略的，而且它的玩法跟人的玩法会非常不一样。”

但这只是第一阶段。在匹兹堡的比赛期间，第二套系统会分析游戏状态并聚焦于第一套系统的注意力。这套系统属于一种“残局解算器（end-game solver）”，上周一Sandholm 和Brown发表的论文详细描述了它的细节。在第二套系统的帮助下，第一套系统再也不需要像过去那样跑完所有可能的场景了。它可以只试探其中的一些场景。也就是说，Libratus不仅仅是在在比赛前学习，而且还能在比赛中学到东西。

光靠这两套系统就已经很有效率了。但Kim等其他玩家仍然能够找出机器玩法的一些模式然后设法加以利用。为此，Brown和Sandholm开发了第三套系统。每天晚上Brown都会跑一个算法来识别出那些模式然后从策略中剔除掉。他说：“一个晚上它就能计算完然后在次日把一切准备就绪。”

如果这似乎不公平的话，好吧，AI就是这么干。这并不仅仅是AI跨越了许多技术。人类往往也频繁加入进来，积极地改进AI、跑AI或者增强AI。Libratus的确是个里程碑，展示了一种新型的AI，从华尔街的交易到网络安全乃至于拍卖和政治谈判，这种AI都可以从中扮演一定的角色。曾帮助Google设立中心AI实验室，现为百度首席科学家的吴恩达说：“扑克曾经是AI最难攻克的游戏之一，因为关于游戏状态你只能看到部分信息。扑克并没有单一的最优下法。相反，AI玩家必须让自己的行动随机化，这样它诈唬时才能让对方无法确定真假。”

Libratus把这一点做到了极致。它的下注非常的随机化，甚至超过了人类最好玩家的水平。而且如果这个方法不奏效的话，Brown晚上跑的算法就会弥补它的不足。金融市场交易员也可以采取相同的做法。外交官亦然。这是一个强大且相当令人不安的想法：机器可以用大赌注吓退人类。

本文来自：36Kr

【重磅】未来科技学院前沿科技趋势学习班（2017第一期）报名

每一次人类社会的重大技术变革都会导致新的科学革命，互联网与人工智能对于人类的影响已经远远超过了大工业革命。人工智能、互联网、脑科学、虚拟现实、机器人、生物基因等领域正在相互融合，形成一股强大的洪流，对人类社会的各个领域产生巨大的影响。

一日千里的科技进展，层出不穷的新概念，使企业家，投资人和社会大众面临巨大的科技发展压力，前沿科技现状和未来发展方向是什么？社会大众，企业家和投资家如何应对新科学技术带来的挑战？

在科学院大数据与知识管理重点实验室，泰智会，人工智能学家的支持下，未来科技学院邀请国内和国际著名科学家、科技企业家讲授人工智能、互联网、脑科学、虚拟现实、机器人，3D打印、生物基因等领域的基本原理和未来发展趋势。欢迎投资界、企业界，科研机构的人士参加。

未来科技学院第一期前沿科技趋势学习班将在2017年2月下旬（2月24日-26日）在北京中关村互联网金融中心1楼未来科技讲堂举办。线下集中学习三天，之后学员将通过未来科技学院的线上平台进行更多前沿科技讲座学习和答疑互动。集中学习期间，将举办未来科技交流酒会，加强学员以及专家之间的沟通交流。

未来科技学院第一期学员将受邀加入未来科技学院的“未来科技创新促进会”，共享未来科技学院的高端科学家、企业家和投资人资源，共同解决企业和投资过程中遇到的科技问题；参与前沿科技未来发展重大课题研究；参加未来科技学院组织的讲座、参观和会议；选择投资未来科技学院孵化的前沿科技创新创业项目。

点击本文左下角”阅读原文”了解详细信息

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划

🪁来汕头，实现“露营自由”