腾讯AI登顶国际麻将平台,刷新全球最好成绩
2017年,腾讯AI夺冠围棋的时候(网友呼吁我们进军麻将)
2019年,腾讯AI打赢王者职业选手的时候(网友呼吁我们进军麻将)
2020年,腾讯AI获得AI足球世界冠军的时候(网友呼吁我们也进军麻将)
先给大家介绍一下天凤平台:
“天凤”,是知名的日本麻将竞技平台,拥有较为体系化的竞技规则和专业段位规则,受到职业麻将届的广泛认可。
全世界的麻将AI基本都在这里进行训练和打段。(既然要出道,就要在AI最多的平台取得成绩并出道)
“段位”,就有点类似于我们打王者荣耀,根据参与的局数和不断累积的积分,判定你的段位,王者有:青铜……钻石、星耀、王者、荣耀王者。
天凤则按照1段—11段来进行排位,10段就相当于王者荣耀里的荣耀王者段位。
天凤稳定段位bootstrap的分布,绝艺LuckyJ显著强于之前最强的两个日本麻将AI(Suphx,NAGA)LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05
这是目前排名前三的麻将AI,绝艺LuckyJ花了一千多局,就达到了10段,在特上房所有对战数超过1000把的注册玩家,稳定段位历史排名第一。
LuckyJ看起来“完全没有漏洞”!
一方面通过保留安全牌等策略降低事故率。
另一方面,即使手牌中同时存在多个和牌方向,LuckyJ也可以在这些复杂的分支中顺利的进行下去。
值得一提的是,绝艺LuckyJ不仅达到日本麻将天凤十段,而且之前还在国标麻将线下邀请赛中战胜了6位国标麻将职业选手。(麻将在中国早已经成为了一项专业的运动,有着一大批参加专业赛事的选手)
成为首个战胜国标麻将顶尖职业选手的麻将AI。
经过数月与腾讯麻将AI的对抗测试,通过分析AI对局,AI无论在进攻还是防守都让我印象深刻。
在进攻端,AI可以呈现出快速成型、保持变化、根据场况做出最佳选择;在防守端,从初期的控制节奏和方向,到后期可以精准调整、果断变张,可谓做到了违害就利、大破大立。
我们通常所谓的妙手、灵光一现,甚至基于经验和感觉做出的置之死地而后生的选择,对于AI来说可能算是常规操作。
第二个问题。
为什么这么长时间,才进军麻将?
因为麻将对于AI来说——难。
相对于围棋和象棋,双方的棋子都在桌面上,所有人都可以看到全局信息,这种情况叫完美信息博弈。
而像德州扑克和麻将,两者的共同点是有隐藏信息,玩家手牌都不可见,这种叫非完美信息博弈。
不管是完美信息博弈还是非完美信息博弈,过去棋牌类AI有两大核心技术要素。
离线训练:
其目的在于通过强化学习或其他算法,让AI学会玩游戏,并得到一个固定的离线策略。(离线策略:生成自己的对战策略,什么状态下应对什么动作)
在线搜索:
在线对战的时候,在线搜索技术可以通过强大的计算力来无穷枚举各种可能性,在离线策略的基础上进行实时调整,搜索到制胜路径。
也就是在和你下围棋时,你走了1步,AI脑海里已经想了1万步,然后从中挑选出最优的一步来和你下棋。
大家都知道的围棋AlphaGo采用的方法就是强化学习+蒙特卡洛树搜索。
但是,针对完美信息博弈的技术并不适用于非完美信息博弈场景。
具体来说,传统强化学习并不能收敛到非完美信息博弈的最强策略。
另外,蒙特卡洛树搜索又要求对手手牌可见。
所以,德州扑克AI采用的方法就是遗憾值最小化算法+安全子博弈搜索。
德州扑克只有2张不可见手牌,计算复杂度没有特别高,可以借用计算机的算力来满足传统的算法。
而麻将有136张牌,手牌只有13张牌,存在着巨量隐藏信息,是德州扑克的几亿……亿倍。
如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息,纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。
此外,在麻将除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌以及是否胡牌。
任意一位玩家的行为都会改变摸牌的顺序,涉及了大量的决策。
总之,在麻将面前,过去的方法并不完全适用:
传统离线策略训练方法,要么算的快但算不好(强化学习),要么算的好但算不快(遗憾值最小化算法)。
传统的在线搜索算法,要么不适用(蒙特卡洛树搜索),要么计算复杂度太高(安全子博弈搜索)。
所以,麻将AI要打好麻将,就得另辟蹊径,找到一种方法:
既能训练强大的离线策略还要满足高效的在线搜索。
要什么有什么。
于是,我们AI Lab 的研究员提出了一种新型策略优化算法————ACH:actor critic hedge。
采用了基于强化学习和遗憾值最小化的自我博弈技术,使得AI能从零开始自我学习和提高,并最终收敛到一个最强的混合策略。
该算法具备传统强化学习可扩展性好(算的快)的优点,又部分继承了遗憾值最小化算法的一些理论性质(算的好),相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备),也更鲁棒。
同时我们基于乐观价值估计的思想,提出了一种高效的非完美搜索方法。
一是对搜索树做了高效的变换和剪枝,避免了AI大量的无效搜索,极大提高了搜索效率。
另一方面,区别于过去搜索与离线策略的结合方式,我们将搜索返回的结果作为一种“特征”输入到自研的策略神经网络,使得AI在有海量隐藏信息的游戏状态中,仍可以实时调整当前策略。
如此一来,便解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题,使深度强化学习结合非完美信息搜索成为可能。
其实,我们研究麻将AI,并不仅仅是为了博弈或竞技。
是因为,麻将和我们生活环境很像。
都存在大量的隐藏信息和不确定因素,都需要在复杂的推理策略和带有随机性的博弈中做出决策。
训练麻将AI,其实就是在训练AI更好地去认识人类的世界。
最终让AI能早日走进那些人类生活中,比如金融交易、自动驾驶、交通物流、拍卖系统等……
解决真实世界的复杂问题。
标星我,了解更多腾讯产品动态
进入公众号 - 右上角“…” - 设为星标