腾讯AI登顶国际麻将平台，刷新全球最好成绩

腾讯 2023-07-16

2017年，腾讯AI夺冠围棋的时候（网友呼吁我们进军麻将）

2019年，腾讯AI打赢王者职业选手的时候（网友呼吁我们进军麻将）

2020年，腾讯AI获得AI足球世界冠军的时候（网友呼吁我们也进军麻将）

今天，腾讯AI绝艺LuckyJ打麻将出道：

腾讯麻将AI在日本麻将天凤平台特上房达到稳定段位10.68段。

刷新了 AI 在麻将领域取得的最好成绩，这代表着腾讯研发团队在决策AI方向上取得了业界领先的成绩和突破。

相信你肯定有疑问：

为什么中国麻将AI要去日本平台？

为什么过去这么多年才来？

你且听我细说。

首先是第一个问题，为什么去日本打比赛？

先给大家介绍一下天凤平台：

“天凤”，是知名的日本麻将竞技平台，拥有较为体系化的竞技规则和专业段位规则，受到职业麻将届的广泛认可。

全世界的麻将AI基本都在这里进行训练和打段。（既然要出道，就要在AI最多的平台取得成绩并出道）

“段位”，就有点类似于我们打王者荣耀，根据参与的局数和不断累积的积分，判定你的段位，王者有：青铜……钻石、星耀、王者、荣耀王者。

天凤则按照1段—11段来进行排位，10段就相当于王者荣耀里的荣耀王者段位。

天凤平台，7段以上3037人，约占百分之一，而能达到 10 段的只有 27 人（含AI），只占不到万分之一。

天凤稳定段位bootstrap的分布，绝艺LuckyJ显著强于之前最强的两个日本麻将AI（Suphx，NAGA）LuckyJ vs Suphx p value=0.02883；LuckyJ vs NAGA p value=3e-05

这是目前排名前三的麻将AI，绝艺LuckyJ花了一千多局，就达到了10段，在特上房所有对战数超过1000把的注册玩家，稳定段位历史排名第一。

天凤十段，日本麻将战术研究家，yousei（来自日本），天凤ID：黒猫@ぺろぺろ☆ ：

LuckyJ看起来“完全没有漏洞”！

一方面通过保留安全牌等策略降低事故率。

另一方面，即使手牌中同时存在多个和牌方向，LuckyJ也可以在这些复杂的分支中顺利的进行下去。

麻将起源于中国，是国粹。

小区偶然经过的大爷大妈，可能都是隐藏的高手。

值得一提的是，绝艺LuckyJ不仅达到日本麻将天凤十段，而且之前还在国标麻将线下邀请赛中战胜了6位国标麻将职业选手。（麻将在中国早已经成为了一项专业的运动，有着一大批参加专业赛事的选手）

成为首个战胜国标麻将顶尖职业选手的麻将AI。

杨磊，国标麻将职业选手，标榜麻将运动协会会长，最好成绩：2007年中国牌王赛牌王，2007年王中王比赛冠军：

经过数月与腾讯麻将AI的对抗测试，通过分析AI对局，AI无论在进攻还是防守都让我印象深刻。

在进攻端，AI可以呈现出快速成型、保持变化、根据场况做出最佳选择；在防守端，从初期的控制节奏和方向，到后期可以精准调整、果断变张，可谓做到了违害就利、大破大立。

我们通常所谓的妙手、灵光一现，甚至基于经验和感觉做出的置之死地而后生的选择，对于AI来说可能算是常规操作。

第二个问题。

为什么这么长时间，才进军麻将？

因为麻将对于AI来说——难。

相对于围棋和象棋，双方的棋子都在桌面上，所有人都可以看到全局信息，这种情况叫完美信息博弈。

而像德州扑克和麻将，两者的共同点是有隐藏信息，玩家手牌都不可见，这种叫非完美信息博弈。

不管是完美信息博弈还是非完美信息博弈，过去棋牌类AI有两大核心技术要素。

离线训练：

其目的在于通过强化学习或其他算法，让AI学会玩游戏，并得到一个固定的离线策略。（离线策略：生成自己的对战策略，什么状态下应对什么动作）

在线搜索：

在线对战的时候，在线搜索技术可以通过强大的计算力来无穷枚举各种可能性，在离线策略的基础上进行实时调整，搜索到制胜路径。

也就是在和你下围棋时，你走了1步，AI脑海里已经想了1万步，然后从中挑选出最优的一步来和你下棋。

大家都知道的围棋AlphaGo采用的方法就是强化学习+蒙特卡洛树搜索。

但是，针对完美信息博弈的技术并不适用于非完美信息博弈场景。

具体来说，传统强化学习并不能收敛到非完美信息博弈的最强策略。

另外，蒙特卡洛树搜索又要求对手手牌可见。

所以，德州扑克AI采用的方法就是遗憾值最小化算法+安全子博弈搜索。

德州扑克只有2张不可见手牌，计算复杂度没有特别高，可以借用计算机的算力来满足传统的算法。

而麻将有136张牌，手牌只有13张牌，存在着巨量隐藏信息，是德州扑克的几亿……亿倍。

如上图所示，横坐标信息集数目表示可观察状态的多少，即牌面的信息，纵坐标信息集平均大小表示隐藏信息多少，即其他所有对手的手牌的可能性。

此外，在麻将除了正常的摸牌、打牌之外，还要决定是否吃牌、碰牌、杠牌以及是否胡牌。

任意一位玩家的行为都会改变摸牌的顺序，涉及了大量的决策。

总之，在麻将面前，过去的方法并不完全适用:

传统离线策略训练方法，要么算的快但算不好（强化学习），要么算的好但算不快（遗憾值最小化算法）。

传统的在线搜索算法，要么不适用（蒙特卡洛树搜索），要么计算复杂度太高（安全子博弈搜索）。

所以，麻将AI要打好麻将，就得另辟蹊径，找到一种方法：

既能训练强大的离线策略还要满足高效的在线搜索。

要什么有什么。

于是，我们AI Lab 的研究员提出了一种新型策略优化算法————ACH：actor critic hedge。

采用了基于强化学习和遗憾值最小化的自我博弈技术，使得AI能从零开始自我学习和提高，并最终收敛到一个最强的混合策略。

该算法具备传统强化学习可扩展性好（算的快）的优点，又部分继承了遗憾值最小化算法的一些理论性质（算的好），相比传统的强化学习方法，该策略优化算法在非完美信息游戏中训练得到的策略更平衡（攻守兼备），也更鲁棒。

同时我们基于乐观价值估计的思想，提出了一种高效的非完美搜索方法。

一是对搜索树做了高效的变换和剪枝，避免了AI大量的无效搜索，极大提高了搜索效率。

另一方面，区别于过去搜索与离线策略的结合方式，我们将搜索返回的结果作为一种“特征”输入到自研的策略神经网络，使得AI在有海量隐藏信息的游戏状态中，仍可以实时调整当前策略。

如此一来，便解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题，使深度强化学习结合非完美信息搜索成为可能。

其实，我们研究麻将AI，并不仅仅是为了博弈或竞技。

是因为，麻将和我们生活环境很像。

都存在大量的隐藏信息和不确定因素，都需要在复杂的推理策略和带有随机性的博弈中做出决策。

训练麻将AI，其实就是在训练AI更好地去认识人类的世界。

最终让AI能早日走进那些人类生活中，比如金融交易、自动驾驶、交通物流、拍卖系统等……

解决真实世界的复杂问题。

标星我，了解更多腾讯产品动态

进入公众号 - 右上角“…” - 设为星标

常德悲剧：让谴责无差别杀戮之声更加响亮一点

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

这家头部券商资管总经理"迎新"

腾讯AI登顶国际麻将平台，刷新全球最好成绩

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

这家头部券商资管总经理"迎新"

生成图片，分享到微信朋友圈

腾讯AI登顶国际麻将平台，刷新全球最好成绩

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时