其他
Science:DeepMind又一突破,AI玩转了西洋陆军棋,跻身历史top3
The following article is from 学术头条 Author 学术头条
大数据文摘转载自学术头条
对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以被用来评估 AI 代理在受控环境下自主开发和执行策略的能力。
如今,AI 在此前尚未掌握的经典棋类游戏 Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准——
以 97% 的最低胜率击败了其他 AI 机器人;在 Gravon 平台上与人类专业玩家对弈,取得了 84% 的总胜率,在年初至今和历史排行榜上都排在前三名。
值得注意的是,这一惊人表现是在没有部署任何搜索方法的情况下实现的,这是 AI 之前在棋类游戏中取得多个里程碑式成就的关键。
相关研究论文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”为题,已发表在权威科学期刊 Science 上。
多年来,Stratego 一直是人工智能行业的下一个前沿领域之一。Stratego 玩家既需要有像玩国际象棋一样的长期战略性思考,也需要能够像打扑克一样处理不完全的信息。
不完全信息,意味着参与人在进行博弈时不清楚博弈中的某些要素。例如,在桥牌游戏中,玩家并不清楚其他玩家手中的牌,在拍卖会中,竞拍人并不清楚其他竞拍人对物品的估价。
这个名为“DeepNash”的 AI 代理出自 DeepMind,在他们看来,这代表了一个非凡的成果;同样,Stratego 社区也认为,这用现有技术是不可能实现的。
Stratego 诞生于 1947 年,与中国陆军棋不同,其军衔、棋子数量较多,棋盘设计较为简单,没有铁路、行营,也没有裁判,当两方棋子相遇后,才会揭开来判断大小。二者的相同之处,都是以夺得对方军旗或消灭所有可移动的棋子为胜利标志。
Stratego 便是一种不完全信息游戏。与之相反,国际象棋、跳棋、日本将棋和围棋可看作完全信息博弈,因为双方完全清楚游戏规则,当前局面对方可能的下法等信息。
而且,Stratego 具有非常复杂的结构,其博弈树具有 10^535 种可能的状态,比无限德州扑克(10^164)和围棋(10^360)都要多。
另外,在特定情况下,Stratego 玩家需要在游戏开始时推理出多于 10^66 对可能的排布,而在德州扑克中,这一数字仅为 10^6;完全信息游戏则没有这一阶段,相对更为简单。
在 Stratego 中,双方各有代表元帅(Marshal)、将军(General)、上校(Colonel)、中校(Major)、上尉(Captain)、中尉(Lieutenant)、士官(Sergeant)、除雷兵(Miner)、斥侯(Scout)、间谍(Spy)、地雷(Bomb)、军旗(Flag)的棋子。