其他

从零自学,AlphaZero以4个处理器,8小时训练秒杀AlphaGo v18!

2017-12-07 厉害了 AI前线

作者|Albert Silver
译者|Debra
编辑|Emily

昨天,谷歌 DeepMind AlphaGo“最年幼后裔”AlphaZero 青出于蓝而甚于蓝,击败一众棋类程序的事迹迅速在业内扩散开。据悉,AlphaZero 在经过 8 个小时训练后即击败战胜过李世石的 AlphaGo,经过 12 小时训练后击败世界顶级国际象棋程序 Stockfish,经过 14 小时训练击败世界顶级将棋程序 Elmo。而这只是在一声令下,告诉系统自己走棋并自学之后就可以做到。那么,有没有人对 AlphaZero 的原理感兴趣?它凭什么能轻易打败天下棋类程序无敌手(当然是目前)?

DeepMind 和 AlphaZero

大约三年前,Google 旗下的一家专门从事人工智能开发的公司 DeepMind,将其注意力转移到古老的围棋游戏上。曾经,围棋游戏是所有电脑程序跻身世界级地位需要攀登的一座高峰,甚至被认为是未来十年不会实现的目标!当电脑程序与韩国传奇人物李世石进行公开挑战赛时,几乎所有人都认为在这场别开生面的游戏里,人类必胜。世界顶级围棋选手李在石的历史记录,让他成为有史以来最伟大的围棋棋手之一。当然,这次比赛 AlphaGo 是赢或输不重要,人们在乎的是离这个神圣的目标有多接近。但是结果让人大跌眼镜,AlphaGo 以 4-1 战胜李世石,掀起围棋界的革命。不能接受这个结果的精英人士,终于开始承认,虽然并不是无与伦比,但 AlphaGo 是一台好机器。

一年后,传奇继续,AlphaGo 的新版本与世界围棋冠军柯洁对战。身为一名年轻的中国人,他的天才与马格纳斯·卡尔森(Magnus Carlsen)不相上下。16 岁,他赢得了自己的第一个世界冠军;17 岁,他成为世界冠军;19 岁,尽管表现非常好,但他仍以 0-3 败给了 AlphaGo,证明了新 AI 的惊人能力。

许多国际象棋棋手和权威人士都想知道,在国际象棋中这个程序的效果怎样,是不是能像在围棋游戏中一样有效?围棋由 19x19 的巨大网格组成,所有的子相同,并且不能移动,游戏中,提前计算是徒劳的,而模式识别才是王道。国际象棋则非常不同,在国际象棋中,知识和模式识别的价值毋庸置疑,但这个游戏非常讲究战术,只要简单地计算出对手就可以弥补知识的缺失。不仅电脑是这样,人类也是如此。

DeepMind 打败围棋冠军之后还能做什么呢?仅是能把比赛结果做得更好,比如把战绩从 3-0 提高到 20-0?当然不是。AlphaGo 已经成为了一种内部测试试金石,如果想要测试一个新的自学 AI 效果如何,只需要把它丢给 AlphaGo,看孰胜孰负就可以了。

DeepMind 训练的最新版本 AI 被称为 AlphaZero,与“前辈”相比,它有几个重要的不同。首先,它并没有经过大量训练,从零开始。其次,它只接受了简单的规则,除此之外没有任何其他信息输入。然而,结果却令人震惊,在短短的三天内,完全自学成才的 Go 程序比曾经击败过李世石的版本更强大,而这是之前的 AI 一年时间才能完成的。三周内,它又击败了曾打败柯洁的 AlphaGo 版本。值得注意的是是,李世石版本的 AlphaGo 使用了 48 个高度专业的处理器来创建程序,而这个新版本只用了 4 个!

(AlphaGo 进阶,DeepMind)

AlphaZero 自学国际象棋

挑战国际象棋可能看起来仍然是个不同寻常的任务。毕竟,DeepMind 通过 Go 展示了在尚未被解决的游戏里近乎革命性的突破,然而,20 年前“深蓝”已经战胜了国际象棋,现如今,一款好的智能手机也能击败国际象棋冠军。这样做的意义是什么?

(Garry Kasparov 和 DeepMind 创始人 Demis Hassabis)

DeepMind 的创始人德米斯·哈萨比斯(Demis Hassabis)与国际象棋的渊源颇深,他本身就是一名神童,13 岁时在全球 14 岁以下象棋选手中的世界排名为第 2,仅次于 Judit Polgar。他最终离开了国际象棋去追求其他的东西,比如 17 岁创建自己的电脑游戏公司。但人们仍然会有疑问:专注于国际象棋的 AlphaZero 能做到多好?它难道仅是一个聪明的,只论输赢的 AI?还是会有什么特别的地方?

David Silver 教授解释道,AlphaZero 能够独立学习以提高算法速度,而不是依靠分析大量数据,其中,原理算法的效率是最重要的因素。

成为一个新的范例

12 月 5 日,DeepMind 团队在康奈尔大学发表了一篇名为《使用通用强化学习算法自我掌握国际象棋和将棋》(《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》)的新论文,结果令人咋舌。AlphaZero 能做到的不仅是掌握这个游戏,而且以不可思议的方式达到了新的高度。在与 Stockfish 的对战中,它以 64:36 的比分赢得比赛,而且是零败绩(28 胜 72 负)!

值得注意的是,Stockfish 是在运行速度快 900 倍的计算机上运行的!事实上,AlphaZero 每秒钟计算大约 8 万个位置,而用 64 个线程(可能是一个 32 核心计算机)在 PC 上运行的 Stockfish 每秒可以计算 7000 万个位置。为了更好地理解 Stockfish 如何一败涂地,设想如果另一个版本的 Stockfish 运行速度慢了 900 倍,这相当于大约少走棋 8 步!

《使用通用强化学习算法自我掌握国际象棋和将棋》论文中讲道:“AlphaZero 通过使用其深层神经网络更有选择性地集中在最优变体——类似 Shannon 最初提出的更加”类人“的搜索方法上,来弥补评估数量较少的缺陷 。图 2 表示,AlphaZero 每个玩家以 Elo 规模计算的思考时间,与 Stockfish 和 Elmo 40 毫秒的思考时间相比的可扩展性。AlphaZero 的 MCTS 思维时间比 Stockfish 和 Elmo 效率更高,这使得人们普遍认为 alpha-beta 搜索在这些领域本质上是优越的。

(此图表明,AlphaZero 的思考时间越长,效率比 Stockfish 更优)换句话说,AlphaZero 不像现在国际象棋引擎所使用的混合强制的方法,而是向另一个完全不同的方向,选择一种模拟人类思维方式、极具选择性的搜索方法。一个顶尖的玩家可能在一致性和深度上超过较弱的对手,但即使是与最弱的计算机程序相比,人类的计算能力也仍然不能望其项背,因为人类走棋依靠的是纯粹的知识。尽管加里·卡斯帕罗夫(Garry Kasparov)输给了深蓝(Deep Blue),Deep Blue 每秒钟的计算速度可以达到 2 亿个位置,我们仍不能确定它是否真的比 Garry Kasparov 聪明。如果 AlphaZero 真的能够使用它的理解力,让对手 900 倍的速度仍可以胜出,那么它就可能是一个重大的范式转变。

AlphaZero 如何走棋?

由于 AlphaZero 没有接受任何关于象棋的知识,这意味着不存在博弈或开放理论,它必须依靠自己发现开放理论。而且,这只是 24 小时自学的结果。DeepMind 团队制作了图表,展示了它从发现开放理论,到变得更加强大的图表。

AlphaZero 的首席科学家 David Silver 教授解释道,AlphaZero 在围棋游戏中学习开放理论,并逐渐择优弃劣,在国际象棋中也是如此。

在上面的图表中,我们可以看到,在比赛初期,AlphaZero 热衷于使用法兰西防御(French Defense),但两个小时后开始越来越少使用这种方法。

卡罗一坎防御(The Caro-Kann)的效果更好,并在 AlphaZero 的开放选择中占据了首要位置,直到它也逐渐被淘汰。那么,AlphaZero 在学习过程结束时喜欢哪些开放理论?答案是英格兰开局(The English Opening )和后翼弃兵(Queen's Gambit)!

需要注意的是,这与一般的引擎游戏有所不同。现代的国际象棋引擎专注于活动,并有特殊的保护措施,以避免被逼入死角位置,因为它们的理解力有限,常常在意识到情况之前就陷入了死胡同。AlphaZero 没有这样的问题,可以向王蛇一样置对手于死地,它令人印象深刻的地方还在于其能够找到引擎都发现不了的策略。

未来在哪里?

那么,这个结果对象棋 AI 和其他领域意味着什么?恐怕只能用一个被滥用的词“Game Changer”来描述了。深蓝虽然可以被视作 AI 象棋对战的一个突破性的里程碑,但其结果是得益于专门用于对付象棋的高度专业化的硬件设备,只能玩象棋而不能玩围棋或其他种类的游戏。而 AlphaZero 这种完全开放式的人工智能,能够从最少的信息中学习,并将其提升到很高的水平,它的价值并不在于能在多少比赛中战胜人类,而是能够产生实际的用途,如分析疾病、饥荒以及其他真正解决问题的方案。

(数月内,用于创建 AlphaGo 的革命性技术开始出现在 Go 的顶级 PC 程序中)对于国际象棋程序来说,这可能会帮助在引擎上有所突破。Go 就是这样的,多年来,Go 程序已经无法取得任何有意义的进展,然后出现了 AlphaGo。一篇论文详细介绍了开发和使用 AlphaZero 的所有技术和算法,以供人们获取信息参考追随他们的脚步。几个月内,Crazy Stone 等顶级程序的新版本开始提供应用了深度学习的引擎,使得效率大大提高。

文章来源:

https://en.chessbase.com/post/the-future-is-here-alphazero-learns-chess



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存