从零自学，AlphaZero以4个处理器，8小时训练秒杀AlphaGo v18!

Original 2017-12-07 厉害了 AI前线

作者｜Albert Silver

译者｜Debra

编辑｜Emily

昨天，谷歌 DeepMind AlphaGo“最年幼后裔”AlphaZero 青出于蓝而甚于蓝，击败一众棋类程序的事迹迅速在业内扩散开。据悉，AlphaZero 在经过 8 个小时训练后即击败战胜过李世石的 AlphaGo，经过 12 小时训练后击败世界顶级国际象棋程序 Stockfish，经过 14 小时训练击败世界顶级将棋程序 Elmo。而这只是在一声令下，告诉系统自己走棋并自学之后就可以做到。那么，有没有人对 AlphaZero 的原理感兴趣？它凭什么能轻易打败天下棋类程序无敌手（当然是目前）？

DeepMind 和 AlphaZero

大约三年前，Google 旗下的一家专门从事人工智能开发的公司 DeepMind，将其注意力转移到古老的围棋游戏上。曾经，围棋游戏是所有电脑程序跻身世界级地位需要攀登的一座高峰，甚至被认为是未来十年不会实现的目标！当电脑程序与韩国传奇人物李世石进行公开挑战赛时，几乎所有人都认为在这场别开生面的游戏里，人类必胜。世界顶级围棋选手李在石的历史记录，让他成为有史以来最伟大的围棋棋手之一。当然，这次比赛 AlphaGo 是赢或输不重要，人们在乎的是离这个神圣的目标有多接近。但是结果让人大跌眼镜，AlphaGo 以 4-1 战胜李世石，掀起围棋界的革命。不能接受这个结果的精英人士，终于开始承认，虽然并不是无与伦比，但 AlphaGo 是一台好机器。

一年后，传奇继续，AlphaGo 的新版本与世界围棋冠军柯洁对战。身为一名年轻的中国人，他的天才与马格纳斯·卡尔森（Magnus Carlsen）不相上下。16 岁，他赢得了自己的第一个世界冠军；17 岁，他成为世界冠军；19 岁，尽管表现非常好，但他仍以 0-3 败给了 AlphaGo，证明了新 AI 的惊人能力。

许多国际象棋棋手和权威人士都想知道，在国际象棋中这个程序的效果怎样，是不是能像在围棋游戏中一样有效？围棋由 19x19 的巨大网格组成，所有的子相同，并且不能移动，游戏中，提前计算是徒劳的，而模式识别才是王道。国际象棋则非常不同，在国际象棋中，知识和模式识别的价值毋庸置疑，但这个游戏非常讲究战术，只要简单地计算出对手就可以弥补知识的缺失。不仅电脑是这样，人类也是如此。

DeepMind 打败围棋冠军之后还能做什么呢？仅是能把比赛结果做得更好，比如把战绩从 3-0 提高到 20-0？当然不是。AlphaGo 已经成为了一种内部测试试金石，如果想要测试一个新的自学 AI 效果如何，只需要把它丢给 AlphaGo，看孰胜孰负就可以了。

DeepMind 训练的最新版本 AI 被称为 AlphaZero，与“前辈”相比，它有几个重要的不同。首先，它并没有经过大量训练，从零开始。其次，它只接受了简单的规则，除此之外没有任何其他信息输入。然而，结果却令人震惊，在短短的三天内，完全自学成才的 Go 程序比曾经击败过李世石的版本更强大，而这是之前的 AI 一年时间才能完成的。三周内，它又击败了曾打败柯洁的 AlphaGo 版本。值得注意的是是，李世石版本的 AlphaGo 使用了 48 个高度专业的处理器来创建程序，而这个新版本只用了 4 个！

（AlphaGo 进阶，DeepMind）

AlphaZero 自学国际象棋

挑战国际象棋可能看起来仍然是个不同寻常的任务。毕竟，DeepMind 通过 Go 展示了在尚未被解决的游戏里近乎革命性的突破，然而，20 年前“深蓝”已经战胜了国际象棋，现如今，一款好的智能手机也能击败国际象棋冠军。这样做的意义是什么？

（Garry Kasparov 和 DeepMind 创始人 Demis Hassabis）

DeepMind 的创始人德米斯·哈萨比斯（Demis Hassabis）与国际象棋的渊源颇深，他本身就是一名神童，13 岁时在全球 14 岁以下象棋选手中的世界排名为第 2，仅次于 Judit Polgar。他最终离开了国际象棋去追求其他的东西，比如 17 岁创建自己的电脑游戏公司。但人们仍然会有疑问：专注于国际象棋的 AlphaZero 能做到多好？它难道仅是一个聪明的，只论输赢的 AI？还是会有什么特别的地方？

David Silver 教授解释道，AlphaZero 能够独立学习以提高算法速度，而不是依靠分析大量数据，其中，原理算法的效率是最重要的因素。

成为一个新的范例

12 月 5 日，DeepMind 团队在康奈尔大学发表了一篇名为《使用通用强化学习算法自我掌握国际象棋和将棋》（《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》）的新论文，结果令人咋舌。AlphaZero 能做到的不仅是掌握这个游戏，而且以不可思议的方式达到了新的高度。在与 Stockfish 的对战中，它以 64:36 的比分赢得比赛，而且是零败绩（28 胜 72 负）！

值得注意的是，Stockfish 是在运行速度快 900 倍的计算机上运行的！事实上，AlphaZero 每秒钟计算大约 8 万个位置，而用 64 个线程（可能是一个 32 核心计算机）在 PC 上运行的 Stockfish 每秒可以计算 7000 万个位置。为了更好地理解 Stockfish 如何一败涂地，设想如果另一个版本的 Stockfish 运行速度慢了 900 倍，这相当于大约少走棋 8 步！

《使用通用强化学习算法自我掌握国际象棋和将棋》论文中讲道：“AlphaZero 通过使用其深层神经网络更有选择性地集中在最优变体——类似 Shannon 最初提出的更加”类人“的搜索方法上，来弥补评估数量较少的缺陷。图 2 表示，AlphaZero 每个玩家以 Elo 规模计算的思考时间，与 Stockfish 和 Elmo 40 毫秒的思考时间相比的可扩展性。AlphaZero 的 MCTS 思维时间比 Stockfish 和 Elmo 效率更高，这使得人们普遍认为 alpha-beta 搜索在这些领域本质上是优越的。

（此图表明，AlphaZero 的思考时间越长，效率比 Stockfish 更优）换句话说，AlphaZero 不像现在国际象棋引擎所使用的混合强制的方法，而是向另一个完全不同的方向，选择一种模拟人类思维方式、极具选择性的搜索方法。一个顶尖的玩家可能在一致性和深度上超过较弱的对手，但即使是与最弱的计算机程序相比，人类的计算能力也仍然不能望其项背，因为人类走棋依靠的是纯粹的知识。尽管加里·卡斯帕罗夫（Garry Kasparov）输给了深蓝（Deep Blue），Deep Blue 每秒钟的计算速度可以达到 2 亿个位置，我们仍不能确定它是否真的比 Garry Kasparov 聪明。如果 AlphaZero 真的能够使用它的理解力，让对手 900 倍的速度仍可以胜出，那么它就可能是一个重大的范式转变。

AlphaZero 如何走棋？

由于 AlphaZero 没有接受任何关于象棋的知识，这意味着不存在博弈或开放理论，它必须依靠自己发现开放理论。而且，这只是 24 小时自学的结果。DeepMind 团队制作了图表，展示了它从发现开放理论，到变得更加强大的图表。

AlphaZero 的首席科学家 David Silver 教授解释道，AlphaZero 在围棋游戏中学习开放理论，并逐渐择优弃劣，在国际象棋中也是如此。

在上面的图表中，我们可以看到，在比赛初期，AlphaZero 热衷于使用法兰西防御（French Defense），但两个小时后开始越来越少使用这种方法。

卡罗一坎防御（The Caro-Kann）的效果更好，并在 AlphaZero 的开放选择中占据了首要位置，直到它也逐渐被淘汰。那么，AlphaZero 在学习过程结束时喜欢哪些开放理论？答案是英格兰开局（The English Opening ）和后翼弃兵（Queen's Gambit）！

需要注意的是，这与一般的引擎游戏有所不同。现代的国际象棋引擎专注于活动，并有特殊的保护措施，以避免被逼入死角位置，因为它们的理解力有限，常常在意识到情况之前就陷入了死胡同。AlphaZero 没有这样的问题，可以向王蛇一样置对手于死地，它令人印象深刻的地方还在于其能够找到引擎都发现不了的策略。

未来在哪里？

那么，这个结果对象棋 AI 和其他领域意味着什么？恐怕只能用一个被滥用的词“Game Changer”来描述了。深蓝虽然可以被视作 AI 象棋对战的一个突破性的里程碑，但其结果是得益于专门用于对付象棋的高度专业化的硬件设备，只能玩象棋而不能玩围棋或其他种类的游戏。而 AlphaZero 这种完全开放式的人工智能，能够从最少的信息中学习，并将其提升到很高的水平，它的价值并不在于能在多少比赛中战胜人类，而是能够产生实际的用途，如分析疾病、饥荒以及其他真正解决问题的方案。

（数月内，用于创建 AlphaGo 的革命性技术开始出现在 Go 的顶级 PC 程序中）对于国际象棋程序来说，这可能会帮助在引擎上有所突破。Go 就是这样的，多年来，Go 程序已经无法取得任何有意义的进展，然后出现了 AlphaGo。一篇论文详细介绍了开发和使用 AlphaZero 的所有技术和算法，以供人们获取信息参考追随他们的脚步。几个月内，Crazy Stone 等顶级程序的新版本开始提供应用了深度学习的引擎，使得效率大大提高。

文章来源：

https://en.chessbase.com/post/the-future-is-here-alphazero-learns-chess

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间