AlphaZero在1000盘对抗赛中重创Stockfish8
本文翻译并修改于chess.com,版权归原作者所有
去年12月,AlphaZero的出现如同冲击波一样席卷全球。而就在今天,人工智能团队DeepMind公布了“引擎自我学习”这一项目的最新成果,结果令人震惊不已:新版本的AlphaZero以155胜,6负,839平的战绩碾压国象顶尖引擎Stockfish8.毫无悬念地再一次证明了,AlphaZero代表了全球最强大的国际象棋水平。
不仅如此,AlphaZero在一系列让时赛中也同样击败了Stockfish8,即使是在1:10的时间赔率差距下,AlphaZero依然可以击败Stockfish8。根据DeepMind的说法,AlphaZero还击败了Stockfish9,其结果与Stockfish8基本相同,不仅如此,AlphaZero还赢得了与带有强大开局库的Stockfish8的比赛,添加强大开局库毫无疑问对Stockfish的帮助是极大的,当AlphaZero执黑时,Stockfish赢得许多场胜利,但是仍不足以获取整个对抗赛的胜利。
(以上为AlphaZero对阵无布局库和有布局库的Stockfish的对局结果,绿色为胜局数,红色为负局数,图片来源于Science杂志)
这一结果已经由DeepMind的研究人员发表在了《科学》期刊上,并由DeepMind提供给选定的国际象棋媒体,该公司总部位于伦敦,由Alphabet所拥有。
这1000场比赛是于2018年初进行的,在比赛中,双方的时限为每方三小时,每步棋加15秒,这一时限解决了在2017年AlphaZero与Stockfish对抗赛上的最大争议点:即每步棋一分钟对于Stockfish而言是处于劣势的。(2017年AlphaZero与Stockfish对抗赛的时限为每步棋一分钟)
而三个小时,每步棋外加15秒的时限,便不存在这样的争议了,因为这一时限可以给任何引擎足够的思考时间,可以让引擎充分发挥出自己的水平,在让时赛中,即使是1:10的时间赔率,AlphaZero依然占有优势,当时间赔率达到1:30时,Stockfish才占据上风。
AlphaZero让时赛的结果表明:它不仅比任何传统引擎都要强大的多,并且使用了更有效的搜索好棋的方法,根据DeepMind的说法,AlphaZero使用Monte Carlo树进行搜索,每秒可以检索60000个局面。
(AlphaZero如何处理局面,搜索招法的图表分析,图片来源于Science杂志)
根据DeepMind的说法,AlphaZero从游戏规则开始学棋,使用机器自学技术不断更新自己的”神经网络“,5000个TPU(Google的张量处理单元)被用于生成第一组”自我对弈“,然后使用16个TPU训练”神经网络“。
其总训练时间是9个小时,从游戏规则开始,据DeepMind的说法,新版本的AlphaZero仅用了4个小时就超过了Stockfish,9个小时后,它便远超世界上所有的传统引擎。
在对抗赛中,Stockfish使用了44个CPU,AlphaZero使用了一台具有4个TPU和44个CPU的机器,Stockfish的散列大小为32GB,并且使用了”syzygy endgame database“。
点按“阅读原文”,可下载DeepMind公布的210盘对局。
(本文转自:“kb的国象天堂”微信公众号)