从3000万手到3000万局，Alpha狗就是个苦练成才的苦逼娃

2017-12-22 AI起跑线 海豚学研社

海豚学研社

本文转载自公众号：AI起跑线

海豚小号推荐关注

上回说到，人人仰望的学霸Alpha狗，前生竟是游戏小霸王。这回接着说，Alpha狗的牛逼今世是如何炼成的。

Google DeepMind团队首先将围棋游戏网站上保存下来的多达3000万手的玩儿家棋谱输入给Alpha狗。

刚开始的时候，先由人类告诉Alpha狗，对手下了什么样的棋之后下一手该怎么下，但是，多达3000万手的数据要由人类教给Alpha狗，同时还要告诉它哪一手是好棋，哪一手是坏棋，几乎是不可能完成的任务。

哪怕可以，估计也需要花费极其漫长的时间。

这时候，DeepMind团队开始启用神经元网络和深度学习技术。也就是说，用接近于人脑工作机制的方法，让机器自己去学习该如何下下一手棋。

但是，Alpha狗只知道每下一手棋，盘面会发生变化，但并不知道围棋的具体规则。这时候，DeepMind团队就引入了“积分”的想法。在人工智能研究领域，这个积分，叫做“回报”（Reward）。

就好比人类玩电子游戏，打通关了就可以获得积分，多少秒以内打通关了就可以获得额外加分，如果用了某种特别的招数还能获得更高积分……等等，这样，玩家就会不自觉地尽全力去获得高分。

同理，如果给计算机设一道“获得更高积分”的目标后，计算机就会受到激励，去学习获得高分的方法和手段。

比如说，下围棋的话，这个目标就是：最终尽可能比对手获得更多的“地域”，就能获得高分。

即便如此，3000万手的棋谱，在数量上还是不够的。

“深度学习”这个方法在很早的时候就诞生了，但是，在当时，还很难在计算机上实际应用，很大的一个原因就是：需要超越常人想象的极其庞大数量的大数据。在没有互联网和云的时代，要获得这么大量的大数据，是几乎不可能的事情。但随着大数据时代的到来，深度学习的技术应用逐渐成为可能。

可是，3000万手的棋谱，还不够多，要提升Alpha狗的精度，还需要更多的数据。

于是，DeepMind团队想到的是，让计算机之间相互下棋。计算机相互下棋后，就会形成新的“经验值”数据，并被存储下来。

由于相同系统的AI相互下棋，很难创造性地产生新的下法，DeepMind团队就让不同系统的围棋AI相互对弈，或者，让同一系统的但不同版本的围棋AI相互对弈，这样，就产生了比3000万手棋谱更多的下棋经验。

对于这些新产生的经验，再让计算机学习，然后再相互对弈，再产生新的经验……如此反复循环。和人类不同，机器是不知疲倦的，它们可以一直训练下去。

最终，经过3000万“局”的训练和学习，世界级水平的围棋AI——Alpha狗才得以炼成。

苦孩子一个啊。

（关于神经元网络技术和深度学习的起源，我们下回分解。）

- End -

上一篇：惊呆！Alpha狗身世大披露，前生竟是“游戏小霸王”？！

我们是——

人人能懂的人工智能学习小组

我们还在预热中，赶紧上车！