查看原文
其他

从3000万手到3000万局,Alpha狗就是个苦练成才的苦逼娃

2017-12-22 AI起跑线 海豚学研社

海豚学研社


本文转载自公众号:AI起跑线

海豚小号  推荐关注




上回说到,人人仰望的学霸Alpha狗,前生竟是游戏小霸王。这回接着说,Alpha狗的牛逼今世是如何炼成的。


Google DeepMind团队首先将围棋游戏网站上保存下来的多达3000万手的玩儿家棋谱输入给Alpha狗。


刚开始的时候,先由人类告诉Alpha狗,对手下了什么样的棋之后下一手该怎么下,但是,多达3000万手的数据要由人类教给Alpha狗,同时还要告诉它哪一手是好棋,哪一手是坏棋,几乎是不可能完成的任务。


哪怕可以,估计也需要花费极其漫长的时间。


这时候,DeepMind团队开始启用神经元网络深度学习技术。也就是说,用接近于人脑工作机制的方法,让机器自己去学习该如何下下一手棋。


但是,Alpha狗只知道每下一手棋,盘面会发生变化,但并不知道围棋的具体规则。这时候,DeepMind团队就引入了“积分”的想法。在人工智能研究领域,这个积分,叫做“回报”(Reward)。


就好比人类玩电子游戏,打通关了就可以获得积分,多少秒以内打通关了就可以获得额外加分,如果用了某种特别的招数还能获得更高积分……等等,这样,玩家就会不自觉地尽全力去获得高分。


同理,如果给计算机设一道“获得更高积分”的目标后,计算机就会受到激励,去学习获得高分的方法和手段。


比如说,下围棋的话,这个目标就是:最终尽可能比对手获得更多的“地域”,就能获得高分。


即便如此,3000万手的棋谱,在数量上还是不够的。


“深度学习”这个方法在很早的时候就诞生了,但是,在当时,还很难在计算机上实际应用,很大的一个原因就是:需要超越常人想象的极其庞大数量的大数据。在没有互联网和云的时代,要获得这么大量的大数据,是几乎不可能的事情。但随着大数据时代的到来,深度学习的技术应用逐渐成为可能。


可是,3000万手的棋谱,还不够多,要提升Alpha狗的精度,还需要更多的数据。


于是,DeepMind团队想到的是,让计算机之间相互下棋。计算机相互下棋后,就会形成新的“经验值”数据,并被存储下来。


由于相同系统的AI相互下棋,很难创造性地产生新的下法,DeepMind团队就让不同系统的围棋AI相互对弈,或者,让同一系统的但不同版本的围棋AI相互对弈,这样,就产生了比3000万手棋谱更多的下棋经验。


对于这些新产生的经验,再让计算机学习,然后再相互对弈,再产生新的经验……如此反复循环。和人类不同,机器是不知疲倦的,它们可以一直训练下去。


最终,经过3000万“”的训练和学习,世界级水平的围棋AI——Alpha狗才得以炼成。


苦孩子一个啊。


(关于神经元网络技术和深度学习的起源,我们下回分解。)



- End -



上一篇:惊呆!Alpha狗身世大披露,前生竟是“游戏小霸王”?!

相关阅读:AI解密学习真谛:无效学习累成狗,有效学习狗成神





我们是——

人人能懂的人工智能学习小组


我们还在预热中,赶紧上车!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存