查看原文
其他

惊呆!Alpha狗身世大披露,前生竟是“游戏小霸王”?!

2017-12-20 AI起跑线 海豚学研社

AI起跑线



本文转载自公众号:AI起跑线

海豚小号  推荐关注



上回我们说到,人工智能界的鄙视链:在Alpha狗看来,“深蓝”根本不是AI。说——


深蓝是被人类“教会”下棋的;而Alpha狗则是看着人类下棋,“看会”的。


那么,学霸Alpha狗究竟是怎么“看会”了下棋的呢?


这先要从Alpha狗的身世说起。


2014年,Google以6.5亿美元的价格收购了一家英国创业公司DeepMind Technologies,并改名“Google DeepMind”,成为Google的一个研发部门,专门研究神经元网络技术。


DeepMind Technologies成立于2010年,其创始人戴密斯•哈萨比斯(DemisHassabis)从小就是国际象棋天才。


2015年,DeepMind团队研发的人工智能“DQN”(Deep-Q-Network的简称)引起了世人的瞩目。人们关注它的重要原因是——


谷歌之猫一样,在没有人类教授的情况下,计算机具备了“自我学习并变得越来越聪明”的能力。


所不同的是,谷歌之猫是通过图像识别证明了这种能力的存在,而DQN是通过玩儿电视游戏。


美国游戏公司Atari开发的电视游戏“Atari 2600”,是早年经典的家庭游戏机。那个年代玩儿游戏,还需要往机器上插入一个比磁带还要大一些的塑料游戏卡盒。



其中,弹球消砖块(Breakout)和吃豆人(Pac-Man)就是两款最为经典的游戏。



DeepMind发表的论文显示,他们让DQN玩儿了Atari 2600里面的49款游戏,发现对于多数游戏,DQN只需几天时间,就能超越人类高级玩家的水平!


这是如何实现的呢?DeepMind当时就公开了DQN玩儿弹球消砖块游戏的成长过程:


DQN刚开始玩儿的时候,当然玩儿不溜,甚至都无法接住那个弹球。终于,有一次恰巧接住了弹球并使之反弹消除了砖块。这时候,玩家的积分就会上升,DQN也因此获得了“回报”(Reward)。


也就是说,DQN注意到只要接住弹球,就能得到积分上的奖励,于是就开始努力去接住这个球。


玩儿了200局后,DQN接住弹球的成功率已经上升到34%;300局后,它已经超越了人类高级玩家的水平;而到400局的时候,它竟然学会了获得高分的诀窍:


首先在砖墙中开一个小洞,反弹小球让它通过这个小洞后,弹球就能在砖墙的背侧多次反弹,从而消除更多的砖块!


掌握这个诀窍后,DQN活脱脱升级成了一个可以轻松完爆人类玩家的“游戏小霸王”。


在过往,人们更能接受的事实是,对于单纯反复的机械操作、追求正确性的事情,计算机可以比人类做得更好。


但是,DeepMind的这次研究成果显示,人类根本没有教授DQN任何关于弹球消砖块这个游戏的玩儿法、规则和窍门,但它却自行地达到,并超越了人类的水平!


这让我想起我小时候的一件事情。当时去一个亲戚家玩儿,那时候电视游戏机还不普及,但他们家就有一台。


那天亲戚的小孩儿正好不在,大人怕我无聊,就把游戏机和电视帮我接好,让我自己玩儿。我随便选了一个游戏,也是类似于俄罗斯方块那样的消砖块游戏。


那次,没有人教我。我也是先随便把弄了几下,一开始game over得很快,后来慢慢发现只要让砖块横向连在一起,那一行砖块就会消掉,那一瞬间,我的游戏积分就会增加。


发现这一点后,我就开始想方设法地去让砖块更多地连在一起,更多地消掉……因为,这样我就能获得更高的积分。


几局下来,我发现我能玩儿更长的时间,每局的分数也在不断提高。之后,我就开始一局一局地挑战自己的最高分纪录……


也就是说,一个小屁孩儿玩游戏的学习过程,被DQN证实,在计算机身上也能实现。


这一结果,让世人震惊,也让其背后的“神经元网络”、“深度学习”和“强化学习”等技术受到人们的瞩目。


一年后,Alpha狗横空出世。


(关于Alpha狗的今生是如何炼成的,且听下回分解。)


- End -


上一篇:人工智能鄙视链:在Alpha狗看来,“深蓝”根本不是AI





我们是——

人人能懂的人工智能学习小组


我们还在预热中,赶紧上车!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存