惊呆！Alpha狗身世大披露，前生竟是“游戏小霸王”？！

查看原文

其他

惊呆！Alpha狗身世大披露，前生竟是“游戏小霸王”？！

2017-12-20 AI起跑线 海豚学研社

AI起跑线

本文转载自公众号：AI起跑线

海豚小号推荐关注

上回我们说到，人工智能界的鄙视链：在Alpha狗看来，“深蓝”根本不是AI。说——

深蓝是被人类“教会”下棋的；而Alpha狗则是看着人类下棋，“看会”的。

那么，学霸Alpha狗究竟是怎么“看会”了下棋的呢？

这先要从Alpha狗的身世说起。

2014年，Google以6.5亿美元的价格收购了一家英国创业公司DeepMind Technologies，并改名“Google DeepMind”，成为Google的一个研发部门，专门研究神经元网络技术。

DeepMind Technologies成立于2010年，其创始人戴密斯•哈萨比斯（DemisHassabis）从小就是国际象棋天才。

2015年，DeepMind团队研发的人工智能“DQN”（Deep-Q-Network的简称）引起了世人的瞩目。人们关注它的重要原因是——

和谷歌之猫一样，在没有人类教授的情况下，计算机具备了“自我学习并变得越来越聪明”的能力。

所不同的是，谷歌之猫是通过图像识别证明了这种能力的存在，而DQN是通过玩儿电视游戏。

美国游戏公司Atari开发的电视游戏“Atari 2600”，是早年经典的家庭游戏机。那个年代玩儿游戏，还需要往机器上插入一个比磁带还要大一些的塑料游戏卡盒。

其中，弹球消砖块（Breakout）和吃豆人（Pac-Man）就是两款最为经典的游戏。

DeepMind发表的论文显示，他们让DQN玩儿了Atari 2600里面的49款游戏，发现对于多数游戏，DQN只需几天时间，就能超越人类高级玩家的水平！

这是如何实现的呢？DeepMind当时就公开了DQN玩儿弹球消砖块游戏的成长过程：

DQN刚开始玩儿的时候，当然玩儿不溜，甚至都无法接住那个弹球。终于，有一次恰巧接住了弹球并使之反弹消除了砖块。这时候，玩家的积分就会上升，DQN也因此获得了“回报”（Reward）。

也就是说，DQN注意到只要接住弹球，就能得到积分上的奖励，于是就开始努力去接住这个弹球。

玩儿了200局后，DQN接住弹球的成功率已经上升到34%；300局后，它已经超越了人类高级玩家的水平；而到400局的时候，它竟然学会了获得高分的诀窍：

首先在砖墙中开一个小洞，反弹小球让它通过这个小洞后，弹球就能在砖墙的背侧多次反弹，从而消除更多的砖块！

掌握这个诀窍后，DQN活脱脱升级成了一个可以轻松完爆人类玩家的“游戏小霸王”。

在过往，人们更能接受的事实是，对于单纯反复的机械操作、追求正确性的事情，计算机可以比人类做得更好。

但是，DeepMind的这次研究成果显示，人类根本没有教授DQN任何关于弹球消砖块这个游戏的玩儿法、规则和窍门，但它却自行地达到，并超越了人类的水平！

这让我想起我小时候的一件事情。当时去一个亲戚家玩儿，那时候电视游戏机还不普及，但他们家就有一台。

那天亲戚的小孩儿正好不在，大人怕我无聊，就把游戏机和电视帮我接好，让我自己玩儿。我随便选了一个游戏，也是类似于俄罗斯方块那样的消砖块游戏。

那次，没有人教我。我也是先随便把弄了几下，一开始game over得很快，后来慢慢发现只要让砖块横向连在一起，那一行砖块就会消掉，那一瞬间，我的游戏积分就会增加。

发现这一点后，我就开始想方设法地去让砖块更多地连在一起，更多地消掉……因为，这样我就能获得更高的积分。

几局下来，我发现我能玩儿更长的时间，每局的分数也在不断提高。之后，我就开始一局一局地挑战自己的最高分纪录……

也就是说，一个小屁孩儿玩游戏的学习过程，被DQN证实，在计算机身上也能实现。

这一结果，让世人震惊，也让其背后的“神经元网络”、“深度学习”和“强化学习”等技术受到人们的瞩目。

一年后，Alpha狗横空出世。

（关于Alpha狗的今生是如何炼成的，且听下回分解。）

- End -

上一篇：人工智能鄙视链：在Alpha狗看来，“深蓝”根本不是AI

我们是——

人人能懂的人工智能学习小组

我们还在预热中，赶紧上车！

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！