AlphaGo Zero完全自学吊打老狗，人类数据没用了？

其他

AlphaGo Zero完全自学吊打老狗，人类数据没用了？

2017-10-20 蔡浩爽 腾讯科技

点击上方“腾讯科技”，选择“置顶公众号”

关键时刻，第一时间送达

来源 / 寻找中国创客（ID：xjbmaker）

文 / 蔡浩爽

内容经授权转载发布

而阿尔法元与几位哥哥的最大区别是，它不再需要人类数据作训练。因此，我们把AlphaGo Zero称作“阿尔法元”，天为始，元为初，寓意从零开始。

AlphaGo家族的人工智能围棋手进入了华山论剑南帝北丐中神通的境界，比发明出双手互搏术的周伯通更厉害的是，最新的AlphaGo Zero（以下简称“阿尔法元”）连“九阴真经”——人类棋谱，都不需要。

北京时间10月19日凌晨，时隔20余月，AlphaGo再次登上科学杂志《nature》。谷歌人工智能团队DeepMind 发布了他们的最新论文Mastering the game of Go without human knowledge，向人们介绍了阿尔法狗家族的新成员——阿尔法元。与之前几个版本的阿尔法狗不同，阿尔法元除了解围棋规则外，完全不依靠棋谱和人类数据，从零开始“自学成才”，成为全世界最厉害的（人工智能）围棋手。

完爆对手，阿尔法元有多厉害？

自学三天，自博490万局棋后，阿尔法元以100:0的压倒性优势打败曾战胜韩国棋手李世石的AlphaGoLee；

训练二十一天后，阿尔法元再次战胜击败世界围棋冠军柯洁的AlphaGo Master；

四十多天后，经过2900多万次自玩游戏，阿尔法元超过此前AlphaGo的所有版本，杀到黑白世界尸横遍野，成为世界上最厉害的围棋程序。

对比前几版阿尔法狗需要48块TPU（谷歌开发的用于人工智能的芯片）、进行几千次博弈、耗时几个月，阿尔法元战胜他们只需要4块TPU，自己左右互博490多万次，用时三天。可谓做到了“节能减排”。

而阿尔法元与几位哥哥的最大区别是，它不再需要人类数据作训练。因此，我们把AlphaGo Zero称作“阿尔法元”，天为始，元为初，寓意从零开始。

在阿尔法元之前，阿尔法狗家族几次战胜人类围棋冠军，都是从利用人类经验开始的。他们的胜利建立在计算机海量学习人类棋谱的基础之上，阿尔法狗再通过强化学习的监督学习进行几个月的自我训练。

而阿尔法元则完全摆脱人类先验经验，除规则外，完全不借助人类数据，从第一场游戏开始，自我学习。

AlphaGo团队负责人大卫·席尔瓦介绍，阿尔法元使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。

杜克大学博士研究生吴春鹏在接受知社采访时表示，随着近几年深度学习研究和应用的深入，传统训练方式的一个缺点日益明显：训练过程需要消耗大量人类标注样本，而这对于小样本应用领域（比如医疗图像处理）是不可能办到的。阿尔法元是在双方博弈训练过程中尝试解决对人类标注样本的依赖，这是以往没有的。

更厉害的是，随着训练的深入，阿尔法元不仅棋艺大涨，而且“不再受人类知识的限制。”（大卫·席尔瓦在采访中表示）通过数百万次的训练，阿尔法元走出了过往棋局中从未出现的新策略，为围棋这项古老的游戏带来了新玩法。

美国的两位棋手向Nature这样评价阿尔法元的这一创举：它的开局和收官和专业棋手的下法并无区别，人类几千年的智慧结晶，看起来并非全错。但是中盘看起来则非常诡异。

无师自通，阿尔法元怎么做到的？

大卫·席尔瓦认为，阿尔法元通过自我学习取得比通过学习人类数据更好的成绩，是因为阿尔法元的对手总是能跟它处在同一水平。阿尔法元的第一局，从非常随机的招式开始。但是在学习过程中的每一步，它的对手，或者说是陪练，都会被校准为匹配其当前水平。

在阿尔法元出现之前，AlphaGo基本采用了传统增强学习技术再加上深度神经网络DNN完成搭建。而阿尔法元在DNN网络结构上吸收了最新进展，采用了ResNet网络（深度残差网络）中的Residual结构作为基础模块。之前大量论文表明，ResNet使用的Residual结构比GoogLeNet使用的Inception结构在达到相同预测精度条件下的运行速度更快。

旷视Face++首席科学家孙剑是ResNet的主创人员之一。在接受寻找中国创客采访时，孙剑表示，阿尔法元的创新性主要体现在以下两点：

一是自学习增强能力。阿尔法元可以把学习过程极大简化，不需要历史对弈信息自学习，摆脱了对人类标注样本（人类历史棋局）的依赖，实现0先验知识的学习；

二是应用了80层的深度残差网络（ResNet），极大地提高了对棋局面评估和决策能力。

“阿尔法元把AlphaGo过去的学习算法进行了大幅度改进，将价值网络和策略网络整合为一个统一架构，使得在机器学习时，可以同时兼顾价值和策略的最优性。”清华大学电子工程系孙甲松副教授这样向寻找中国创客（ID：xjbmaker）记者解释阿尔法元的技术改进。

人类数据将在人工智能领域逐步丧失优势？

DeepMind联合创始人和CEO表示，这一新技术能够用于解决诸如蛋白质折叠和新材料开发这样的重要问题。“如果我们通过AlphaGo，可以在这些问题上取得进展，那么它就有潜力推动人们理解生命，并以积极的方式影响我们的生活。”

“人们一般认为机器学习就是关于大数据和海量运算，阿尔法元的出现表明，算法比所谓计算或数据可用性更重要。”大卫·席尔瓦在采访中表示。

那这是否意味着，未来人类数据在人工智能领域的优势将会逐步丧失？

创新工场创始人兼董事长李开复对此表示了不同意见。李开复对寻找中国创客记者表示，阿尔法元的自主学习带来的技术革新并非适用于所有人工智能领域。“围棋是一种对弈游戏，是适用于规则并可以穷举的。在相对有结构的领域，比如新材料开发，过去靠的可能是灵感，未来就可以靠自主学习。阿尔法元的新技术确实可能带来革新。但是，像语音识别，图像识别，自然语音理解等等领域，缺乏用简单规则就能判别的样本，它们依然需要大量的人类数据。”

在整个人工智能产学研届为DeepMind19日凌晨发表的这篇论文额手相庆时，也有人当头浇下一盆冷水。

互联网进化论作者、计算机博士刘锋在一篇文章中表示：“关于AlphaGo是否具备创新创造性问题，我们认为它依然是依托人工支持的大数据训练形成的策略模型，同时在比赛中结合比赛对手的落点数据，根据其内部的运算规则，来不断形成自己的落点数据，这些落点数据最终形成比赛数据集合。AlphaGo根据围棋规则与对手的比赛数据集合进行计算和比较，判断输赢，整个过程完全在人类设定的规则下运行，无法体现其自身的创造性。”

孙甲松也同样认为，这一成果在人工智能角度没有实现实质性突破，“我认为这只是把AlphaGo过去的学习算法进行了大幅度改进，将价值网络和策略网络整合为一个统一架构，使得在机器学习时，可以同时兼顾价值和策略的最优性。不但大幅度提高了机器学习的速度，同时学习结果也使得现在的系统远超了原来的AlphaGo，因此有了100:0的结果。但我认为这只是对原来算法的优化，虽然使得计算机跟人下围棋更是天下无敌，但这只能说是一个小小的进步，从人工智能的角度还是没有实质性的突破。”

但在李开复看来，论文的成果不可低估。“虽然有些技术并不是DeepMind开创的，比如ResNet。但能够完美集成这些技术，本身就具有里程碑意义。”他认为，DeepMind的这一成果具有指向标意义，证明了这个方向的可行性。“哪怕这一成果称不上诺布尔水平或者图灵水平，但今夜过后，我相信会有一大半以上的研究人员在这个方向开始尝试。”

有观点称，阿尔法元的工程和算法确实非常厉害。但人们容易对此产生误解，认为人工智能是万能的，所有人工智能都可以无需人类经验从零学习。每次关于人工智能的讨论，都会被引导人工智能威胁论。

但李开复认为，人天生就具备跨领域的能力，比如人可以同时看到、听到、感受到，但在这方面，人工智能还差着十万八千里；人工智能也并不像很多人以为的那样具有自主思考能力。“当下的机器没有欲望，不会设立目标，也没有自我意识。”

“在我看来，今天的事件更应该总结为两点：一是AI前进的速度比想象中更快，即便是我们这些所谓行业内的人士都被阿尔法元跌破眼镜；二是要正视中美在人工智能方面的差距。中国还从未有可以引领行业的论文出现。”李开复对寻找中国创客记者说。

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！