不管你承认与否,人工智能的时代即将来临
近日,一ID为“Master”的神秘网络围棋手在弈城、野狐等围棋对战平台上轮番挑战包括中国围棋名将柯洁、聂卫平、古力,韩国围棋冠军朴廷桓在内的多名世界职业顶尖高手,连胜60场,没有败绩!
吃瓜群众们一度回想起了那个被AlphaGo统治的日子,在1月4日对弈中国棋手古力前,Master自曝:“我是AlphaGo的黄博士”! 黄博士,就是代Master执子的AlphaGo团队的黄士杰博士!也是2016年3月AlphaGo与韩国围棋九段李世石进行人机大战时,坐在李世石对面代AlphaGo落子的那个人!黄世杰,2012年加入DeepMind团队。据悉,他也是一位围棋高手。
与此同时,在Master自亮身份后,DeepMind创始人兼CEO Demis Hassabis 在自己的Twitter上也发表了一份声明,证明Master就是升级版的AlphaGo!
AlphaGo真正开始吸引人类眼球的事件还是2016年3月的人机大战,当时AlphaGo以总比分4:1大败韩国世界冠军李世石九段,让人们开始真正正视AlphaGo背后的深度学习技术,开始关注它的背后团队DeepMind,开始重新审视人工智能的意义。
在2016年1月的 Nature 报道中有AlphaGo的详细介绍,AlphaGo是一套为了围棋而特意优化、设计周密的深度学习引擎,使用了神经网路加上MCTS (Monte Carlo tree search),并且用上了谷歌巨大的云计算资源,CPU+GPU并行结合,能够根据棋谱学习和自我学习。它的背后不仅有世界顶级的计算机科学家和机器学习专家(DeepMind团队)做技术支持,还有谷歌后台强大的计算平台做支撑。
AlphaGo主要用到了两个技术:第一个是蒙特卡洛树搜索,第二是深度神经网络。蒙特卡洛树搜索类似为为左右手互博。互博时间越长,相当于把各种可能的对弈方案都统统演练一遍。当AlphaGo 的训练时间越长,那么它对各种对弈方案也就越加了解,自身也就更加的强大。
而所使用的深度神经网络,主要包括两个方面,Value Networks(价值网络)和 Policy Networks(策略网络)。Value Networks 主要用来评估棋盘位置,而Policy Networks 则是用来选择走棋步法,这些神经网络模型通过一种新的方法进行训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中进行自我强化学习。
相信自去年AlphaGo大败围棋界传奇李世石事件后,大家对于AlphaGo背后的技术团队也有了一定了解。是的,AlphaGo背后的技术团队正是2014年被谷歌收购的一家英国的人工智能初创公司——DeepMind。其实,想要获取DeepMind都做过哪些事,那么它的官方博客上的一篇回顾2016的文章描述的再详细不过:
博客中主要列举了DeepMind 2016年所做的一些重大事件。比如,AlphaGo击败了世界冠军李世石,给人类对人工智能的发展带来了更多的信心与希望;发布了最新原始音频波形深度生成模型音频WaveNet的研究论文,使得DeepMind在生成模型领域取得了意义非凡的进展;
提出了可微分神经计算机的神经网络模型(Differentiable Neural Computer,简称 DNC),为解决如何将神经网络的智能决策和复杂结构化数据的存储、推理能力结合起来提供帮助;开源深度学习训练平台DeepMind Lab;宣布了与NHS(英国国家医疗服务体系)建立合作关系等。
谷歌收购DeepMind团队的时间并不长,DeepMind却为谷歌带来了丰厚的回报。加上此次Master狂虐围棋界各顶尖高手事件,让世人对AlphaGo、对DeepMind、对谷歌都更加刮目相看。有人说,此次Master事件就是一场盛大营销,谷歌赢了。但是,无论营销也好,热炒也罢,不得不承认,AlphaGo确实有了很大进步,AI让人类又看到了更多无限可能。
InfoQ 曾采访瑞士人工智能实验室(IDSIA)的研发主任、AlphaGo项目的元老Jürgen Schmidhuber教授,请他就深度学习和人工智能领域的发展趋势进行了解答。
深度学习与其历史深度学习不过是旧瓶装新酒。它主要是关于含多隐层的深度神经网络。利用现在的高性能计算机,这样的网络带来了模式识别和机器学习方面的革命。深度学习这一概念首先由Dechter在1986年引入到机器学习领域,然后由Aizenberg等在2000年引入到人工神经网络中。
深度学习之父是来自乌克兰的数学家Ivakhnenko。在1965年,他(与Lapa)发表了第一篇有关深度前向多层感知器的学习算法。在1971年,Ivakhnenko已经描述了一个现在看来仍然很深的八层网络,并使用了当前仍然十分流行的方法对网络进行训练。考虑到当时计算机性能,他的想法实在是太超前了。
关于深度学习,你可以戳这里了解更多:《费良宏:程序员为什么要学习深度学习?》
对于Google DeepMind的成功,我非常开心。其中一部分原因也在于我的很多学生都供职于该公司,并参与到了这个项目中。DeepMind团队的四个初始成员中,有两个都是我的学生。而AI部门的首批博士也都来自IDSIA实验室——其中一个成为了联合创始人,另一个为首批员工。而曾经在2010年Atari-Go上与我联合发表文章的博士生等也在后来加入到了DeepMind团队。
围棋是一个马尔科夫假设成立的棋盘游戏:理论上来说,当前输入(棋盘的状态)已经包含了决定本次最佳下子的所有信息(完全不需要考虑之前的状态历史)。也即是说,这个游戏可以通过传统的增强学习(RL)来进行处理。这就跟IBM的Tesauro在1994年赢象棋冠军的情况有点像。
然而,今天的成功更多的要获益于运算速度比之前快很多倍的计算机。在过去几年,围棋算法已经大大改进了。为了了解一个好的围棋选手,DeepMind系统会综合采用监督学习和基于蒙特卡洛树搜索的增强学习等若干种传统方法。在不久的将来,人工智能系统和人类进行围棋方面的对垒将会变得非常有趣。
然而,不幸的是,马尔科夫条件在现实中未必总是满足。这就是为什么存在于部分可观察环境中的RL机器人的通用人工智能(Artificial General Intelligence,AGI)需要更加巧妙的学习算法。
现在还不行,但未来可能很快可以。无监督数据压缩(就像上一个问题中提到的)是基于RNN的自适应Agent的核心组件。该Agent利用基于RNN的预测世界模型来更好的规划和达到目标。我们在1990年开始这方面的工作,并取得了很大进展。
人工智能的极限就是计算的极限。在1931年,理论计算科学的创始人Kurt Gödel就提出了计算的极限——不完备定理。Gödel表示,任何一个相容的数学形式化理论中,只要它强到足以蕴涵皮亚诺算术公理,就可以在其中构造在体系中既不能证明也不能否证的命题。
人类应该做那些完全不难而又有趣的工作,而机器完成除此以外的所有工作。
PS:谷歌DeepMind Lab已开源,你可以量身打造你的 个人AlphaGo了。详情戳这里:谷歌DeepMind Lab开源,量身打造个人AlphaGo!
作为一家关注前沿技术动态的技术媒体,InfoQ的垂直技术社群里也新设了AI领域的微信公众号:「 冷眼观AI」。你猜这个账号的运营编辑是不是AI呢?
不想与智能物联网大潮失之交臂、不想与Huawei LiteOS形同陌路、不想你的编码人生碌碌无为、不想你的好创意烂在肚子里…那就点击文末 「 阅读原文 」 报名,参加1月7日-8日在北京由华为主办、InfoQ协办的Huawei LiteOS黑客松大赛吧。叫上你的小伙伴,来一场2天1夜的疯狂。 (或者识别以下二维码直接报名。)
今日荐文
点击下方图片即可阅读
投行交易系统的定海神针——金融市场数据平台的架构设计之道