【兴业计算机】AI点评:AlphaGo三胜柯洁,人工智能进化几何
事件:5月27日,经过3小时38分钟的鏖战,柯洁在210手盘中投子再负AlphaGo,至此中国乌镇围棋峰会圆满结束。谷歌的人工智能围棋程序AlphaGo以3:0的成绩再一次横扫人类顶尖围棋选手赛后宣布退役,并将在之后奉送此次三番棋对决的分析视频和50盘AlphaGo自我对战棋局,来推动围棋运动的发展。
AlphaGo进入Master时代,仅使用4个TPU的单机版,性能更加强大。据AlphaGo团队公布数据显示,该人工智能围棋程序已经进化到第三代AlphaGo Master,它仅使用4个运行于物理服务器上的TPU,就拥有多达40层神经网络,而且凭借自我对弈的不断训练获得了更强大的策略网络和价值网络,从棋力上讲,相比于上一代人工智能围棋程序AlphaGo Lee又提升了3子。
自我对弈,价值网络成为AlphaGo Master的核心竞争力。AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助策略网络(policy network)和价值网络(value network)这两种深度神经网络。在现在版本中,AlphaGo已经不需要学习人类棋谱,而是完全靠自我对弈自学成才,这使得价值网络地位得到了空前提高,变成了其最重要的核心竞争力。
完备的大数据成为应用人工智能的前提。从AlphaGo的巨大成功中,我们感受到深度学习特别是价值网络的巨大作用,利用何种数据才能形成一张有效的价值网络就成为人工智能应用之前急需解决的问题,我们认为此类数据要么是环境自己运行过程中,能得到好坏结果且能被系统观测到的数据,要么就是人为地定义了对错好坏标签的数据。
构建能形成价值网络的大数据体系是中小型人工智能企业的最佳商业模式。在大型公司通过人工智能算法去构建生态系统时,中小公司利用大数据去构建价值网络体系成为此类企业最佳的商业模式。该模式主要包括三种:
1)做收集有标签的大数据平台,
2)成为能在专业领域进行建模的企业,
3)做输出整体解决方案的公司。
一、人机大战2.0
2017年5月27日下午14:08分,经过3小时38分钟的鏖战,现世界排名第一的中国围棋选手柯洁在210手盘中投子再负AlphaGo,这款由谷歌(Google)旗下DeepMind公司开发的新版人工智能围棋程序。至此中国乌镇围棋峰会圆满结束,柯洁完成了与AlphaGo的最后一次公开对决,而AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)也宣布AlphaGo将就此退役,并将在之后奉送此次三番棋对决的分析视频和50盘AlphaGo自我对战棋局来推动围棋运动的发展。
此次围棋峰会于5月23日在乌镇开幕到5月27日闭幕,共进行了5场比赛,除了AlphaGo与柯洁的三番棋大战,还包括AlphaGo分别与两位人类棋手古力九段和连笑九段的配对赛,以及五位人类棋手和AlphaGo的团队赛。不同于去年AlphaGo与李世石的人机对抗,赛前舆论普遍并不看好人类棋手能在对阵人工智能围棋程序AlphaGo时取得哪怕一局胜利,赛后结果果然印证AlphaGo的超强实力,在这5场比赛中人类棋手没有占到任何便宜,AlphaGo仅仅是在人机配对赛中输给了另一位人机配对组合。
5月23日柯洁与 AlphaGo进行的第一盘对决跌宕起伏,黑棋和白棋都展现了细致入微的精细布局,双方经过289手的激战后,AlphaGo执白以1/4子的微小优势拔得头筹。在5月25日的第二盘对决中,柯洁表现完美,一度占优,但只一记昏招,就中盘认输。再到5月27日第三场比赛,柯洁要求再度执白,然而至209手再度中盘投子认负。此外,古力和连笑分别搭档AlphaGo进行的人机配对赛被认为是本次峰会上最有胜负悬念的比赛,这盘棋的进程也的确是跌宕起伏,古力一方一度形势占优,最终却被连笑一方上演逆转好戏。在配对赛之后,陈耀烨、唐韦星、时越、芈昱廷和周睿羊5位世界冠军组团挑战AlphaGo也没能成功。自此,人工智能围棋程序AlphaGo以碾压人类的战绩完成谢幕演出。
二、解析AlphaGo
2.1、AlphaGo的进化史
AlphaGo(阿尔法围棋)是一款人工智能围棋程序,是于2014年开始由谷歌(Google) 旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰等人的团队开发。这款人工智能围棋程序使用了全新的蒙特卡洛树搜索与策略网络和价值网络两个深度神经网路相结合的方法,使得AlphaGo取得了比原有围棋类软件更大的进步。在和Crazy Stone和Zen等其他围棋程序的500局比赛中,单机版AlphaGo仅输一局。而在其后的对局中,分布式版AlphaGo在500局比赛中全部获胜,且对抗运行在单机上的 AlphaGo 约有 77% 的胜率。
5月24日,在人工智能峰会上,DeepMind团队首席科学家David Silver在介绍AlphaGo最新进展时,将2014年以来的历代AlphaGo划分为三个版本,第一代:击败樊麾的AlphaGo Fan;第二代:击败李世石的AlphaGo Lee;第三代:柯洁现在的对手,也是年初60连胜的AlphaGo Master。
AlphaGo Fan,是DeepMind团队研制出的第一代人工智能围棋,它于2015年10月横空出世,击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋士的电脑围棋程序。此时的AlphaGo由于其对阵棋手的水平还不算太强大,从而受到很多专业人士的质疑。据谷歌公布的相关资料显示,该版本的AlphaGo采用了分布式模式,共使用了1,202块CPU及176块GPU,与Zen/Crazy Stone等之前的围棋软件相比,棋力要高出4子。
AlphaGo Lee是该团队研制出的第二代人工智能围棋,它在2016年3月韩国首尔举行的五番棋比赛中,以4:1击败尖端职业棋手李世石,一举打消世人所有质疑。此时的AlphaGo和上代相同,也是分布式结构的,它使用了谷歌位于美国的云计算服务器,并通过光缆网络连接到韩国,但是据测算与上一代版本相比它的棋力还要再高出3子。
AlphaGo Master是第三代人工智能围棋,它最初出现是在去年年末,在线围棋对战平台上取名Master,其在一周时间内对阵中日韩顶尖棋手获得60连胜,相比于击败李世石的版本,棋力又再次提升3子。此次与柯洁对战的正是此代人工智能围棋程序AlphaGo Master,据AlphaGo首席研究员David Silver在人工智能峰会上的介绍以及赛后的补充采访,该版本AlphaGo是单机版而且仅使用4个TPU。
2.2、AlphaGo的核心竞争力
人类用计算机研究围棋也已经有30多年了,水平一直徘徊不前,应昌期老先生当年悬赏140万美元征求计算机程序打败职业棋手,一直到悬赏截止也未获突破。2013年,Crazy Stone在让4子的情况下击败日籍九段棋士石田芳夫,这样的战果在当时就已经是非常难得了。直到AlphaGo的横空出世,从最初的被质疑到如今被膜拜,甚至在三盘棋结束后的发布会上,柯洁坦言,自己只能猜到AlphaGo一半的棋,并表示这辈子超越AlphaGo是不太可能了。那么相比之前那么多科研力量,AlphaGo的核心突破点到底在哪里?
之前很多文章都对此进行了探讨,我们在AlphaGo Lee与李世石对决之前分析认为主要是由于计算能力的提升,使得深度学习算法成熟。而如今面对基于AlphaGo Lee版本升级而来的AlphaGo Master,我们认为起关键作用的是其核心算法——价值网络。
先解释一下AlphaGo的基本原理,AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助策略网络(policy network)和价值网络(value network)这两种深度神经网络。相比象棋,围棋一个难点在于无法进行穷举搜索,所以必须大幅收窄搜索范围。AlphaGo的做法有两步,一步就是策略网络,通过学习职业棋手的棋谱,学会了职业棋手的套路,下出和职业棋手相似的着法,这样的好处是剪枝,剪去了大量理论上有可能,但实际不可能去下的着法。另一步就是价值网络,让机器自己对弈很多盘,来判断这个局面下赢棋的概率有多少。这样的好处是减少搜索深度,因为摆若干步棋后,价值网络就能判断这个局面到底谁会赢。
在AlphaGo Master之前版本中,提高人工智能围棋程序的棋艺主要是通过不断学习已有棋谱,策略网络和价值网络在当时都很重要,地位相当。而直到新版AlphaGo Master出现后,在24日乌镇人工智能高峰论坛上,AlphaGo团队负责人Dave Silver表示,新版本已经不需要学习人类棋谱了,完全靠自我对弈自学成才。此时,在AlphaGo Master版本中策略网络当然也很重要,但是价值网络地位得到了空前的提高,变成了其最重要的核心竞争力。
通过研究AlphaGo Master的特性其实不难理解这两种价值网络地位发生的变化。策略网络其实不难训练,在互联网如此发达的今天,顶尖棋手对弈的棋局数不胜数,全部输入程序也不难,相信每一个做人工智能围棋的程序都可以做到,但难的恰是其价值网络,需要无数的自我对弈,才能对所有棋形都了然于胸,才能在各种复杂的大型攻杀中都能判断如何才能取胜。因此,我们判断价值网络才是新版本AlphaGo的核心竞争力。
三、后AlphaGo时代人工智能的发展
在AlphaGo宣布就此退役后,它对围棋领域的变革暂时中断,但是隐藏在AlphaGo背后的人工智能技术对于人类社会的变革才刚刚开始。
3.1、完备的大数据成为应用人工智能的前提
去年AlphaGo横空出世时,一时舆论界都很恐慌,人工智能即将取代所有工作的言论甚嚣尘上,但时隔一年回顾发现各行各业都还安然无恙后,于是人们又开始疑惑人工智能技术究竟能应用到哪里?
其实说到底,AlphaGo仍然是机器不是人,无法真的像人那样思考,我们不能简单认为以前需要人思考的工作现在都可以交由机器来完成。下面我们简要剖析AlphaGo的成功要素,并阐述它在哪些应用领域已经具备了应用条件。
AlphaGo的成功主要有两方面,首先AlphaGo输入的信息相对完备。围棋的好处就在于所有的信息都在棋盘上,全部可以给到系统。反之,比如机器人做菜只能用预设程序,而无法形成反馈改进的智能机制,因为目前味与香都还很难数字化输入到系统。当然,这两种都是极端情况,很多时候需要把外部输入信息通过各种方式尽可能最大程度的给到系统。比如热议的机器人炒股,基于看K线图是没问题的,财报数据也不难,但比如宏观经济、政治局势、监管法规、投资者情绪等,机器不像人一样可以迅速直观地掌握信息,需要人为设置来通过一些其他方式近似这些信息,比如用搜索频度来判断投资者情绪等。
其次是AlphaGo具有可以构建价值网络的大数据。新版本的AlphaGo很容易让我们混淆无监督学习的概念。既然它放弃了学习棋谱,全靠自学成才,那就是无监督学习了?其实不然。监督学习和无监督学习,最基本的区别在于是否有标签。虽然新版AlphaGo是在完全依靠自我对局提高,看起来没有任何的人为输入,但围棋毕竟是种规则游戏,棋下到最后都有输赢,所以天然是有标签的。正是输赢的标签,让AlphaGo能对每一种棋局判断胜率,最终形成强大的价值网络,这是其比人类顶尖棋手更强的棋感。
经常大家会说大数据对于人工智能的作用,必须要给人工智能喂数据,喂的数据足够多,才能让其变得足够聪明,这基本已成共识了。但事实上大量数据都是没有意义的,只有能帮助形成价值网络的数据才有意义,才能帮系统提高智能程度。
那什么样的数据能形成价值网络呢?要么是环境自己运行过程中,能得到好坏结果且能被系统观测到的数据(比如让机器人自己走路);要么就是人为地定义了对错好坏的标签的数据。
所以,我们认为拥有可以构建价值网络的大数据是人工智能在该领域应用的前提,具有相对完备的输入信息是人工智能得以正常工作的必备条件。5月24日人工智能高峰论坛上,当Alphabet董事长Eric Schmidt被问到人工智能应用到哪个领域希望最大时,他果断回答是医疗。因为医疗领域所拥有的庞大数据储备和严谨的数据输入与人工智能应用条件完美匹配。而且从后面谷歌相关技术人员展示的医疗案例来看,大多集中在医学影像,因为在这方面机器的输入信息是完备的,或者说至少和人获得的一样多。医学案例都有病情最终结果的信息,因此都是有标签的,而且对于很多相对不那么常见的病例,机器可以获得的案例数量是要比单个医生多很多的,因此有可能具备比人更强的鉴别能力。
3.2、后AlphaGo时代谷歌的规划
当下各大科技巨头都把人工智能作为重点发展方向,但未必都将其作为最重点方向。在如此情形下,谷歌显然是个异类,它不但将人工智能作为最重点方向,更是投入巨资开发出了足以影响业界的产品。人工智能峰会上,谷歌董事长 Eric Schmidt表示在业内这么多年,他所看到最大的变化就是神经网络和人工智能。在他看来,计算机发展这么多年,虽然性能提升了那么多,但本质的算法是一样的,而现在算法出现了根本性颠覆,再也不用去教机器了。作为一个一度不是很看好人工智能的资深IT行业从业者,他甚至在媒体采访时公开表示当时错判了AI的重要性。
作为当前人工智能领域最重量级的领跑者,在AlphaGo退役后,谷歌计划通过向外出售TPU芯片来实现盈利,从而进一步推动人工智能项目的研究开发。表面上看,谷歌似乎全是在努力推动社会进步,还把自己的毕生人工智能精华TensorFlow都开源出来给大家,但从最后效果来讲,这种模式类似其在智能手机时代的操作,谷歌提供免费的安卓系统,最终依靠Google Play商店盈利。
3.3、其他人工智能公司出路
谷歌在AlphaGo退役后通过出售相关硬件以及云服务,从而实现变现,去支撑其人工智能研究的做法确实代表了当前IT巨头发展人工智能业务的一种思路。那么,其他人工智能公司的出路在哪里?实现差异化竞争就成为一条最优路径。
在当前开源时代,将通用算法做成软件来卖不是一种好的商业模式,所以要么通过人工智能算法去构建生态系统,要么就是去做大数据,构建能形成价值网络的大数据体系,相较于大公司力图去争夺的前者,后者同样具有一定吸引力。具体来说,这种商业模式主要包括三方面:
(1)收集有标签的大数据,包括做传感器,或是有海量用户的互联网平台来收集数据,当然,有价值的主要是有标签的数据,要么是系统运行过程中可以自行得出结果,要么是多费点人工来定义标签,要么是UGC方式,让互联网用户来评定。
(2)在专业领域建模,很多专业领域,如新品研发,如果没有掌握很多行业知识的人来建模,是无法做起来的,包括确立正确的目标、构建合适的模型、模拟完备的输入,以及训练系统提升等,都需要专业知识。
(3)输出整体解决方案,载体可以是软件,是互联网平台,是硬件设备,或项目方案。从算法到可以应用到实际,还需要很多步骤,比如临床试验、通过监管认证、建立信任、工程流程及用户设计等,能把这些事情都做好的,必然有其竞争力和商业价值。正如浙江大学计算机学院副院长陈刚在5月24日人工智能论坛所说,未来应该70%的精力放在人工智能的应用,30%的精力花在技术算法的研发上,结合到实际领域的应用才是更有价值的。
但如前所述,机器目前并未真的像人那样思考,说到底是通过海量有标签数据(在围棋领域就是自战对局),训练出强大的价值网络来决策。这种方式在其他应用领域的适用性还待验证。未来,各个应用领域人工智能的努力才刚刚开始。
(注:此文原创于2017年6月7日,By 兴业计算机 袁煜明/蒋佳霖/徐聪等)
蒋佳霖 18614021551
徐 聪 18018726086
孙 乾 15201966173
吴鸣远 15601668682
冯欣怡 15109111151
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《AlphaGo三胜柯洁 人工智能进化几何》
对外发布时间:2017年6月7日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
本报告分析师:
蒋佳霖 SAC执业证书编号:S0190515050002
徐聪 SAC执业证书编号:S0190516060001
自媒体信息披露与重要声明
本信息材料仅为对公开资料的整理信息,不涉及分析师的研究观点及投资建议。
使用本研究报告的风险提示及法律声明
兴业证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。
本报告仅供兴业证券股份有限公司(以下简称“本公司”)的客户使用,本公司不会因接收人收到本报告而视其为客户。本报告中的信息、意见等均仅供客户参考,不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果,本公司及/或其关联人员均不承担任何法律责任。
本报告所载资料的来源被认为是可靠的,但本公司不保证其准确性或完整性,也不保证所包含的信息和建议不会发生任何变更。本公司并不对使用本报告所包含的材料产生的任何直接或间接损失或与此相关的其他任何损失承担任何责任。
本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌,过往表现不应作为日后的表现依据;在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告;本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。
除非另行说明,本报告中所引用的关于业绩的数据代表过往表现。过往的业绩表现亦不应作为日后回报的预示。我们不承诺也不保证,任何所预示的回报会得以实现。分析中所做的回报预测可能是基于相应的假设。任何假设的变化可能会显著地影响所预测的回报。
本公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。
本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。未经授权的转载,本公司不承担任何转载责任。
在法律许可的情况下,兴业证券股份有限公司可能会持有本报告中提及公司所发行的证券头寸并进行交易,也可能为这些公司提供或争取提供投资银行业务服务。因此,投资者应当考虑到兴业证券股份有限公司及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。
投资评级说明
报告中投资建议所涉及的评级分为股票评级和行业评级(另有说明的除外)。评级标准为报告发布日后的12个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅,A股市场以上证综指或深圳成指为基准。
行业评级:推荐-相对表现优于同期相关证券市场代表性指数;中性-相对表现与同期相关证券市场代表性指数持平;回避-相对表现弱于同期相关证券市场代表性指数。
股票评级:买入-相对同期相关证券市场代表性指数涨幅大于15%;审慎增持-相对同期相关证券市场代表性指数涨幅在5%~15%之间;中性-相对同期相关证券市场代表性指数涨幅在-5%~5%之间;减持-相对同期相关证券市场代表性指数涨幅小于-5%;无评级-由于我们无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使我们无法给出明确的投资评级。
免责声明
市场有风险,投资需谨慎。本平台所载内容和意见仅供参考,不构成对任何人的投资建议(专家、嘉宾或其他兴业证券股份有限公司以外的人士的演讲、交流或会议纪要等仅代表其本人或其所在机构之观点),亦不构成任何保证,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主做出投资决策并自行承担风险。根据《证券期货投资者适当性管理办法》,本平台内容仅供兴业证券股份有限公司客户中的专业投资者使用,若您并非专业投资者,为保证服务质量、控制投资风险,请勿订阅或转载本平台中的信息,本资料难以设置访问权限,若给您造成不便,还请见谅。在任何情况下,作者及作者所在团队、兴业证券股份有限公司不对任何人因使用本平台中的任何内容所引致的任何损失负任何责任。
本平台旨在沟通研究信息,交流研究经验,不是兴业证券股份有限公司研究报告的发布平台,所发布观点不代表兴业证券股份有限公司观点。任何完整的研究观点应以兴业证券股份有限公司正式发布的报告为准。本平台所载内容仅反映作者于发出完整报告当日或发布本平台内容当日的判断,可随时更改且不予通告。
本平台所载内容不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见。