【星际随笔之56】亲历乌镇5日 对深度学习的深度学习与思考
作者:袁煜明/蒋佳霖/徐聪/雷雳/陈冠呈/洪依真
从5月23日-27日,有幸参加了乌镇围棋峰会,见证了柯洁与AlphaGo的波澜壮阔的三局,别开生面的配对赛和团体赛,听了展现最新科技的人工智能论坛,并和部分IT产业人士和顶尖棋手进行了交流,受益匪浅,过程中也对人工智能与深度学习进行了又一次的深度学习与思考,又有了很多新的想法,与大家一起分享:
1. AlphaGo究竟有多强?能让世界冠军三子?
2. AlphaGo的核心突破点:暴力练狗构建价值网络
3. 什么是人工智能需要的大数据:可以构建价值网络的大数据
4. 谷歌的人工智能怎么赚钱?其他人工智能企业的出路是什么?
5. 贴些现场图
1. AlphaGo究竟有多强?能让世界冠军三子?
在柯洁和AlphaGo的第一局下完后,我们发布了随笔《神狗胜天半子,侥幸还是吊打?》,那篇的第一句就是“写这篇时就一个想法,不能跪着写。”认为AlphaGo虽强,人类并非没有胜机。
跌宕起伏、把AlphaGo逼到绝境的第二局,似乎印证了我们的观点。Deepmind CEO哈萨比斯都承认,前100手柯洁表现完美,和AlphaGo势均力敌,胜率相当。当时很想写一篇随笔《人是否可以跑得比汽车更快》。大意是虽然在平地上人跑不过汽车,但跑到山谷悬崖边,人是有机会的。但因为那两天在北京乌镇之间深夜奔波而未能写出那篇随笔。
但26日的五人团体赛,和27日柯洁的第三局,彻底地扼杀了大家的念想:
五人团体赛那局,黑23无理地断,被阿老师吃下两子后就落后了;
柯洁第三局,白20点、40飞都是无理(应该就是赛后柯洁说的序盘自己都无法原谅的恶手),被阿老师在右下、左下两个角都惩罚后也落后了。
之后的进程,人类的一方都努力地搅局,一度也自己觉得又有翻盘的机会,但从结果来看,一切都在阿老师的掌握之中。
三盘棋结束后的发布会上,柯洁坦言,自己只能猜到AlphaGo一半的棋,以后差距只会越来越大,这辈子超越AlphaGo是不太可能了。对于心高气傲、此前豪言壮语的柯洁来说,如此的臣服显然是很不情愿的,只是差距的确很大了。
臣服于阿老师的不止柯洁一人,其他顶尖棋手也都表示了目前水平和阿老师有差距。尤其有意思的是在配对赛时,天元+名人连笑由于不太理解阿老师的用意,白126、130连续打将(就是下一步对方肯定要应的,但不会改变局势的棋),把左下的处理交给阿老师,这完全是下手和上手合作时的心态。
更为劲爆的是,在24日的人工智能论坛上,AlphaGo团队负责人Dave Silver表示,这版的AlphaGo比和李世石下的版本强很多,可以让后者三个子,这一下子掀起轩然大波。
我先解释一下让三个子什么概念。比如全国最厉害的业余棋手和一线的职业棋手下,大致是让二子互有胜负,如果两者分先下,下100盘业余棋手可能也赢不了一盘,所以,让两子就是双方水平差距非常大了,更何况让三子。
这就好像AI对五子棋世界冠军说,以后你只要连起来4个就算你赢,咱们下一盘吧。
所以有人就担心是不是老外对围棋的表述方式不同,或者是翻译问题,职业棋手江铸久、芮乃伟夫妇当天午餐时就专门去找Deepmind CEO哈萨比斯确认,但哈萨比斯咬定就是先摆三个子。芮乃伟马上就表示愿意被让三子和AlphaGo一战。(对职业棋手来说,被让三子是非常耻辱的,只能说芮乃伟比较有个性,或者说她实在不信邪)
于是,Deepmind团队的樊麾二段下午就发表了声明,新版本AlphaGo可以让老版本三子,但和从未对弈过的人类对局时,这种优势就不复存在了。
我和一位世界冠军私下讨论了这个问题,他认为,之所以新版本可以让老版本三子,是算法决定的。因为AlphaGo的决策都是基于胜率,所以被让三子后,会下得非常保守退让,很快把三子的优势挥霍到几乎没有,而和人的对弈中显然不会这样。
在他看来,目前AlphaGo的水平,对人类顶尖高手让先的话还是很有可能赢回来,但让二子有难度,差距大致应该在让先到让二子之间。
此外,在峰会结束的发布会上,Deepmind宣布公布50局阿老师的自战棋谱。这几天有很多人都在学习研讨。从外行看热闹的角度,看起来招法大开大合,算路深远,有点古棋的感觉。古力、时越说看起来像是来自未来的棋谱,所言不虚。至于比职业顶尖棋手高多少还判断不出来。
2. AlphaGo的核心突破点:暴力练狗构建价值网络
人类用计算机研究围棋也已经有30多年了,水平一直徘徊不前,应昌期老先生当年悬赏140万美元征求计算机程序打败职业棋手,一直到悬赏截止也未突破。甚至北京邮电大学计算机围棋研究所所长刘知青,一直到最近还出了本书,判断还需要5-15年才可能战胜职业棋手。结果很快就被AlphaGo打脸了(很佩服刘教授的勇气,虽然错了,但敢于承认)。
那横空出世的AlphaGo,相比之前那么多科研力量,核心的突破点在哪里?
在16年1月的星际随笔《曲率已经驱动了那根头发——深度分析谷歌AlphaGo击败职业棋手》里,我们已经进行了深度分析,主要是计算能力的提高,使得深度学习算法的成熟。对此,我们在这里不再赘述。
但此次深入探讨下来又有新的想法,Deepmind四平八稳的论文对AlphaGo算法原理的阐述里,其实弱化了一个事实:算法的核心是价值网络。(这里要敲黑板,划重点)
我们先通俗地解释一下AlphaGo的原理,策略网络和价值网络。
围棋相比象棋,一个难点在于无法进行穷举搜索,所以必须大幅收窄搜索范围。如何收窄呢:
一个就是策略网络,通过学习职业棋手的棋谱,学会了职业棋手的套路,下出和职业棋手相似的着法,这样的好处是剪枝,剪去了大量理论上有可能,实际不可能去下的着法;
一个就是价值网络,让机器自己对弈很多盘,来判断这个局面下赢棋的概率有多少。这样的好处是减少搜索深度,因为摆若干步棋后,价值网络就能判断这个局面到底谁会赢。
无论是在论文里,还是在现场演讲,Deepmind团队永远是把策略网络和价值网络一块说,给人感觉是这两个都很重要,地位相当。
很长一段时间里我也这么觉得,直到24日乌镇人工智能高峰论坛上,AlphaGo团队负责人Dave Silver表示,新版本已经不需要学习人类棋谱了,完全靠自我对弈自学成才。我这才突然意识到,也许最重要的是价值网络。
我们来打个通俗的比方:
策略网络就像研究员,告诉你应该沿什么样的主线或者逻辑框架来挖掘牛股,在几千支股票挑出十来支供你选择;
价值网络就像基金经理,在研究员提供的荐股里,判断每一支到底是涨还是跌,是该买入还是剁掉。
研究员不难找,应届毕业生培养几个月,就能给你扯价值投资啊、成长股啊、K线图啊等各种逻辑,扯上大半天也没问题;但从业过很多年,穿越过牛熊市周期的基金经理是很难找的。
同样道理,策略网络其实不难训练,在互联网如此发达的今天,顶尖棋手对弈的棋局数不胜数,全部输入程序也不难,相信每一个做围棋AI的程序都可以做到;
难的是价值网络,需要无数的自我对弈,才能对所有棋形都了然于胸,才能在各种复杂的大型攻杀中都能判断如何才能取胜。
这样一来我们可以解释很多疑惑?
为什么AlphaGo可以不借助棋谱自学成才?
说到底是价值网络足够强大,自己摸索也能摸索出最好的着法来。(你就假想一个牛散,如果没有人教他炒股,但他自己炒股炒了800年,再怎么样也摸索出来了)
为什么这版的AlphaGo可以采用单机版?
说到底也是价值网络足够强大,对各种棋形都已经归纳抽象,不用算很多步就能判断出来了。(你就假想一个大型公募基金的投资总监,当年有几百个买方卖方的研究员给他提供研究支持,现在奔私了,只要公司基本面没有变化,他不需要研究员也可以对各个公司做出准确判断)
为什么AlphaGo经常特别有创造力,在之前还学习人类棋谱的版本就很有创造力了?
说到底也是价值网络足够强大。虽然人类棋手很少会下出这样的着法,策略网络对其给出的优先级不高,但价值网络给出了很高的胜率,就也被采用了。(你就假想那些黑马股,研究员根本不覆盖,也不会去推荐,但牛逼的基金经理自己把所有的股票都过一遍时,直觉判断这黑马能涨,于是就买入了)
为什么别的围棋AI水平还不错,但经常会出bug,而AlphaGo现在已几乎完全不会出?
说到底还是价值网络足够强大,练的足够多,对任何冷僻的局面都见识过了,而别的Ai总有些还没练到的。(你就假想有些牛散自己炒股了30年,旁人已经觉得他老司机了,但总有些年份特别诡异他也会亏钱,这能和炒股800年的牛散比么)
所以,最关键是舍得砸钱,堆计算能力,持续的自我对局练狗。(当然,我不否认40层神经网络也很重要,如何做到层数做到恰到好处,是个技术活)
其实谷歌做人工智能,这种暴力练狗的思路是持续贯彻的。
在24日的人工智能高峰论坛上,负责谷歌翻译的软件工程师就介绍到,谷歌翻译学习了1亿对中英文对照的句子,才取得了比较好的效果。
3. 什么是人工智能需要的大数据:可以构建价值网络的大数据
在去年AlphaGo横空出世时,一时舆论界都很恐慌,感觉分分钟人工智能要让所有人下岗了;但时隔一年,发现各个行业都还安然无恙后,大家又开始疑惑究竟AI能应用到哪里。
说到底,AlphaGo仍然是机器不是人,无法真的像人那样思考,我们不能简单说以前需要人思考的工作现在都可以由机器来完成。
我们应该想的是AlphaGo的成功要素,看在哪些应用领域已经完全具备?
首先是输入信息完备。
围棋的好处就在于所有的信息都在棋盘上,全部可以给到系统。
反之,比如机器人做菜只能用预设程序,而无法形成反馈改进的智能机制,因为目前味与香都还很难数字化输入到系统。
当然,这两种都是极端情况,很多时候需要把外部输入信息通过各种方式尽可能最大程度的给到系统。比如热议的机器人炒股,基于看k线图是没问题的,财报数据也不难,但比如宏观经济、政治局势、监管法规、投资者情绪等,机器不像人可以迅速直观地掌握信息,需要人为设置来通过一些其他方式来近似这些信息,比如用搜索频度来判断投资者情绪等。
其次是可以构建价值网络的大数据。
新版本的AlphaGo很容易让我们混淆无监督学习的概念。既然它放弃了学习棋谱,全靠自学成才,那就是无监督学习了?
其实不然。监督学习和无监督学习,最基本的区别在于是否有标签。虽然新版AlphaGo是在完全依靠自我对局提高,看起来没有任何的人为输入,但围棋毕竟是种规则游戏,棋下到最后都有输赢,所以天然是有标签的。
正是输赢的标签,让AlphaGo能对每一种棋局判断胜率,最终形成强大的价值网络,这是其比人类顶尖棋手更强的棋感。
经常大家会说大数据对于人工智能的作用,必须要给人工智能喂数据,喂的数据足够多,才能让其变得足够聪明,这基本已成共识了。但事实上大量数据都是没有意义的,只有能帮助形成价值网络的数据才有意义,才能帮系统提高智能程度。
那什么样的数据能形成价值网络呢?要么是环境自己运行过程中能得到好坏的结果,且能被系统观测到(比如让机器人自己走路);要么就是人为地定义了对错好坏的标签。如果两者都不具备,你就得想想是不是这个数据没有意义了。
那纯粹无监督的学习也存在啊,就没有价值了么?也是有的,比如用来做聚类分类,但应用场景和效果都有限。
24日的人工智能高峰论坛上,当Alphabet董事长Eric Schmidt被问到人工智能哪个领域希望最大时,他就回答是医疗。因为人工智能需要数据,而医疗健康领域数据量很多。
从后面谷歌相关技术人员展示的医疗案例来看,大多集中在医学影像,因为在这方面机器的输入信息是完备的,或者说至少和人获得的一样多;医学案例都有病情最终结果的信息,因此都是有标签的;而且对于很多相对不那么常见的病例,机器可以获得的案例数量是要比单个医生多很多的,因此有可能具备比人更强的鉴别能力。
4. 谷歌的人工智能怎么赚钱?其他人工智能企业的出路是什么?
当下各大科技巨头都把AI作为重点发展方向,但未必都将其作为最重点方向,谷歌显然是已经作为最重点了。
当Eric Schmidt被问到“在业内这么多年,经历的最大变化是什么?”
他马上回答,“我这辈子看到最大的变化就是神经网络和人工智能”。在他看来,计算机发展这么多年,虽然性能提升了那么多,但本质的算法是一样的,而现在算法出现了根本性颠覆,再也不用去教机器干嘛了。
要知道,Eric Schmidt作为八十年代就从事IT行业的人,当年是经历过人工智能的那一轮泡沫的幻灭的,所以一度是很不看好人工智能的,但后来就及时发现了,并在媒体采访时公开表示,错判了AI的重要性。
当然,我们得知道,谷歌毕竟是个商业企业,做人工智能,固然也是为了推动人类社会进步,让世界更美好,但肯定也是需要赚钱的。
我理解,目前谷歌能想到的主要盈利模式,是卖TPU芯片和谷歌云服务。
表明上看,谷歌似乎全是在努力推动社会进步,还把自己的毕生AI精华TensorFlow都开源出来给大家。这很容易让大家想到智能手机的时代,谷歌提供免费的安卓系统。最终谷歌在Google Play商店赚了点钱,但这个显然和整个安卓系手机攫取的利润不在一个量级。这次在AI的赛道故伎重演,谷歌肯定希望在利润贡献上也有改进的。
这次的论坛上,谷歌多次介绍了自己的TPU芯片2.0,甚至在Erci Schmidt发言时,也多次帮TPU芯片打广告,经常从完全无关的话题跳转到TPU上。
想来,去年以来AI大热,最后股价和业绩上表现最好的就是英伟达了,想必谷歌也是眼红了。
谷歌云也是类似。这次论坛每次介绍AlphaGo技术时,都要刻意强调一下谷歌云。每次都要说“这个是单机版,依靠谷歌云进行计算”。大家只关心你是不是单机,其实没人关心是在谷歌云还是阿里云,但处于商业目的,必须强调啊。理论上,TPU芯片和TensorFlow芯片都可以运行在其他系统上,但事实上,运行在谷歌云上是最方便的。
亚马逊的AWS这么火,想必谷歌也是眼红了。
当然,国内也有有志之士,呼吁抵制谷歌的TensorFlow,担心一旦被谷歌一统天下,固化了生态体系,其他AI公司的发展就得看其脸色行事了。说得是不错,但我感觉就算国内不是谷歌,也会有其他公司来统治生态系统的。
谷歌代表了当期IT巨头发展人工智能业务的一种思路,那么,其他AI公司的出路在哪里?如何可以实现差异化竞争呢?
在当前开源时代,我的理解,卖通用算法做成软件来卖不是种好的商业模式(毕竟有这么多慷慨的公司在做开源),所以要么你能做很好的通用人工智能算法去构建生态系统(这点不是不可能,中国在人工智能上并没有怎么落后国外巨头),要么你就是去做大数据,构建能形成价值网络的大数据。
具体的说,商业模式包括:
收集有标签的大数据。
包括做传感器,或是有海量用户的互联网平台来收集数据,当然,有价值的主要是有标签的数据,要么是系统运行过程中可以自行得出结果,要么是多费点人工来定义标签,要么是UGC方式,让互联网用户来评定。
在专业领域建模。
很多专业领域,如新品研发,如果没有掌握很多行业知识的人来建模,是无法做起来的,包括确立正确的目标、构建合适的模型、模拟完备的输入,以及训练系统提升等,都需要专业知识。
输出整体解决方案。
载体可以是软件,是互联网平台,是硬件设备,或项目方案。从算法到可以应用到实际,还需要很多步骤,比如临床试验、通过监管认证、建立信任、工程流程及用户设计等,能把这些事情都做好的,必然有其竞争力和商业价值。
正如浙江大学计算机学院副院长陈刚在24日人工智能论坛所说,未来应该70%的精力放在人工智能的应用,30%的精力花在技术算法的研发上。结合到实际领域的应用才是更有价值的。(当然他说的一个前提是如果脑科学没有大的突破,技术算法的研发上难有大的突破)。
5. 贴些现场图
通常来说这个环节应该在最前面的,但考虑到把干货放前面,就换了下次序,如果没有WiFi的话看到这里就可以关闭退出了。
乌镇会展中心外观。毕竟是举办过三届互联网大会的地方,举办这种高规格的大会秩序井然。
Deepmind CEO哈萨比斯演讲。看了下他简历,一直就是开挂的那种。
Alphabet董事长Erci Schmidt对话,IT行业传奇人物,在Sun、Novell都创造过辉煌,又把谷歌从一个小公司带到全球市值第二大。
柯洁与AlphaGo的对局室现场。虽然有网友做了柯洁的表情包,看着好像柯洁是猴子似的,但实际对局室特别寂静,只有落子的声音,连气都不敢喘,能感受到阿老师的巨大气场和压力。
研究室。可以看到几乎中国目前所有的顶尖棋手:古力、陈耀烨、连笑、时越、唐韦星、周睿羊、於之莹、俞斌、华学明、王磊等。
一楼的大盘讲解,这时是王汝南/常昊,后面还先后换成聂卫平/常昊、俞斌/时越讲。
谷歌的工作室,有英文的讲解,不过感觉这里的人都没什么事,核心人员在下一张图。
谷歌的设备间。这是唯一进不去完全进不去的地方,只能从门缝里拍到一点阿老师的真身
赛后的发布会,哈萨比斯和8位棋手,不知道为啥古力没出现。柯洁在赛后发布会上几度哽咽,不过现场多次报以热烈的掌声。
很能理解柯洁赛后的巨大痛苦,作为棋手,他输掉三盘后,已经不再有挑战阿老师的机会,或者说,在围棋领域,人机的对决,以机器的完胜画上了句号。
但如前所述,机器目前并未真的像人那样思考,说到底是通过海量有标签数据(在围棋领域就是自战对局),训练出强大的价值网络来决策。这种方式在其他应用领域的适用性还待验证。未来,各个应用领域AI的努力才刚刚开始。
往期精华链接
【星际随笔之九】曲率已驱动了头发——深度分析谷歌AlphaGo击败职业棋手
【星际随笔之16】一个低级失误提前了载入史册的日子——写在谷歌围棋首局战胜李世石之后
【星际随笔之17】信心被完全摧毁 我很同情,以及尊敬李世石——写在李世石输掉和AlphaGo的第二局后
【星际随笔之18】假如围棋界有黄健翔——写在李世石首次战胜AlphaGo后
【星际随笔之55】神狗胜天半子,侥幸还是吊打?快评AlphaGo首局胜柯洁