AlphaGo Zero横空出世引爆业内，AI大牛对此怎么看？

2017-10-27 慧天地

点击图片上方蓝色字体“慧天地”即可订阅

（点击图片可放大观看，更多精彩请留意文末推荐)

北京时间10月19日凌晨，Deepmind在Nature上发布论文《Mastering the game of Go without human knowledge》（不使用人类知识掌握围棋），在这篇论文中，Deepmind展示了他们更强大的新版本围棋程序“AlphaGo Zero”，验证了即使在像围棋这样最具挑战性的领域，也可以通过纯强化学习的方法自我完善达到目的。据介绍，AlphaGo Zero仅经过三天训练，就能以100：0击败此前击败李世石的AlphaGo Lee，经过21天训练，就能达到击败柯洁的AlphaGo Master的水平。

此消息一出，立刻引发了学术界的广泛热议，许多专家学者纷纷对此发表思考与见解。现将部分AI大牛的观点整合如下：

王飞跃：理性看待AlphaGo Zero的研究成果

“

中国科学院自动化研究所复杂系统管理与控制国家重点实验室任主任王飞跃表示，大家应该理性看待AlphaGo Zero的研究成果。Deepmind公司的这一论文一发表，TPU的销量可能要大增了。他说，AlphaGo的程序的确越来越简洁、有效。但那种“看了AlphaGo Zero，就认为人类经验没用了，人工智能已经超过人类智力”的观点不正确。

他认为，在所有“规则界定得非常清楚，而且规则中包含了所有信息”的任务中，机器或程序都应超过人类。正如汽车会跑得比人快，飞机会飞得比人高。而人工智能在应用中面临的更多挑战是那些规则不清，或者清楚但不包含所有信息的事情。在军事国防，社会经济，特别是日常生活的很多应用场景都是这样，人为界定出来的规则可以非常简化，但无法确定所有信息，比如交通规则。这时候，人工智能会做一个好的安全且有效决策吗？

王飞跃教授认为，真正智能的是AlphaGo Nothing, 这就是人类，为定规则而生，而机器是为执行而造的。

”

李开复：不要低估AI发展速度，正视中美学术差距

“

创新工场董事长李开复看到AlphaGo Zero的消息之后，短短两句话总结了他的观点：

一是AI前进的速度比想象中更快，即便是行业内的人士都被AlphaGo Zero跌破眼镜；

二是要正视中国在人工智能学术方面和英美的差距。

随后，他又发表文章补充分享了对AlphaGo Zero的观点。他表示，虽然AlphaGo Zero的技术革新并非适用于所有人工智能领域，并且此次没有新的巨大的理论突破，但这次它带来的影响力也是巨大的。原文如下：

一方面，AlphaGo Zero的自主学习带来的技术革新并非适用于所有人工智能领域。围棋是一种对弈游戏，是信息透明，有明确结构，而且可用规则穷举的。对弈之外，AlphaGo Zero的技术可能在其他领域应用，比如新材料开发，新药的化学结构探索等，但这也需要时间验证。而且语音识别、图像识别、自然语音理解、无人驾驶等领域，数据是无法穷举，也很难完全无中生有。AlphaGo Zero的技术可以降低数据需求（比如说WayMo的数据模拟），但是依然需要大量的数据。

另一方面，AlphaGo Zero里面并没有新的巨大的理论突破。它使用的Tabula Rosa learning（白板学习，不用人类知识），是以前的围棋系统Crazy Stone最先使用的。AlphaGo Zero里面最核心使用的技术ResNet，是微软亚洲研究院的孙剑发明的。孙剑现任旷视科技Face++首席科学家。

虽然如此，这篇论文的影响力也是巨大的。AlphaGo Zero 能够完美集成这些技术，本身就具有里程碑意义。DeepMind的这一成果具有指向标意义，证明这个方向的可行性。

在科研工程领域，探索前所未知的方向是困难重重的，一旦有了可行性证明，跟随者的风险就会巨幅下降。我相信从昨天开始，所有做围棋对弈的研究人员都在开始学习或复制AlphaGo Zero。材料、医疗领域的很多研究员也开始探索。

AlphaGo Zero的工程和算法确实非常厉害。但千万不要对此产生误解，认为人工智能是万能的，所有人工智能都可以无需人类经验从零学习，得出人工智能威胁论。AlphaGo Zero证明了AI 在快速发展，也验证了英美的科研能力，让我们看到在有些领域可以不用人类知识、人类数据、人类引导就做出顶级的突破。

但是，AlphaGo Zero只能在单一简单领域应用，更不具有自主思考、设定目标、创意、自我意识。即便聪明如 AlphaGo Zero，也是在人类给下目标，做好数字优化而已。

”

孙剑：“无师自通”短时间无法成为 AI 主流

“

旷视科技Face++首席科学家孙剑博士作为深度残差网络 ResNet 作者之一，特别接受了多方媒体的专访，并对这次的技术升级做了详尽的阐述。在他看来，本次技术提升足够伟大，但在真实技术落地过程中却有着众多局限，并指出未来很长一段围绕大数据的训练模式和有监督的学习方法仍是主流深度学习技术应用的必需方式。

“AlphaGo Zero 的伟大之处是第一次让机器可以不通过任何棋谱，不通过任何人类的经验，在只告诉规则的前提下就实现了成为一个围棋高手，这种无师自通的学习模式在 AI 整个发展上是非常有里程碑意义的。”孙剑博士讲到AlphaGo Zero的技术意义时指出，“但是同时这种无师自通在很多 AI 落地上也存在一些局限，因为严格意义上讲，围棋规则和判定棋局输赢也是一种监督信号，所以有人说人类无用、或者说机器可以自己产生认知，都是对 AlphaGo Zero 错误理解。”

“实际上在很多 AI 行业落地中，弱的监督学习或者所谓的无师自通还是无法在短期成为主流。”孙剑博士补充，“比如，就旷视Face++所擅长的人脸识别来讲，这个能力是人类后天学习的能力，是通过时间不断演化出来的一种生存能力，人只有具备了人脸识别能力，人类社会才能正常运转。把这种后天能力输出给机器，其实就需要人的监督信号，包括目前人工智能落地所解决的很多事情，其实都是模拟人类的一种技能，让机器实现这种任务就需要海量的数据与更多的信号输入，所以今天，甚至今后很长一段时间内，监督学习依然是 AI 研究与 AI 商业化的主流方向。”

”

周志华：启发式搜索可能因此发生巨变

“

南京大学计算机系教授周志华在微博上也第一时间发表了他的观点，从多个方面对Alphago Zero进行了评价。

花半小时看了下文章，说点个人浅见，未必正确仅供批评：

1、别幻想什么无监督学习，监督信息来自精准规则，非常强的监督信息。

2、不再把围棋当作从数据中学习的问题，回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。

3、如果说深度学习能在模式识别应用中取代人工设计特征，那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变，或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。

4、类似想法以往有，但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构，存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设，所以这个尝试相当大胆。

5、工程实现能力超级强，别人即便跳出盲点，以启发式搜索界的工程能力也多半做不出来。

6、目前并非普适，只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。

”

吴飞：人是智能的最终主宰

“

即使对于风口浪尖上的AlphaGo Zero，浙大计算机学院副院长，浙大人工智能研究所所长吴飞教授依然保持了克制和冷静。他提到这其中让他最为兴奋的点：“仅通过“从经验中学习”的强化学习手段、而不利用海量数据来学习一个强大的模型，这是AlphaGo Zero令人印象深刻的地方。不过，最终的主宰仍是人类。我不赞同马斯克和霍金的威胁论。

以下是吴飞教授观点原文：

AlphaGo是在一个规则明确的环境中进行人机博弈的智能程序。虽然AlpaGo Zero没有利用到人类选手的数据，但是其利用了围棋布子和输赢等规则（这也是数据的一种），并不是完全意义上的“无师自通”。大数据驱动的人工智能仍然是当前人工智能能展示出巨大能力的主流方向。从小样本中学习、归纳出有用的知识，进而利用这种知识来指导我们的行为，仍然面临理论模型的巨大挑战，尚未达到支持工业界快速升级的阶段。

仅通过“从经验中学习”的强化学习手段、而不利用海量数据来学习一个强大的模型，是AlphaGo Zero令人印象深刻的地方。但是，我们也要注意到，卡耐基梅隆大学研制的无限注德州扑克程序Libratus，也是从经验中进行策略学习，没有利用人类选手的数据。

AlphaGo Zero是在围棋这一完全信息博弈下战胜人类的一种智能程序。应该说，在可重复、可枚举、执行任务过程及任务胜负结果可清晰描述的活动中，机器智能由于具有强大的记忆功能和搜索能力，其会战胜人类。但是，现在的人工智能更多体现在垂直领域，这里面仍然还有很多难题没有解决。通用人工智能是我们人类所具有的一种智能形式。从现在研究的进展来看，仍然难以看到通用人工智能的曙光。

从长期来说，人的智能和机器的智能会紧密结合在一起，形成混合增强智能。在混合增强智能中，人类智慧和机器智能的优势被彼此结合，完成人类智慧和机器智能所无法单独完成的任务。

但是我要强调一点，在混合增强智能中，人还是智能回路中的总开关，所以人还是最终的智能主宰。

”

马少平：AlphaGo Zero已经将计算机围棋做到极致，但也有其局限性

“

清华大学计算机系教授马少平也在博客上评价了AlphaGo Zero，他表示AlphaGo Zero把计算机围棋做到了极致，随后将其与之前的版本进行了充分对比，另外，他也表示AlphaGo Zero有其应用局限性：

从早上开始，就被AlphaGo Zero的消息刷屏了，DeepMind公司最新的论文显示，最新版本的AlphaGo，完全抛弃了人类棋谱，实现了从零开始学习。

对于棋类问题来说，在蒙特卡洛树搜索的框架下，实现从零开始学习，我一直认为是可行的，也多次与别人讨论这个问题，当今年初Master推出时，就曾预测这个新系统可能实现了从零开始学习，可惜根据DeepMind后来透露的消息，Master并没有完全抛弃人类棋谱，而是在以前系统的基础上，通过强化学习提高系统的水平，虽然人类棋谱的作用越来越弱，但是启动还是学习了人类棋谱，并没有实现“冷”启动。

根据DeepMind透露的消息，AlphaGo Zero不但抛弃了人类棋谱，实现了从零开始学习，连以前使用的人类设计的特征也抛弃了，直接用棋盘上的黑白棋作为输入，可以说是把人类抛弃的彻彻底底，除了围棋规则外，不使用人类的任何数据和知识了。仅通过3天训练，就可以战胜和李世石下棋时的AlphaGo，而经过40天的训练后，则可以打败与柯洁下棋时的AlphaGo了。

真是佩服DeepMind的这种“把革命进行到底”的作风，可以说是把计算机围棋做到了极致。

那么AlphaGo Zero与AlphaGo（用AlphaGo表示以前的版本）都有哪些主要的差别呢？

1、在训练中不再依靠人类棋谱。AlphaGo在训练中，先用人类棋谱进行训练，然后再通过自我互博的方法自我提高。而AlphaGo Zero直接就采用自我互博的方式进行学习，在蒙特卡洛树搜索的框架下，一点点提高自己的水平。

2、不再使用人工设计的特征作为输入。在AlphaGo中，输入的是经过人工设计的特征，每个落子位置，根据该点及其周围的棋的类型（黑棋、白棋、空白等）组成不同的输入模式。而AlphaGo Zero则直接把棋盘上的黑白棋作为输入。这一点得益于后边介绍的神经网络结构的变化，使得神经网络层数更深，提取特征的能力更强。

3、将策略网络和价值网络合二为一。在AlphaGo中，使用的策略网络和价值网络是分开训练的，但是两个网络的大部分结构是一样的，只是输出不同。在AlphaGo Zero中将这两个网络合并为一个，从输入到中间几层是共用的，只是后边几层到输出层是分开的。并在损失函数中同时考虑了策略和价值两个部分。这样训练起来应该会更快吧？

4、网络结构采用残差网络，网络深度更深。AlphaGo Zero在特征提取层采用了多个残差模块，每个模块包含2个卷积层，比之前用了12个卷积层的AlphaGo深度明显增加，从而可以实现更好的特征提取。

5、不再使用随机模拟。在AlphaGo中，在蒙特卡洛树搜索的过程中，要采用随机模拟的方法计算棋局的胜率，而在AlphaGo Zero中不再使用随机模拟的方法，完全依靠神经网络的结果代替随机模拟。这应该完全得益于价值网络估值的准确性，也有效加快了搜索速度。

6、只用了4块TPU训练72小时就可以战胜与李世石交手的AlphaGo。训练40天后可以战胜与柯洁交手的AlphaGo。

对于计算机围棋来说，以上改进无疑是个重要的突破，但也要正确认识这些突破。比如，之所以可以实现从零开始学习，是因为棋类问题的特点所决定的，是个水到渠成的结果。因为棋类问题一个重要的特性就是可以让机器自动判别最终结果的胜负，这样才可以不用人类数据，自己实现产生数据，自我训练，自我提高下棋水平。但是这种方式很难推广到其他领域，不能认为人工智能的数据问题就解决了。

”

田渊栋：AlphaGo Zero 证明了从理论上理解深度学习算法的重要性

“

Facebook 人工智能组研究员田渊栋也在知乎上发文阐述了他的观点。他表示，这一方法将成为经典。在文中，他也阐述了此次有哪些震惊到他的地方，以及一些推论。

他的原文如下：

老实说这篇Nature要比上一篇好很多，方法非常干净标准，结果非常好，以后肯定是经典文章了。

Policy network和value network放在一起共享参数不是什么新鲜事了，基本上现在的强化学习算法都这样做了，包括我们这边拿了去年第一名的Doom Bot，还有ELF里面为了训练微缩版星际而使用的网络设计。另外我记得之前他们已经反复提到用Value network对局面进行估值会更加稳定，所以最后用完全不用人工设计的default policy rollout也在情理之中。

让我非常吃惊的是仅仅用了四百九十万的自我对局，每步仅用1600的MCTS rollout，Zero就超过了去年三月份的水平。并且这些自我对局里有很大一部分是完全瞎走的。这个数字相当有意思。想一想围棋所有合法状态的数量级是10^170（见Counting Legal Positions in Go：https://tromp.github.io/go/legal.html），五百万局棋所能覆盖的状态数目也就是10^9这个数量级，这两个数之间的比例比宇宙中所有原子的总数还要多得多。仅仅用这些样本就能学得非常好，只能说明卷积神经网络（CNN）的结构非常顺应围棋的走法，说句形象的话，这就相当于看了大英百科全书的第一个字母就能猜出其所有的内容。用ML的语言来说，CNN的inductive bias（模型的适用范围）极其适合围棋漂亮精致的规则，所以稍微给点样本水平就上去了。反观人类棋谱有很多不自然的地方，CNN学得反而不快了。我们经常看见跑KGS或者GoGoD的时候，最后一两个百分点费老大的劲，也许最后那点时间完全是花费在过拟合奇怪的招法上。

如果这个推理是对的话，那么就有几点推断。

一是对这个结果不能过分乐观。我们假设换一个问题（比如说protein folding），神经网络不能很好拟合它而只能采用死记硬背的方法，那泛化能力就很弱，Self-play就不会有效果。事实上这也正是以前围棋即使用Self-play都没有太大进展的原因，大家用手调特征加上线性分类器，模型不对路，就学不到太好的东西。一句话，重点不在左右互搏，重点在模型对路。

二是或许卷积神经网络（CNN）系列算法在围棋上的成功，不是因为它达到了围棋之神的水平，而是因为人类棋手也是用CNN的方式去学棋去下棋，于是在同样的道路上，或者说同样的inductive bias下，计算机跑得比人类全体都快得多。假设有某种外星生物用RNN的方式学棋，换一种inductive bias，那它可能找到另一种（可能更强的）下棋方式。Zero用CNN及ResNet的框架在自学习过程中和人类世界中围棋的演化有大量的相似点，在侧面上印证了这个思路。在这点上来说，说穷尽了围棋肯定是还早。

三就是更证明了在理论上理解深度学习算法的重要性。对于人类直觉能触及到的问题，机器通过采用有相同或者相似的inductive bias结构的模型，可以去解决。但是人不知道它是如何做到的，所以除了反复尝试之外，人并不知道如何针对新问题的关键特性去改进它。如果能在理论上定量地理解深度学习在不同的数据分布上如何工作，那么我相信到那时我们回头看来，针对什么问题，什么数据，用什么结构的模型会是很容易的事情。我坚信数据的结构是解开深度学习神奇效果的钥匙。

另外推测一下为什么要用MCTS而不用强化学习的其它方法（我不是DM的人，所以肯定只能推测了）。MCTS其实是在线规划（online planning）的一种，从当前局面出发，以非参数方式估计局部Q函数，然后用局部Q函数估计去决定下一次rollout要怎么走。既然是规划，MCTS的限制就是得要知道环境的全部信息，及有完美的前向模型（forward model），这样才能知道走完一步后是什么状态。围棋因为规则固定，状态清晰，有完美快速的前向模型，所以MCTS是个好的选择。但要是用在Atari上的话，就得要在训练算法中内置一个Atari模拟器，或者去学习一个前向模型（forward model），相比actor-critic或者policy gradient可以用当前状态路径就地取材，要麻烦得多。但如果能放进去那一定是好的，像Atari这样的游戏，要是大家用MCTS我觉得可能不用学policy直接当场planning就会有很好的效果。很多文章都没比，因为比了就不好玩了。

另外，这篇文章看起来实现的难度和所需要的计算资源都比上一篇少很多，我相信过不了多久就会有人重复出来，到时候应该会有更多的insight。大家期待一下吧。

”

来源：德先生（版权归原作者及刊载媒体所有）

点击图片即可了解“求职学子自荐活动”！

荐读

点击下文标题即可阅读

中国人工智能学会理事长李德毅：《AI：人类社会发展的加速器》

你在哪里？在干什么？数据都知道——三院士纵论人工智能时代时空信息服务的颠覆性创新与挑战

四位人工智能界的泰斗大牛关于人工智能的理解与预言

科普天地|人工智能历史、核心技术和应用（经典长文，新手必看）

编辑/杨长龙审核/ 郭晓非荐稿/ 蔡丽华

指导：万剑华教授(微信号wjh18266613129）

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界