关于“AlphaGo zero击败AlphaGo”的改写题｜18北师大新传专硕真题解析06

Original Oliviaaaa 胡师姐新传考研 2023-06-25

2018年北京师范大学新传专硕334

改写题根据材料，改写标题，完成：140字简讯，600字以内评论。

▼ 材料：

从0开始学，阿尔法元完胜阿尔法狗

中青在线讯（中国青年报·中青在线记者张茜）10月18日，《自然》杂志网站公布的论文显示，此前战胜人类围棋世界冠军的电脑程序AlphaGo的开发团队又出力作——新程序AlphaGo Zero（阿尔法元）不依靠人类指导和经验，仅凭自身算法强化学习，就以100：0的战绩击败了AlphaGo（阿尔法狗）。

此消息给世人带来了不小的震动。此前被AlphaGo击败的世界知名围棋选手柯洁今早在社交平台上表示：“一个纯净纯粹自我学习的AlphaGo是最强的.....对于AlphaGo的自我进步来讲.....人类太多余了。"

那么，经过升级的AlphaGo Zero到底是如做到“长江后浪推前浪”的呢?

人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。

《自然》杂志的公开消息称，为了打败人类围棋世界冠军，科学家在训练上一款AlphaGo时，同时用到了监督式学习（基于上百万种人类专业选手的下棋步骤）和基于自我对弈的强化学习。此前那款AlphaGo的训练过程长达几个月，用到多台机器和48个TPU（神经网络训练所需的专业芯片）。

而在最新发表的论文中，作者David Silver，Julian Schrittwieser，Karen Simonyan，Demis Hassabis等在介绍AlphaGo Zero时表示，它的学习从零开始，且单纯基于与自己的对弈。人类的输入没有超出游戏规则以外的任何指导、数据以及内部知识。

AlphaGo Zero仅用到一张神经网络，这张网络经过训练，专门预测程序自身的棋步和棋局的赢家，在每次自我对弈中进步。新程序只使用一台机器和4个TPU。

通过几天的训练——包括近500万局自我对弈——AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。

David Silver团队在其公司DeepMind网站中总结道，AlphaGo Zero相比与AlphaGo的更强大之处恰恰在于：“它再也不会受到人类经验的限制，而是可以不断向世界上最强的围棋手——也就是它自己学习到非既定的能力。”

《自然》杂志也在社交平台上表示，随着程序训练的进行，AlphaGo Zero独立发现了人类用几千年才总结出来的围棋规律，还建立了新的战略，为这个古老的游戏带来新见解。

答题思路

❶ 写简讯的时候，要把最关键的信息、最重要的事情、最新的进展放在开头处，即“AlphaGo Zero大败AlphaGo”，同时确保整篇消息的要素（Who When Where What Why How）齐全即可。

❷ 写评论的时候，首先要确定自己评论的立足点，对同一个事件进行评论的切入口有很多，但将其中最具争议、最触动人的焦点立为评论切口更为合适。在此报道里，最触动人的点在于，AlphaGo已经打败了人类世界冠军，但它还是需要人类的辅助进行围棋学习，并未完全打破人类的神话。但新研发的AlphaGo Zero完全跳脱了人类的教学辅助，自学成才，甚至打败了AlphaGo，这更令人感到恐慌。

参考答案

▼ 简讯：

阿尔法元无师自通，阿尔法狗一败涂地

2017年10月18日，刊登于《自然》杂志网站的论文显示，阿尔法狗研发团队的新作，阿尔法元，以100：0的战绩大败阿尔法狗。

阿尔法狗和阿尔法元都是学习围棋的人工智能机器人。阿尔法狗曾战胜世界围棋冠军，此次大败，是因为阿尔法元突破了人类自身经验的限制，仅仅通过自我对弈就完成了围棋强化学习，而阿尔法狗当年同时接受了监督式学习、自我对弈的强化学习。

▼ 评论：

阿尔法元的胜利，

并非是吹响了技术战胜人类的号角

阿尔法元从零到一、无师自通、自学成才，并且打败了之前的AlphaGo，令不少人瞠目结舌，令悲观主义者惴惴不安——人类的地位前所未有地遭到了技术的挑战，更有甚者产生了“黑客帝国”式的担忧。但事实并非如此。

首先，阿尔法元并未摆脱人类的技术设定。虽然相比阿尔法狗，阿尔法元进步了很多，简单来看它是通过自我强化学习的大获成功的。但深究起来，它的构成是人类制造的，它的神经算法是人类赋予的，它的学习过程依旧需要1台机器和4个TPU的辅助，它的围棋操作规则依然是人类输入的。它的成功，并非是在不需要任何基础设施的基础上，实现从无到有的自我组装、自我进化。它只是相比阿尔法狗，被人类掣肘的更少、耗费的成本更小，但这不等于摆脱了人类。

其次，人工智能的层层突破、自我进化，目前也只是体现在围棋领域。一方面，并未有证据表明，在任何有特定规则的领域，人工智能都能够实现这种进化；也并未有证据表明，在没有特定规则的领域，人工智能依然能实现这种进化。另一方面，相比更多繁杂的知识，围棋的规则已然十分简单，其准入门槛并不高，幼龄学生也可以参与学习，在简单领域适用未必在复杂领域也适用；而且人类世界的知识浩如烟海、汗牛充栋，围棋只是九牛一毛，从极端个案推广到整个人类领域，未免不合适。

再次，从宏观的视角来看，这不过是一个正反馈循环的学习过程。人类通过不断学习、研究，研发了新的科技，新的科技又赋予了人类新的知识，人类便可以再次从新的知识中学习。固然，人类不可忽视整个过程的副作用，也不可忽视微观视角下的看法，但若过度分斤掰两，反而会顾此失彼。这个正反馈循环之所以能够成立，也是因为科学家们承认自己的无知，并未陷入忧思而无法自拔，反而愿意向未知进行学习；承认无知正是西方国家开启新纪元、不断进步并逐步领先于世界的核心，“承认无知”的心态对今天的人类也具有十分重要的意义。

人类并不会和自己研发出来的汽车、火车、高铁、飞机比赛奔跑，并且视之为愚蠢的行为，更不会感到自卑或悲观于技术的领先；同理，人类也不必和自己研发出来的人工智能一较围棋技能的高低，也不必因此而放大忧思。时刻保持辩证、冷静的眼光，才是面对新事新物的应有之义。

/END/

小编 | 烧鹅

责编 | 北北

加小助手领取福利

推荐阅读

1. 对互联网管理的看法及建议｜18北师大新传专硕真题解析05

2. 直播的现状、特点及发展趋势｜18北师大新传专硕真题解析04

3. 官方舆论场和民间舆论场｜18北师大新传专硕真题解析03

4. VR｜18北师大新传专硕真题解析02

5. 新闻真实｜18北师大新传专硕真题解析01

点击阅读原文，即可报名一对一课程～