Hinton、吴恩达们也“吹牛”炒作？

程序人生 2020-02-12

The following article comes from AI科技大本营 Author CSDN App

来源 | The Gradient

作者 | Gary macus

编译 | 夕颜

出品 | AI科技大本营（ID:rgznai100）

【导读】也许每篇论文摘要都必须强制加一块内容，说明所提出方法的局限性。这样就可以避免一些科学上的误解和炒作。
-Sebastian Risi（@ risi1979）

媒体通常热衷于报道人工智能、纳米技术或者任何领域中每一个微小的进步，并将之视为一次将很快从根本上改变世界的巨大胜利。当然，偶尔也会有新的发现没有得到足够曝光。比如晶体管刚问世时并没有引起巨大的轰动，最初很鲜有人欣赏互联网的全部潜力。但是对于晶体管和互联网，有成千上万的次要结果被夸大了，很多产品和想法并未变成现实，比如没有实现的冷聚变等先进技术，以及那些无疾而终的实验最终也没能重塑世界，辜负了当初人们对它们的热切期望。

晶体管图片下载自图虫创意

当然，部分原因是因为人们都喜欢革命的故事，而觉得一点微小的进步无聊。但是，研究人员通常扮演着“同谋”的角色，因为他们过于依赖曝光，这会对他们的资金甚至薪资产生重大影响。在大多数情况下，媒体和相当一部分研究人员都对这种现状感到满意，也正是因为如此，源源不断的结果首先被大肆宣传，然后被默默地遗忘。

不信可以回顾下过去几周的三个成果，这些结果在重要媒体上都以具有误导性的方式被报道：

11月24日，《经济学人》发表了对OpenAI的GPT-2句子生成系统的采访，误导性地表示GPT-2的答案是“未经编辑的”，而实际上，每个已发布的答案都是从五个选项中挑出来的，且具有一定的连贯性和幽默感。这导致公众认为对话式AI发展的状况比实际上乐观得多。而当AI专家（Erik Bryjngjolffson）发推文表示“这个访谈‘令人印象深刻‘，答案的连贯性超过很多人类’”时，这种印象可能无意间被加深。实际上，访谈的连贯性源于（a）系统中庞大的人类写作语料库和（b）人类记者对连贯性的过滤。之后，虽然Brynjjolffson发表了一个更正，但他的原始推文的转发量比更正文的转发量高出约75倍，这一点也证明狂欢式但具有误导性的新闻，传播的速度往往要快于更为冷静的新闻。

OpenAI创建了一对神经网络，使机器人可以学习操纵定制的魔方，并通过误导性的视频和博客对其进行了宣传，使许多人认为该系统已经了解魔方求解的认知方面（即应该向哪个方向旋转），但实际上这个系统压根不懂多维数据集求解过程的这个层面。（相反地，除了灵巧之外，多维数据集求解是通过1992年设计的经典的符号操作多维数据集求解算法计算的，而不是学习到）。另外，这段流传甚广的视频中还有一个不明显的信息点，那就是这个魔方装有蓝牙传感器，并且即使在最佳情况下，也只能解决20％的完全加扰的魔方。媒体报道往往会漏掉许多细微差别。例如，《华盛顿邮报》报道：“ OpenAI的研究人员表示，他们没有“明确地编程”机器来解决难题”，用词极其模糊。《华盛顿邮报》后来发表了一项更正——“更正：OpenAI将他们的研究重点放在了使用机械手对魔方的物理操纵上，而不是解魔方上……”。但又有人怀疑，读过这篇更正的人数比被原始新闻误导过的人数相对要少。

三体问题的解决方法

至少有两篇关于神经网络在物理学中的使用的最新论文被夸大报道，即使是诸如Technology Review 之类的著名媒体也是如此。在这两个案例下，神经网络解决复杂问题的试玩版本都被当成实际成果追捧。例如，一份报告声称“ 神经网络比传统方法解决三体问题的速度快1亿倍 ”，但是该网络从传统意义上来说并没有解决问题，而是进行了近似，且仅近似了一个高度简化的二阶自由问题（而不是常规的10个问题），还有一点是仅针对具有相同质量的物体。最初的技术评论在网络上广泛传播开；随后，Ernest Davis和我本人在Nautilus上进行的详细评论受到了广泛的关注，但是我粗略计算了一下，那篇抓人眼球的原报告的转推量是这篇更为冷静的分析文章的75倍，甚至更多。这一点并不让人感到意外。

不幸的是，过度夸大AI问题不应该仅归咎于媒体本身。实际上，几十年来，自AI诞生以来，许多（尽管不是全部）走在前沿的AI人士都在煽动炒作。

这可以追溯到早期的开拓者们，他们认为我们现在所说的人工智能（AGI）距现在只有几十年。1966年，当时在MIT人工智能实验室为Gerald Sussman分配了一个“暑期视觉项目”（The Summer Vision Project），目的是集中暑假的闲散劳动力解决计算机视觉问题，力争产出模式识别研发的里程碑式的结果。众所周知，机器视觉问题在五十年后仍未得到解决。而回头看看，距离首次发布乐观的预测之后六十年，通用AI似乎仍有几十年的路要走。

现在，这种趋势仍在继续。以下是一些近期AI历史上，一些最著名的当代AI大佬的示例：

在2015年《卫报》上，一篇题为《谷歌距离开发具有类人智能的机器更近了一步》的文章中，被誉为“深度学习教父”的Geoffrey Hinton表示谷歌的新方法将“帮助克服人工智能的两个主要挑战：掌握自然的对话语言以及实现逻辑飞跃的能力”，且该公司（同样是《卫报》的表述）马上就要“开发出具有逻辑、自然对话甚至开玩笑能力的算法。”但是四年过去了，距离实现没有人为干预就能进行自然对话，确保连贯性的机器我们还有很长的路要走，而现有的系统也无法以可靠的方式推理物理世界。
大约一年后， Hinton声称放射科医生就像“一匹已经站在悬崖边上的郊狼，只待向下看一眼”，暗示“如果你是一名放射线医生，就会像动画片《歪心狼》中的Wile E. Coyote一样，已经站在了悬崖边上，”他还补充道，“我们现在应该停止培训放射科医生。很显然，五年之内，深度学习将比放射科医生做得更好。”Hinton在2017年接受《纽约客》采访时进一步回应了这一说法。与此同时，数百家针对放射的公司孵化出来，但是到目前为止，还没有真正的放射线学家被取代，最好的预测是深度学习可以帮助放射线学家，但不能在短期内取代他们。Hinton的话吓坏了许多放射科室。这也产生了一些负面影响：当前，在世界许多地方，放射医师是短缺的。
2016年11月，在《哈佛商业评论》的页面上，另一位深度学习领域的著名人物吴恩达写道：“如果一个人可以花不到一秒钟的时间完成一项思维任务，我们迟早可以用AI自动化来完成。”一个更加客观的评估是，某种东西是否可以自动化，在很大程度上取决于问题的性质，可以收集的数据以及两者之间的关系。对于棋盘游戏等封闭式问题，可以通过模拟收集大量数据，吴恩达的主张被证明是具有预见性的。而在无法完全模拟的开放式问题（例如对话理解）中，迄今为止，吴先生的主张已被证明是错误的。商业领袖和政策制定者应该透彻地理解那些适用于当前技术的问题与不适用于当前技术的问题之间的区别；吴恩达的话模糊了这一点。
2015年5月，《连线杂志》部分地根据对时任Facebook AI Research负责人Yann LeCun的采访报道说：“'深度学习'将很快给我们带来超级智能机器人”；不用说，超级智能机器人还没有到来。正如Pieter Abbeel最近指出的那样，在实验室机器人走向现实世界之前，我们还有很长的路要走。

同时，调查工作被歪曲的人员的回应通常是沉默的，甚至是默许。Open AI的首席科学家llya Sutskever在推特上表示：“《经济学家》采访了GPT-2，而这次采访是有意义的”。当我问到他《经济学人》采访中的例子很明显是择优挑选之后，他是否仍坚持自己的看法之后，他没有给出回应。

一个多月前，OpenAI CTO Greg Brockman 亲自发推文说：“ GPT-2书面论文已提交给《经济学人》青年论文竞赛…一位法并不知道该论文是由AI写成的评委评论道：“措辞有力，有理有据，但这个想法并非独创。”但他却没有提到，其他一些法官对同一篇文章更多地持否定的态度。例如，文章“没能快速点题；观点不新颖，太含糊，夸张，修辞太过”（评委2），最令人发指的是（评委6）“论点并没有从根本上回答问题，也没有提出一个新颖的想法”且书面/结构糟糕。此外，我认为这并没有显示出对现有气候政策或IPCC出台的科学文献的深刻理解。”如果没有阅读过Brockman的推文（除非人关注了他并了解全文），人们不会意识到评委的负面评价。（而社区中很多人的注意力仍然集中在OpenAI最初宣称的GPT-2“太危险”以致无法发布。）

研究社区的其他习惯进一步让人加深了AI近在咫尺的错觉。例如，DeepMind经常撰写论文鼓吹他们工作的潜力，但缺乏关于潜在局限性的章节，而这些章节是大多数严肃科学工作的结论章节的主要内容。相反地，他们经常通过招请推理（invited inference）来暗示，他们正在努力解决棘手的问题和严峻的挑战，他们所使用的技术也应该解决其他严峻的挑战，而不考虑其他问题，例如自然语言理解与他们一直关注的游戏的性质有着天壤之别。他们在Nature上发表的关于AlphaGo和《星际争霸》的论文都用到了这一策略，基本上没有讨论潜在的局限性。

谢天谢地，并非该领域的所有人都夸大了他们的工作。在过去一年左右的时间里，我拜读了Pieter Abbeel和Yoshua Bengio精彩而客观的讲话，他们既注意到深度学习（和深度强化学习）的优势，又同时指出了未来的挑战，并直言不讳地告诉我们还需要走多远。（Abbeel强调了实验室工作与可以在现实世界中工作的机器人之间的差距，Bengio强调了必须纳入因果关系）。我希望这是常态，而不是特例。如果不是这样，决策者和公众很容易感到困惑。因为报道往往会做出过高的评估，因此公众开始担心能够取代他们工作的AI，但是这种AI现在不存在，在可预见的未来也不会存在。

过度乐观的风险

实践者为什么要关心这个问题？毕竟，对AI的炒作让每个人都受益，不是吗？公众的热情意味着投入更多的研究资金，以及更多的人致力于AI。如果有更多的钱和人，我们将更快地获得人工智能。有什么坏处呢？

我认为这是一种公地悲剧（tragedy of the commons）的形式，就像许多人在特定的水域过度捕捞，在短期内每个人都为了自己的利益尽可能多地捕鱼，直到整个鱼群消失殆尽，所有人都受苦。在AI中，也有这样的风险：当公众、政府和投资界认识到他们兜售的对AI的优缺点不切实际的描述与现实不符，那么新的AI寒冬可能会来临。（第一次AI寒冬出现在早先的炒作和失望周期之后的1974年。）

注：公地悲剧，1968年，美国学者哈定在《科学》杂志上发表了一篇题为《公地的悲剧》的文章。英国曾经有这样一种土地制度——封建主在自己的领地中划出一片尚未耕种的土地作为牧场(称为“公地”)，无偿向牧民开放。这本来是一件造福于民的事，但由于是无偿放牧，每个牧民都养尽可能多的牛羊。随着牛羊数量无节制地增加，公地牧场最终因“超载”而成为不毛之地，牧民的牛羊最终全部饿死。（来源：百度百科）

我们已经看到了许多事件，事后看来可能是预兆：

聊天机器人：Facebook在2015年承诺推出一个名为M的系统，该系统将彻底改变个人助理可以做什么的界限。人们对这种AI闻所未闻，该项目被认为是一种数据游戏：人类回答第一批问题，然后深度学习处理其余问题。到2018年，该项目流产。总体来说，2015年，人们对聊天机器人的热情很高。现在，众所周知的是，当前的AI只能处理某些有限的对话，甚至不能保证完全可靠。Facebook牛吹出去了，但没有兑现。
Facebook的聊天机器人系统M于2018年终止
医疗诊断：IBM曾大肆鼓吹沃森（Watson），但最终由于医学研究结果令人失望，MD Andersen Cancer Institute等医疗合作伙伴退出。现在，人们普遍认为，将沃森用于医学诊断的项目是一个过高的承诺。由于有数据访问权限和大量计算和知识资源，很多人最初可能希望DeepMind介入医疗诊断，但是现实是，还没有令人信服的成果出现（且DeepMind的医疗产品从那以后转移到了Google）。实践证明，即使在更简单，对自然语言理解的要求也较低的放射学案例中（主要是感知而不是推理），将实验室演示用于现实也非常困难。
放射科医生检查结果图片下载自图虫创意
假新闻侦探：2018年4月，马克·扎克伯格（Mark Zuckerberg）向国会表示，人工智能将在五到十年内进入这一领域，但到今年5月，首席技术官Mike Schroepfer放弃了近期有望取得的重大进展。
无人驾驶汽车：许多人都期望到2020年实现这一目标（Elon Musk曾承诺），但该领域的普遍共识是，除了在有限的条件下（例如理想的天气，行人较少，有详细地图等），全自动驾驶比大多数人预期的要困难得多，而且要过很多年才能实现。
Waymo无人车来源：Waymo官网

目前，政府、大公司和风险投资家正在对AI进行大量投资，主要是深度学习。如果他们开始意识到这其实是过分乐观，那么整个领域可能会遭受打击。如果无人驾驶汽车和对话机器人迟到一两年，没问题，但是当无人驾驶汽车、医疗诊断和对话式AI的实现的期限越长，新AI寒冬到来的风险就越大。

六点给读者、研究人员、媒体的建议

总结一下，关于AI的错误信息很常见。尽管过分报道并不普遍，但即使是有知名度的媒体也常常歪曲结果。公司利益是导致这个问题背后很常见的原因。个别研究人员，甚至某些最杰出的研究人员有时也会这样做，而当他们的结果被误解时，更多的研究人员则只是旁观，而没有公开澄清。

错误的信息并非无处不在——一些研究人员直截了当地指出局限性，也有报道准确地报道并承认了局限性，但是总是把微小的进度当做革命性进展的趋势是普遍存在的，因为这符合人类对胜利的热衷。

最后，最终的结果可能会破坏该领域，最初帮助激发公众兴趣的初衷，反而会引发AI寒冬。

我提出了六点建议，让读者、记者和研究人员可以公正地评估他们所获得的每个新成果，并在讨论论文的局限性部分提出相同的问题：

除去这些言论，人工智能系统实际上在做什么？“阅读系统”真的能阅读吗？
结果能多大程度地泛化？（在凤凰城的无人车在孟买也能工作吗？解魔方系统能开瓶子吗？还需要进行多少训练？）
如果读者感兴趣，有没有可以让他们自行探索的演示？
如果宣称人工智能系统比人类更好，那么是比哪些人要好？好多少呢？（相比之下，低薪工人缺乏好好表现的动力，可能无法真正探究人类能力的极限）
实际上，成功完成某个特定任务可以让我们向建立真正的AI迈出多大一步？
系统有多健壮？无需大量重新训练，它是否可以与其他数据集一样好用？AlphaGo在19x19的棋盘上可以正常工作，但是需要重新训练才能在矩形棋盘上工作；这说明它缺乏迁移能力。

在每份研究报告和媒体报道的末尾，进行一点建设性的自我批评，并不需要每次都有，但多多进行自我批评可能对早日实现预期结果大有帮助。

原文链接：

https://thegradient.pub/an-epidemic-of-ai-misinformation/

软件开发中遇到编程工作枯燥、交付质量不高、缺乏有效评审等问题？华为云MVP、资深敏捷创新专家来支招！立即免费报名学习：https://edu.csdn.net/huiyiCourse/detail/1136

热文推荐

☞硬核 App，这项新功能一定要打开，关键时刻能救命！！

☞张一鸣：每个逆袭的年轻人，都具备的底层能力

☞你的 App 在 iOS 13 上被卡死了吗？

☞《庆余年》里的五竹，到底是不是机器人？

☞你每天都在使用的HTTP协议，到底是什么鬼？

☞滴滴叶杰平：年运送乘客百亿次，AI如何“服务”出行领域？| BDTC 2019

☞2019 区块链数据报告：广东省拥有全国最多的区块链公司；中国至亚洲在出块方面表现均比欧洲强