深度 | 让 AI 学会思考，可能要先教会它画画

Original 2017-06-15 李秀琴 雷锋网雷锋网

300 + 明星创业公司，3000 + 行业人士齐聚全球人工智能与机器人峰会 GAIR 2017，一同见证 AI 浪潮之巅！峰会抢票火热进行中。读者有专属送票福利活动哦，详情见文末！

今年 4 月，Google 推出 AutoDraw 绘图功能，让 AI 帮助人类画画，只需几笔就能创作出艺术家等级的线条画。这个有趣的 AI 应用一下让业界随之兴奋。虽然从目前流出的成果来看，AI 的笔画还有些稚嫩，但这压根不妨碍 Google 对其背后的 AI 系统向大众进行高调科普，比如发布了一些科普倾向的 Paper 等。背后的 AI 系统名为 SketchRNN，是 Google 新设的 Magenta 项目的一部分，以测试 AI 能否用来做艺术。

为更好地了解这一项目及其背后的故事，theatlantic 大西洋杂志采访了 Magenta 项目的负责人 Doug Eck。雷锋网对采访内容做了编译。

Eck 是蒙特利尔大学（被视为人工智能的温床）的一名教授，同时也供职于 Google。他此前曾负责 Google Music，现转自 Google Brian 里工作。2000 年在印第安纳大学取得计算机科学学士学位后，Eck 在音乐和机器学习方面都有着非常丰富的从业经验。

关于 SketchRNN 这一 AI 系统，如果大家想更加形象地理解它，可从以下三幅画来看：

当人类被要求画一只小猪和一辆卡车时，可能会是这样的画风：

但是，当被要求画一只 “猪车” 时，你可能会直观混合二者的显著特征而画成这样↓

虽然画笔看起来仍然很稚嫩，但是这一混合后的产物其实就跟利用人工智能系统 SketchRNN 输出后的成果有点相似。正如 Eck 和他在 Google 的合作者 David Ha 的介绍，SketchRNN 的工作原理可以理解为 “以类似于人类的方式概括抽象概念”。

以前文的例子来说明，即 Google 并不想创建画 “猪” 的机器，而是由此创建的机器能识别和勾勒出 “猪” 的概念或特征。一言以蔽之，即人类在画一个物体时，会在脑中存储关于这一物体的概念和显著特征，并让 “如何画” 和 “存储特征” 之间产生联系。而 SketchRNN 的意义就在于让机器学习到人类的这种 “综合能力”。

为此，Google 建立了一个名为 “Quick, Draw!” 的游戏，像人类玩的方式一样，Google 为该游戏制作了大量人造图形数据库。训练资料则包括 75 种物品，像是猫头鹰、蚊子、花园或是斧头，每种资料含有至少 7 万笔个别范例。依靠 “Quick, Draw!” 获得的绘画数据，Google 研发了 SketchRNN 的 AI 系统。

当人类在草绘时，丰富多彩的嘈杂世界只能压缩在铅笔的几个线条里。这些简单的笔画就是 SketchRNN 的数据集。每一类物体的绘画，如猫、瑜伽姿势、雨等，都可以使用 Google 的 TensorFlow 开源平台软件库来训练某个特定类型的神经网络。当机器以梵高或原始 DeepDream 的风格呈现一张照片时，人类总感觉有点儿怪异，因为机器对物体的概念或显著特征并不能融合的那么灵活或了无痕迹。

这些项目能以神秘而又主观的方式来感受人类，但是有趣的在于，它们对真实世界的感知与人类相似但又不完全相同。

不过，SketchRNN 的输出结果却毫无怪异感。Eck 说：

“我不想说它的方式 “非常人类”，但是它的感知比那些像素生成的图片看起来像那么回事多了。”

这也是 Eck 领导的 Magenta 团队的核心洞察力。“人类了解世界的方式并不同于像素，而是以开发抽象概念来代替我们所看到的事物”，Eck 和 Ha 在他们的论文中作如是表述，“从小时候起，我们就开发了通过绘画来向他人沟通我们所看到的东西的能力。”

所以，如果人类能做到这一点，Google 相信机器同样可以做到。去年，Google 的 CEO Sundar Pichai 就宣布了 "AI First” 的未来发展战略。对于该公司而言，AI 是其原始使命的自然延伸，“组织世界的信息，让其变得通用和有用”。所以，Google 正尝试使用 AI 的方式组织信息，让人们可以访问并和使用这些信息。而 Magenta 项目正是 Google 在该愿景下的一次尝试。

机器学习是 Google 近年来常用的方式，其中，一种特定的机器学习方式就是使用大致基于人类大脑连接系统建模的神经网络。而多层次的神经网络在解决棘手问题时特别有效，尤其是在翻译和图像识别方面。Google 已经在这些新架构上重建了很多核心服务。

拿 Google 翻译举例，它虽然已经是一个建造了 10 年以上的复杂系统，但是 Google 最终通过深度学习花了 9 个月的时间对该系统完成了重建。所以在这种情况下，神经网络的使用和类型在近几年实现了爆炸式增长。

基于神经网络的基础，SketchRNN 使用了一种生成递归神经网络。根据 Google 在论文中介绍，该种类型的神经网络可生成简单物体的草图，目的是训练一个能绘画和概括抽象概念的机器，并且它的思维方式与人类类似。

描述训练的最简单的方式，就是将其作为一种编码方式。在输入数据（草图）后，该神经网络尝试在所处理的数据中总结出一些概括性的规则。这些概括性的规则就是数据的模型，会被存储在描述网络中神经元特性的数学中。

这种过程被称为潜在空间或 “Z”（zed）。它能吸取在整个训练过程中学到的东西，如一只猪、一辆卡车或一个瑜伽姿势的特性等都会存储其中，“Z” 再对它们进行抽样。

那么，SketchRNN 能学到什么？以下就是一个接受消防车训练的网络神经生成新的消防车的例子。在该模型中，有一个 “温度” 的变量，研究人员可以上调或下调输出的随机性。在下列图像中，偏蓝色的表示 “温度” 较低，偏红色的则表示 “温度” 较高。

或者你会更想看到猫头鹰：

或者最好的例子——瑜伽姿势：

从以上这些案例来看，SketchRNN 输出的成果已经和人类的风格非常相似，但是它们本身并非人类所画。或者说，它们正对人类可能会绘画某种事物的方式进行重建。当然，其中有些重建的非常好，有些则不尽然。

同时，SketchRNN 也能以人造图像的形式接受输入。当人类输送一些内容进去，SketchRNN 会尝试弄明白它。以下就是一个正在接受猫的数据训练的模型，在这只三眼猫的图像中你会发现哪些变化？

从上图可以看出，从左往右的各种输出中，第三只眼睛被去除了。因为模型知道，猫有三角形的耳朵，胡须，圆形的脸，且只有两只眼睛。

当然，模型并不知道耳朵到底是什么，或者脸是什么样的。它对这些草图所示的世界一无所知。但它确实知道人类是如何描绘猫、猪或帆船的。

Eck 说到，“当开始生成帆船图时，模型会输入进数百个其他型号的帆船，这些帆船可能来自该图。这对我们来说是有意义的，因为模型已经从所有这些训练数据中生成了理想的帆船。”

训练一个可以画雨点的网络，然后输入一个云的草图，它会这样做：

雨滴会从输入模型中的云那落下来。那是因为很多人画雨滴时，会先画云，然后画落下来的雨。所以如果神经网络看到一个云，它会让雨落在该形状的底部。（有趣的是，如果先画雨，模型不会产生云。）

这是一项有意思的工作，但是在对人类思维进行反向工程中，这种项目有什么意义呢？

Eck 对述描感兴趣，是因为它们内涵丰富但包含的信息很少。画一个笑脸只有几个笔画，甚至就是一些像素集合，但任何 3 岁以上的人都可以辨认出是一张脸，甚至区分是幸福或悲伤的脸。Eck 认为这是一种压缩，是 SketchRNN 可以解码的编码，甚至可以重新编码。

OpenAI 的研究员 Andrej Karpathy 也对 SketchRNN 的工作很感兴趣。OpenAI 也是人工智能研究的一个中心。但他也指出，这个项目要满足很多前提条件，这意味着它对企业开发人工智能不会有太大的帮助。

“我们开发的生成模式通常会尽可能地与数据集的细节无关，无论你输入什么数据，都应该能用，包括图像、音频、文本或其他任何东西。除了图像，其它都不是由笔画组成的。”

Eck 和 Ha 正在开发的，更接近于能玩国际象棋的 AI，而不是一个可以玩任何游戏的 AI。所以对 Karpathy 来说，他们目前工作的范围似乎有限。

但有一些理由认为，线条图是人类思考方式的基础。Google 员工并不是唯一被草图的力量所吸引的研究者。早在 2012 年，乔治亚理工学院的 James Hays 与慕尼黑理工大学 Mathias Eitz 以及 Marc Alexa，就合作创建了一个草图数据集，以及一个用于识别它们的机器学习系统。

对于他们来说，草图是一种 “通用交流” 形式，所有具有标准认知功能的人都可以做到这一点。他们认为，自史前时代以来，人类已经以素描岩画或洞穴绘画的方式来描述世界了，这种象形文字比语言的出现早了几十万年，如今绘制和识别草图的能力已经是基本了。

多伦多大学神经科学家 Dirk Walther 在一篇论文中指出，简单抽象的草图会以与真实刺激类似的方式，激活我们的大脑。Walther 的假设是，线条图代表了我们自然世界的本质，因为在像素的基础上，一些猫的线条怎么看都不会像是一只猫。

草图可能是一种帮助我们掌握存储对象概念层次的方式，即我们说的 “本质”。也就是说，他们可能会告诉我们，在过去 10 万年的时间里，当我们的祖先逐渐现代化时，人类如何开始思考的。草图、洞穴壁画，可能描绘出我们怎么从日常经验走向抽象的。

大多数现代生活都有这种转变：语言，金钱，数学，以及计算本身。因此，如果草图确定能在创造重要的人工智能方面发挥重要作用，也是合情合理的。

当然，对于人类来说，草图是对真实事物的描绘。我们可以很容易地理解抽象线条与实际事物之间的关系。这个概念对我们来说意义重大。

对于 SketchRNN，草图就是笔画序列，形状是通过时间形成的。机器的任务是提取出图纸中描绘的东西的本质，并尝试用它们来了解世界。

SketchRNN 团队正在许多方面进行探索。他们可能会建立一个系统，试图通过人类反馈来得到更好的结果。他们可以用多种草图来训练模型。也许，他们会找到一种方式，来看看他们的模型是否可以推广到逼真的图像。但他们自己承认 SketchRNN 是第一步，有很多要学习的东西。

人类艺术的历史不是技术时代能相比的。

而对 Eck 来说，他们更多的是想了解人类如何思考的基础，在他看来，艺术的一个核心部分是，它代表了基本人性。要理解深度学习，也需要理解人类生活的基本机制，即我们如何看见世界，如何交谈，如何认识面孔，如何将单词构成故事，如何编曲。它看起来没有与任何一个特定人类有关，但却代表了抽象的人类。

Via theatlantic，雷锋网编译

6 月 15 日 5 张直减 1000 优惠券免费领取，仅限「参会门票」

https://gair.leiphone.com/gair/coupon/s/5941c4b004d33

ps：优惠券仅限 CCF-GAIR 大会「参会门票」，本链接只能使用 5 次，有效期 1 天。长按复制链接，在浏览器打开立即使用。优惠券额度每天递减，欲购从速。

复制链接到浏览器立即使用

读者福利二

为了感谢各位读者的支持，雷锋网将不定期送出 CCF-GAIR 大会门票 。活动规则：分享以下海报到朋友圈并邀请好友点赞，将截图发到雷锋网微信后台，我们将给获赞最多的读者送出一张 CCF-GAIR 大会门票。本日活动截止明天晚上 10 点（6 月 16 日）。