原创： John Roach 微软丹棱街5号

丹棱君有话说：AI如何像人类一样进行绘画创作？微软实验室研发了一款绘图机器人，可以根据文字描述生成风格多样，细节丰富的画作。微软是如何训练绘图机器人解码文字，实现从语言到图像的转化？计算机视觉识别与自然语言处理两大技术是如何在绘图机器人得到交叉应用的？请随丹棱君走进绘图机器人的研发实验室~

想要画一只有着黄色、黑翅膀的短嘴小鸟，可能你会先画出鸟的轮廓，然后用黄色的画笔给身子上色，用黑色的画笔完成鸟的翅膀，最后再画上个发亮的嘴。为了让画面更形象逼真，你也许还会再多画几笔，让鸟站在树枝上。

然而现在，有个机器人也可以像人一样作画了！微软实验室正在开发的新型人工智能技术可以通过文字识别，从标题式的描述文字中获得“灵感”进行创作。根据发表在 arXiv.org 的一篇研究报告，行业标准测试的结果表明，这项技术所创造的图像质量比之前的文本到图像生成技术提高了将近三倍。

研究员只是将这项技术简单地称做绘图机器人。它可以绘制从田园风光，到荒诞不羁的，如漂浮的双层巴士等等画作。每幅图画都描绘细腻，甚至会有许多细节是文字描述所不及的。这也恰恰也说明这项人工智能技术包含一种人造的想象力。

“如果你在 Bing 上搜一只鸟，那么你就会得到一张鸟的图片。但是在这里，图片是由计算机逐个像素从头开始创建的。”位于华盛顿州雷蒙德市的微软研究实验室深度学习技术中心首席研究员和研究主管何晓东表示，“这些鸟在现实世界中可能并不存在——它们只是计算机凭借想象力创造出来的形象”。

这项绘图机器人技术是何晓东和他的同事们过去五年研究计算机视觉和自然语言处理这一交叉学科后的研究成果。他们从自动编写照片字幕的 CaptionBot，到发展出能回答人类对图像提出问题的技术，例如对于有视力障碍的人而言很有意义的——某物体的位置或属性。

这项研究工作需要训练机器学习模型来识别物体、完成行为和自然语言间的交互。但图像生成是一个比图像字幕更具挑战的任务。因为这个过程需要绘图机器人想像没有包含在字幕中的细节，这意味着需要运行人工智能的机器学习算法来想象一些图像中的缺失部分。

细致的图像生成

微软绘图机器人的核心是一种被称为“生成对抗网络”（Generative AdversarialNetwork，GAN）的技术。这一网络由两个机器学习模型组成，一个生成工具、根据文本描述生成图像，另一个称之为鉴别工具，使用文本描述来判断生成图像的真实性。生成工具试图通过假照片骗过鉴别工具，但鉴别工具才不好糊弄。二者共同作用下，鉴别工具将生成工具打造的愈加完美。

微软的绘图机器人在包含对应图像和标题的数据库上进行了大量训练，允许模型学习如何将单词与这些单词的可视化图片相匹配。比如说，生成对抗网络“能学习在标题说鸟的时候生成鸟的图像，同样也学习鸟的图像应该是什么样的。何晓东说：“这是我们相信机器可以学习的根本原因。”

目前而言，GAN 已经能很好的完成基于简单的文字描述（例如蓝鸟或常青树）生成图像工作，但在更复杂的文本描述中效果不佳，例如具有绿色的冠，黄色的翅膀和红色腹部的鸟。这是因为整个句子作为生成工具的单一输入中详细的信息丢失了。因而生成的图像是一种模糊的带绿色和微黄色的鸟，而不是与描述中密切匹配。

当人类绘画时，我们反复提到文本，并密切关注描述我们正在绘制的图像区域和单词描述。为了捕捉这种人类的特质，研究人员创建了他们所谓的 Attentional GAN 或 AttnGAN，它们在数学上模拟了人类所关注的概念。通过将输入文本分解为单个单词并将这些单词与图像的特定区域相匹配来实现的。

“注意力是人类才有的概念，我们可以用数学来计算注意力。”何晓东解释说。

这一模型还从训练数据中学习到人类称为的常识，并且利用这个学习的概念来填充留在想象中图像的细节。例如，由于训练数据中的许多鸟类图像都是坐在树枝上的鸟，于是AttnGAN通常就使鸟栖息在树枝上，除非文本另有规定。

作为一项测试，该团队为漫画图像提供了绘图机器人所需的字幕，例如一辆红色的双层巴士漂浮在湖面上。它生成了一个模糊的、飘逸的双层巴士图像，类似于两层甲板船或双层甲板船，漂浮在群山环绕的湖上。该图像表明，关于船只能漂浮在湖泊上和公共汽车的文本描述之间，机器人也会感到矛盾。

人们可以控制他们描述的东西，看看机器如何作出反应，也可以干涉和测试机器到底学到了什么东西。这台机器已经具有一些背景常识，但它仍然可以按照人们要求的运行，有时候，这似乎有点荒谬可笑。

实际应用方面

这项文本到图像的生成技术可以运用到实际生活中，可以作为画家和室内设计师的草图助手，或作为语音控制的照片美化工具。伴随更强大的计算能力，他想象这项技术可以生成基于电影剧本的动画电影，为电影制作人减少一些需要人工的成本。

但就目前来看，这项技术还有待完善。对图像进行仔细检查后，几乎总能发现瑕疵，例如蓝鸟喙，而不是黑色的，水果和基因突变的香蕉长在一起。这些缺陷清楚地表明，是电脑而不是人类创造了这些图像。尽管如此， AttnGAN 图像的质量比以前最好的 GAN 图像质量提高了近 3 倍，并且这是通往增强人类自身能力的类人工智能道路上的一个里程碑。

因为人工智能和人类生活在同一个世界，他们之间必须找到一种互相交流的方式。语言和视觉是人类与机器交流的两个最重要的途径。

了解更多：

后台入驻微软小冰

如果你很萌，请跟她一决高下！

if(/(iPhone|iPad|iPod|iOS)/i.test(navigator.userAgent)){ document.write("<span class='rich_media_title_ios'>AI的绘画灵感从何而来?</span>"); }else{ document.write("AI的绘画灵感从何而来?"); }