DA-GAN技术：计算机帮你创造奇妙“新物种”

Original 2018-03-06 DA-GAN 微软研究院AI头条

编者按：还记得那个能自己写诗的微软小冰吗？很多人看到小冰的诗之后惊叹原来机器也有了创造力。最近，微软亚洲研究院研发的DA-GAN技术让机器绘画创造也成为了可能，只要人们用文字描述一下自己想要的画面，计算机便可以在几毫秒之内生成多个与描述吻合的形象。也许在不久的将来，DA-GAN技术将开启一个人人都是创造者的时代。

创造力一直被认为是人类智能与人工智能最大的差别之一。然而随着技术的发展，近年来人工智能在具有“创造性”的工作中不断突破。之前微软小冰写诗，已经让大家惊叹计算机在文字创作上的大幅提升，如今微软亚洲研究院研发的DA-GAN技术，则将对今后的艺术创造模式产生重大影响。而关于DA-GAN的论文也已被CVPR 2018接收（点击阅读原文查看）。

当人们用文字描述“我想要一只腹部、胸部为白色，头顶灰色，翅膀有白色翅斑的小鸟”时，计算机便可以通过DA-GAN在几毫秒的时间内生成多个与文字描述高度吻合的形象（如下图）。这些由计算机生成的鸟栩栩如生，完全符合人们期待的鸟的形象，不过它有可能是真实存在于现实世界中的，也有可能是系统根据鸟类特征和文字描述“创造”出来的一只“鸟”。

DA-GAN生成的“腹部、胸部为白色，头顶灰色，翅膀有白色翅斑的鸟”（注意：该图片中的鸟在现实世界中并不存在）

DA-GAN的最大创新——“隐空间”

DA-GAN研究团队的技术突破得益于特征表达技术的发展。以往的特征表达工作，多是让机器理解图片并抽取特征，然后再对图片进行分类；而DA-GAN则有些反向思维的意味，在提取图片特征后，将特征在人类的视觉空间中还原出来。

以上文所列举的鸟为例，系统首先要能够根据现实世界的鸟，总结出鸟的结构和特征，然后再根据用户的需求，输出他们所需要的鸟。之所以选择鸟类作为研究对象，是因为鸟类的特征非常丰富，仅头部就有几十种特征，鸟类专家就是利用这些细微的差别来判断鸟的种类，而特征丰富就意味着可以更好地去验证模型的生成能力。

微软亚洲研究院研究员傅建龙表示，“在训练DA-GAN系统时，我们先让它‘见’过很多种类的鸟，就如同一个人认识了红苹果后，看到绿色的苹果，也可以从它的外形中判断出这是苹果一样。DA-GAN依据所接触的鸟类图片，学会了判断鸟的经验性常识。”

与传统的数据训练模式需要pair data（数据对）不同，DA-GAN不需要将文本与真实的鸟一一对应，而是将原始图片分割成不同的部分（暂称该部分的样本为T），例如头部、身体、尾巴、姿势等，不同的部分分别投射到一个“隐空间”（暂称该部分的生成样本为T’），然后通过大量的图片训练，去验证T-T’对应的精确程度，也就是去不断验证该“隐空间”的好坏，从而不断迭代，确保从T-T’的过程并非随机产生，而是保持一定的规则，进而让“隐空间”的模型逐步趋于完善。这个过程可谓是DA-GAN系统最为核心的创新所在，也是它能够更加智能、真正具有举一反三学习能力的关键点。

DA-GAN深度注意力编码流程图

接下来，DA-GAN就可以基于该模型创作用户想要的鸟类了，正如文章开头所描述的，输入你的需求，一只栩栩如生的鸟就会相应生成。它可能是一只自然界里真实存在的鸟，也可能是一只拥有A种鸟类的头部特征、B种鸟类的身体特征、C种鸟类的尾部特征以及任意姿态的一只“想象中的鸟”，而在现实世界里并没有这样的鸟类，但它看上去就是一只真正的“鸟”。

(a) 文字到图像生成 (b) 物体类别变换

傅建龙表示，“目前，我们只将鸟类分成了4个部分，这是我们计算出来的映射相对合理，同时系统代价较小的可行的方式。当然也可以将鸟分为10个、30个部分，那样模型会越来越精确，但系统代价可能也会成倍增加。”

开启人人都是创造者的时代

除了鸟类，DA-GAN还可以用于任何与图片相关的创作，例如此前风行的基于真实人脸生成卡通人脸的小程序，其实大部分只是将纹理附着到了原始照片上，如果利用DA-GAN，则可以做得更像是艺术家的现场漫画写生，它可以是梵高风格、莫奈风格、漫画风格等等，用户可以进行任意转换。

对于DA-GAN来说，最重要的是早期的数据训练，图片越多质量越高。而且其分辨率已经从其他相关技术能够达到的64*64升级到了256*256，分辨率的提高，意味着图片每个部分所包含的细节信息更加完善，也正因为细节的丰富，才使得DA-GAN的表现在与真实世界的对比中优于同类技术。

与此同时，DA-GAN生成的众多新的图片，又可以反哺给该系统，从而让它拥有更多的学习数据。也就是说，只要基于少量的原始数据，DA-GAN就可以产生更多“真实”的练习数据，大大改善某些领域真实数据缺乏的问题。利用DA-GAN的这一优势，研究团队实现了业内首次在鸟类数据集中增加生成数据，并将系统的准确度提升了两个百分点。

数据增强结果

姿态变换任务图中每组图片的第一列是source，第二列是target，第三列是DA-GAN生成的鸟类：保持与第一列的鸟类类别一致，但具有第二列的鸟类姿态

在可触摸的未来，或许，DA-GAN技术将开启一个人人都是创造者的时代。只要你的需求输入它能够读懂，哪怕是你脑海中幻想出来的物体和场景，它都能“画”出来。而由DA-GAN所描绘出来的虚拟世界，可能一点都不比文学家、艺术家创作出来的场景逊色。

不仅如此，让已经灭绝的动植物，通过记载文字的描述重新跃然纸上；为安防领域提供更真实的犯罪嫌疑人画像；帮助人们贴合自身的情况试穿网络售卖的衣物等等，还有更多DA-GAN技术的应用场景，等待大家去想象。同时，傅建龙也表示，未来随着技术的不断发展，更多可以生成逼真图片和影像的技术将会诞生，如何辨别真伪也是需要科研人员以及大众思考和解决的问题。

你也许还想看：

● 到底什么是生成式对抗网络G AN？

● 写影评、看图写诗、甚至生成视频，梅涛博士讲解视频理解的最新进展

● 基于递归注意力模型的卷积神经网络：让精细化物体分类成为现实

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。