DA-GAN技术:计算机帮你创造奇妙“新物种”
编者按:还记得那个能自己写诗的微软小冰吗?很多人看到小冰的诗之后惊叹原来机器也有了创造力。最近,微软亚洲研究院研发的DA-GAN技术让机器绘画创造也成为了可能,只要人们用文字描述一下自己想要的画面,计算机便可以在几毫秒之内生成多个与描述吻合的形象。也许在不久的将来,DA-GAN技术将开启一个人人都是创造者的时代。
创造力一直被认为是人类智能与人工智能最大的差别之一。然而随着技术的发展,近年来人工智能在具有“创造性”的工作中不断突破。之前微软小冰写诗,已经让大家惊叹计算机在文字创作上的大幅提升,如今微软亚洲研究院研发的DA-GAN技术,则将对今后的艺术创造模式产生重大影响。而关于DA-GAN的论文也已被CVPR 2018接收(点击阅读原文查看)。
当人们用文字描述“我想要一只腹部、胸部为白色,头顶灰色,翅膀有白色翅斑的小鸟”时,计算机便可以通过DA-GAN在几毫秒的时间内生成多个与文字描述高度吻合的形象(如下图)。这些由计算机生成的鸟栩栩如生,完全符合人们期待的鸟的形象,不过它有可能是真实存在于现实世界中的,也有可能是系统根据鸟类特征和文字描述“创造”出来的一只“鸟”。
DA-GAN生成的“腹部、胸部为白色,头顶灰色,翅膀有白色翅斑的鸟”(注意:该图片中的鸟在现实世界中并不存在)
DA-GAN的最大创新——“隐空间”
DA-GAN研究团队的技术突破得益于特征表达技术的发展。以往的特征表达工作,多是让机器理解图片并抽取特征,然后再对图片进行分类;而DA-GAN则有些反向思维的意味,在提取图片特征后,将特征在人类的视觉空间中还原出来。
以上文所列举的鸟为例,系统首先要能够根据现实世界的鸟,总结出鸟的结构和特征,然后再根据用户的需求,输出他们所需要的鸟。之所以选择鸟类作为研究对象,是因为鸟类的特征非常丰富,仅头部就有几十种特征,鸟类专家就是利用这些细微的差别来判断鸟的种类,而特征丰富就意味着可以更好地去验证模型的生成能力。
微软亚洲研究院研究员傅建龙表示,“在训练DA-GAN系统时,我们先让它‘见’过很多种类的鸟,就如同一个人认识了红苹果后,看到绿色的苹果,也可以从它的外形中判断出这是苹果一样。DA-GAN依据所接触的鸟类图片,学会了判断鸟的经验性常识。”
与传统的数据训练模式需要pair data(数据对)不同,DA-GAN不需要将文本与真实的鸟一一对应,而是将原始图片分割成不同的部分(暂称该部分的样本为T),例如头部、身体、尾巴、姿势等,不同的部分分别投射到一个“隐空间”(暂称该部分的生成样本为T’),然后通过大量的图片训练,去验证T-T’对应的精确程度,也就是去不断验证该“隐空间”的好坏,从而不断迭代,确保从T-T’的过程并非随机产生,而是保持一定的规则,进而让“隐空间”的模型逐步趋于完善。这个过程可谓是DA-GAN系统最为核心的创新所在,也是它能够更加智能、真正具有举一反三学习能力的关键点。
DA-GAN深度注意力编码流程图
接下来,DA-GAN就可以基于该模型创作用户想要的鸟类了,正如文章开头所描述的,输入你的需求,一只栩栩如生的鸟就会相应生成。它可能是一只自然界里真实存在的鸟,也可能是一只拥有A种鸟类的头部特征、B种鸟类的身体特征、C种鸟类的尾部特征以及任意姿态的一只“想象中的鸟”,而在现实世界里并没有这样的鸟类,但它看上去就是一只真正的“鸟”。
傅建龙表示,“目前,我们只将鸟类分成了4个部分,这是我们计算出来的映射相对合理,同时系统代价较小的可行的方式。当然也可以将鸟分为10个、30个部分,那样模型会越来越精确,但系统代价可能也会成倍增加。”
开启人人都是创造者的时代
除了鸟类,DA-GAN还可以用于任何与图片相关的创作,例如此前风行的基于真实人脸生成卡通人脸的小程序,其实大部分只是将纹理附着到了原始照片上,如果利用DA-GAN,则可以做得更像是艺术家的现场漫画写生,它可以是梵高风格、莫奈风格、漫画风格等等,用户可以进行任意转换。
对于DA-GAN来说,最重要的是早期的数据训练,图片越多质量越高。而且其分辨率已经从其他相关技术能够达到的64*64升级到了256*256,分辨率的提高,意味着图片每个部分所包含的细节信息更加完善,也正因为细节的丰富,才使得DA-GAN的表现在与真实世界的对比中优于同类技术。
与此同时,DA-GAN生成的众多新的图片,又可以反哺给该系统,从而让它拥有更多的学习数据。也就是说,只要基于少量的原始数据,DA-GAN就可以产生更多“真实”的练习数据,大大改善某些领域真实数据缺乏的问题。利用DA-GAN的这一优势,研究团队实现了业内首次在鸟类数据集中增加生成数据,并将系统的准确度提升了两个百分点。
数据增强结果
在可触摸的未来,或许,DA-GAN技术将开启一个人人都是创造者的时代。只要你的需求输入它能够读懂,哪怕是你脑海中幻想出来的物体和场景,它都能“画”出来。而由DA-GAN所描绘出来的虚拟世界,可能一点都不比文学家、艺术家创作出来的场景逊色。
不仅如此,让已经灭绝的动植物,通过记载文字的描述重新跃然纸上;为安防领域提供更真实的犯罪嫌疑人画像;帮助人们贴合自身的情况试穿网络售卖的衣物等等,还有更多DA-GAN技术的应用场景,等待大家去想象。同时,傅建龙也表示,未来随着技术的不断发展,更多可以生成逼真图片和影像的技术将会诞生,如何辨别真伪也是需要科研人员以及大众思考和解决的问题。
你也许还想看:
● 写影评、看图写诗、甚至生成视频,梅涛博士讲解视频理解的最新进展
● 基于递归注意力模型的卷积神经网络:让精细化物体分类成为现实
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。