【回顾】基于生成对抗网络的图像编辑方法—优必选悉尼 AI 研究院王超岳

原创 2017-09-29 思颖 AI研习社

近些年来，生成对抗网络在许多图像生成和图像编辑任务上都获得了很大的成功，并受到越来越多的关注。对于图像编辑任务，现在面临的两个重要的挑战分别是：如何指导网络向目标图像学习（以提升图像编辑的效果）和如何感知输入图像内容（以提升图像编辑的精度）。

悉尼科技大学 FEIT 三年级博士生，优必选悉尼 AI 研究院访问学生，陶大程教授学生王超岳在 AI 研习社主办的学术青年分享会上结合他的两篇论文 Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering（IJCAI 2017 Best student paper）和 Perceptual Adversarial Networks for Image-to-Image Transformation（arXiv 2017），分享了对图像编辑做出的相应探索。

https://v.qq.com/txp/iframe/player.html?vid=a055478tn10&width=500&height=375&auto=0
▷ 观看完整回顾大概需要 74 分钟

分享内容如下：

常见的图像编辑有图像去雨（雪）、图像填充、素描到照片、风格转换、图像超分辨率、图像上色、图像旋转、时间变换等，抽象来说就是给定一张图像以及要求，来生成新的图像。即让机器理解图像和生成图像。

生成对抗网络是由 Goodfellow 在 2014 年提出的，算是一种新的网络架构，可以做有监督或无监督的学习。

基于 GANs 的图像编辑框架如下所示：

接下来介绍第一篇论文，用于图像转换任务的感知对抗网络（Perceptual Adversarial Network，PAN）。

近两年基于 GANs 的框架，有很多不同的优化，下图是对 Pixel-wise loss、GANs loss 和 Perceptual loss 的对比工作。

Pixel loss 优点是使用简单、训练速度快、稳定，缺点是输出图像模糊，质量低。

GAN loss 优点是能提升生成图像质量，更加真实，锐利，缺点是学习整体生成分布，无法单独使用。

Perceptual loss 优点是注重图像包含的高维特征，感知效果，缺点是受限于预训练的其他网络。

下面是对提升生成图像质量做出的一些研究，引入不同的 loss 来生成不同的输出图像。

他们希望有新的 loss 函数来弥补现有的问题，持续缩小生成图像和真实图像的差距。基于这样的想法提出了感知对抗损失。

使用感知对抗损失的理由如下：

感知：衡量生成图像和真实图像的高维特征的差异，并致力于缩小他们。

对抗：当现有高维特征的差异小于一定数值 m ，D 网络被更新以寻找新的高维空间，以进一步缩小仍存在的不同。

统一：所有训练统一在一个 GAN 框架中，无需引入其他预训练网络，且不受任务限制。

他们引入感知对抗 loss 加 GAN loss 的结构，在这里引入 GAN loss 来让生成图像的整体分布符合真实图像的整体分布。

下面是针对于这个网络的相关实验，主要有图像的去雨、从分割后的 label 的图像到街景的重现、卫星图到谷歌地图的转换、图像补全、素描生成真实图像的任务。

下面是对比图像去雨雪的任务，他们的模型在色差的控制等方面都有所提升。

下面是图像补全任务，对比 CVPR 2016 的 Context Encoder，PAN 能得到更加优化的效果。

进行 Pixel2pixel 实验时与 pix2pix 做了对比，也可以看到明显提升。

解决图像生成的质量之后，还有一个问题：interpretable。也就是如何解开神经网络的黑箱，并帮助计算机进一步理解图像。

针对于如何在图像转换过程中理解整个网络，并控制中间层信息的表征，他们提出标签分解生成对抗网络 (Tag Disentangled Generative Adversarial Networks, TDGAN)，用于进行目标图像的再次渲染 (Re-rendering)。

给定输入图像，里面会包含一系列的输入信息，人脑看到之后很容易分理出这些信息，但之前的网络很难理解这些信息，因此很难对输入图像进行精细编辑，现在他们想要让网络能更进一步理解这些信息。

他们提出分解表征法。

解决方案: 标签。只要简单的改变标签，就能很容易生成微笑的图像。

基于此，他们提出 TDGAN，包括下图四个子网络。

网络的框架图如下：

主要有 f1、f2、f3、f4 四个约束项：

这四个子网络采用如下交替训练的形式：

下面是工作相应的实验结果，给定单张椅子，给定一些想要的角度，可以生成不同角度的效果，另外可以生成人在不同光线及表情下的效果。

下图是他们在两个数据集下做的一些任务。可以通过给定单张椅子照片，生成不同角度的椅子；也可以控制输入人脸图像的多种性质，如改变其角度，光照，表情等。

总结如下：现有的很多方法都是在 GANs 的框架下，希望提升现有的图像编辑效果和提升图像编辑的精度，他们做了以下尝试，去让任务表现更好。

第一是从学习的层面，不再只是从像素层面或固定高维空间上去缩小真实图像和转换图像之间的不同，而是利用对抗学习的思想去持续寻找并缩小真实图像和转换图像之间尚存的差异。另一方面，他们希望算法可以更深入的理解图像，并帮助计算机能更加智能，通过提取和分解图像中包含的各种信息，让算法可以更精确的编辑图像，从而得到想要的结果。

Perceptual Adversarial Networks for Image-to-Image Transformation

论文地址：https://arxiv.org/abs/1706.09138

Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering

论文地址：https://www.ijcai.org/proceedings/2017/0404.pdf

新人福利

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络 / AI / 大数据，教程，论文】

Deep Learning 读书分享——深度网络的正则化

▼▼▼

bxrf的瓜

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

生什么病，就忌什么口，这张表留着很有用！速看