查看原文
其他

ICCV 2019 开源论文 | 少量目标域样本下的图像翻译模型

薛洁婷 PaperWeekly 2022-03-17


作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译




概要


图像翻译任务旨在学习一个能将原域图像映射到目标域图像的有条件的图像生成函数。以往的无监督图像翻译模型,如 CycleGAN, StarGAN 等都是基于大量原域和目标域样本为前提来训练模型,并且训练出来的模型仅能进行训练样本域之间的翻译。


这篇 paper 的主要创新点就是通过使用少量的目标域图像即可解决未知相似域内的图像翻译问题。和现有的图像翻译模型相比,已经可以达到 state-of-the-art 的效果,作者在 Github 上也分享了源码,有兴趣的读者可以去看看:

https://nvlabs.github.io/FUNIT

模型架构


这篇论文主要还是基于了 GAN 的架构来实现的,比较特殊的是对于生成器的设计方式。


▲ Figure 1. FUNIT的生成器架构


生成器的架构如图 1 所示,生成器的目的依旧是希望从原域图像映射到目标域,但这里生成器的输入不再是一张原域内的图像,而是一组原域图像
仔细想想我们人类可以基于之前的视觉经验很快的想象出一个未知物体的图像,那模型是不是也可以有这样的能力?因此作者这里利用许多不同类别的相似域图像去训练生成器,希望生成器能学习到一些视觉经验并将其应用在未知目标域上。
在实际训练时,生成器从一组源于图像中随机选择一张图像作为内容图像,选择另一张类别图像,根据这两张图像来生成与具有结构相似性与共属一类的图像,在测试阶段生成器只需要少量的相似未知域图像作为,依旧从原域随机采样内容图像,从而生成目标域图像。也就是说用大量不同类的原域图像去 train 生成器,让其具有“视觉经验”,之后我们仅需少量的与原域相似但不同类的图像作为目标域进行翻译。


具体来说生成器由三个部分组成:内容编码器,类别编码器以及解码器:
  • 内容编码器的目的是将原域图像编码成内容向量

  • 类别编码器是将 K 个原域图像映射至类别向量

  • 解码器结合内容向量和类别向量生成出目标域图像(使用了 AdaIN)


这里的鉴别器通过同时解决多个对抗分类任务来训练。每个对抗分类任务都是一个二分类问题,决定输入图像是否来自原域。这里在训练鉴别器时采用了这样的策略:只有当鉴别器对图像分类错误时,惩罚鉴别器,如果鉴别器将 fake image 分类正确则惩罚生成器。


损失函数


这里模型采用了三个损失之和作为损失函数:对抗损失,重建损失以及特征匹配损失。这三个损失在图像翻译领域内属于比较常见的损失函数。


1. 对抗损失,也就是传统意义上的有标签的 GAN 损失,其中



2. 重建损失,通过给生成器输入同一张图像的来限制生成器,鼓励其输出与输入完全一致的图像:



3. 特征匹配损失,首先从 D 中删除最后一层来构造一个特征提取器,鼓励从中提取的特征与从类图像中提取的特征的均值之间的 L1 损失最小,这样做的原因是因为这里训练模型时都采用的是相似域内的图像,其特征也应该保持相似: 




实验结果


作者使用了 Animal Faces, Birds, Flowers 以及 Foods 进行实验,在对比实验这里采用了以往图像翻译模型不具有的对比方式。


1. 公平对比。仅用原域图像去 train StarGAN,在 test 时选取 K 个未知目标域图像,使用预训练网络 VGG 来计算目标域图像与原域图像之间的余弦距离,之后使用 softmax 在余弦距离上获取类相关向量输入给 StarGAN,这样做的原因是假设类关联向量可以编码一个未知的目标对象类与每个原类的相关程度,这可以用于使 starGAN 对少量目标域样本进行翻译。 
2. 不公平对比。基线模型在训练时也包括了目标域图像,也就是模型对于目标域图像不再是未知的了,这里的基线模型采用了 StarGAN, CycleGAN, UNIT 等。


▲ Figure 2. 公平模型和不公平模型的对比结果


最后这里再放一张模型的输出结果吧,可以看出模型的翻译效果确实很不错。


总结


FUNIT 的主要亮点是对于生成器架构的设计,结合 GAN 可以使得模型对少量的未知相似目标域图像进行翻译,也就是说模型根据其之前累积的视觉经验将图像翻译至从未见过的目标域内。但该模型目前仅针对相似域内的图像,因此对于域内相似度差异较大的情况可能效果不会特别好。


参考文献


[1].J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8 

[2].Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.




点击以下标题查看更多往期内容: 





#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 下载论文 & 源码

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存