英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

2018-04-16 关注前沿科技 量子位

英伟达最近的一项研究看起来有点神奇。

一张普通的猫咪图像，可以被转换成一只老虎、一头狮子或一只美洲豹。

还是一张普通的猫咪图，还能被转换成不同品种的狗。

这种实时转换技术不仅能用于图像，还能用于视频——

这是英伟达最新创造的一项技术。在最近发布的论文Multimodal Unsupervised Image-to-Image Translation中，研究人员提出了一种多模态无监督的图像到图像（image to image）转换框架。

这个框架的神奇之处在于，一张猫的图像可以同时转换成多种动物，能够进行一对多的图像转换，打破了原来一对一转换的限制。

△ “狗生猫，猫生万物”

△ 冬夏场景转换

此外，这个框架还支持用户通过提供示例样式的图像控制转换输出的风格。

这是一项有趣的技术，不仅能够帮助游戏开发者和电影制作者减少工作量和花费，还能让自动驾驶领域更快、更容易地产生多样化的训练数据。

△ 道路的冬夏转换

论文介绍

在论文Multimodal Unsupervised Image-to-Image Translation中，奈尔大学的Xun Huang、Serge Belongie联合英伟达的Ming-Yu Liu与Jan Kautz提出了一种多模态无监督的图像到图像转换问题的标准框架。

研究人员首先假设图像的潜在空间能够分解为内容空间和样式空间，之后再进一步假设，不同领域的图像内容空间相同，但样式空间不同。

为了将一张图像转换为指定领域的图像，研究人员在目标样式空间中将图像的内容代码和随机的样式代码重新组合。这样，内容代码编码的信息在转换过程中将被保留，而样式代码代表了与输入图像无关的剩余的变体。

通过抽取不同风格的代码，这个模型可以输出风格多样且多模态的图像。

实验表明，这个模型在建立多模态输出分布时非常高效，并且和目前最先进的方法相比图像质量更高。

△ 与现有的样式转换模型的对比

这并不是英伟达在图像转换领域的首次探索，这篇论文是在去年英伟达的NIPS论文Unsupervised Image-to-Image Translation Networks中提出的模型基础上改进的。