AI修图黑科技，Geek也能艺术范

Original 2017-05-19 计算机视觉 微软研究院AI头条

“全球有一半的人正在用Pokemon GO抓精灵，另一半的人则在用Prisma修图。” 去年，艺术画风格的图片处理工具Prisma风靡全球的社交网络，人们可以通过应用让普通的生活照片变身大师级风格图片。随着社会发展和生活水平的提高，普罗大众对艺术的追求也越来越高。

就在近期，盛产“黑科技”的微软亚洲研究院在提高人民群众艺术水平方面取得了新的研究进展。今天，我们就和大家分享三个关于图片和视频的高科技新玩法。（没错，直播时代视频的处理必不可少！）

首先，简单介绍一下“照片-风格”方面的技术革新。这是由微软亚洲研究院视觉计算组发明的一种新的前馈网络，可以同时学习多种艺术风格，而训练和运行时间也都有很大的提升。因此，该技术使得多种艺术效果在运用方面能够非常的灵活，它可以做到快速训练（可以将一种效果的训练时间从4-5小时减少到10分钟以内）、快速调整用户想要的效果图，实现多种风格间的融合。不仅如此，该技术还可以做到对图片的某一部分进行风格提取，再融合到目标图片上。而这项工作已经被今年的CVPR接收。

话不多说，先放点图来感受一下神奇的效果~

从上图可以看出，计算机通过学习第二幅图的特征，对第一幅图进行了编辑，轻松实现了不同艺术风格之间的融合和过渡切换。

还可以将不同的图片区域渲染成不同的风格效果，再进行融合。

接下来是另一种玩法。

大家先来猜猜下面哪张是原图，哪张是合成的？

那么，下面这两张中哪一张是合成的呢？

（请不要拿两组原图来糊弄读者啊！）

大家都知道，Prisma主要是内容和风格的合成。但是微软亚洲研究院的研究员则更进一步，将图像识别转换的能力进行了增强。上图中，图二和图三是原图，而图一和图四则是图二和图三互为风格样本的合成图片。这项研究工作也已被今年的SIGGRAPH接收。该项研究的核心难点即两张输入图片之间的匹配问题，具体来说就是语义级别的匹配（比如眼睛到眼睛，嘴巴到嘴巴），难度颇大。

微软亚洲研究院的研究员们将风格转移问题转化为图像类别问题，并提出了Deep PatchMatch算法来查找图片中所有像素的对应关系（dense correspondence）。该方法将利用CNN中表现较好的属性，如内容和细节的分解、深层特征（deep feature），更好地表达两张纹理、颜色、风格差别很大的图片之间的匹配问题，并且通过一个从粗至细的方式获得全局最优解。

换句话说，我们做到了下面三种形式的图片转化：

•风格-风格（双向的！双向的！双向的！重要的事情说三遍……）

•风格-照片

•照片-照片（这个就厉害了，高级的一键化妆/试妆，智能的Photoshop）

可以看到这项效果在商业上具有极其广阔的应用空间。

比如，白天的照片转成夜晚试试。

照片还可以转成春夏秋冬四季的不同风格 (图一、图二、图四、图六、图八是原图，图三、图五、图七、图九为相应的合成图片)。

怎么样，意不意外？惊不惊喜？

下面的例子，是不是感觉我们熟悉且膜拜的大师又“活”过来了？

当然，也有一些跑偏了的例子。

不仅图像，研究员们还做了关于视频艺术效果的工作。

https://v.qq.com/txp/iframe/player.html?vid=r0504jx0yny&width=500&height=375&auto=0

从上面的小视频中我们可以看出，逐帧添加艺术效果在视觉上会有明显的闪动，而微软亚洲研究院的工作则实现了一个非常稳定的效果，并且可以做到快速地在线处理。闪动效应（Flickering）产生的原因，是由于单帧艺术风格化处理的解并不稳定，容易受到任何微小变化的影响，比如小的噪声、亮度上的稍微不一样、小的运动等等，这些微小的变化都会在下一帧上有明显的表现，从而造成闪动效应。

为了避免这个问题，研究员们采用了一个并不复杂的做法，就是在网路学习风格化的同时，追踪特征的变化，对于两帧间可以跟踪到的部分，直接沿用前一帧的特征，而两帧间无法跟踪的部分则用当前帧替代，最终实现了视频中大家所看到的稳定的图像效果。

怎么样，对于当下最火的Geek修图姿势你get了吗？你有什么关于图像风格艺术化的想法吗？对我们的视频艺术效果还满意吗？欢迎在文章下方留言与我们交流~

想了解具体的技术细节就快去学习下方列出的文章吧~ 当然，我们也会在近期对相关技术进行解读~ 敬请期待！

[1] Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua. “StyleBank: An Explicit Representation for Neural Image Style Transfer”, CVPR 2017

[2] Jing Liao, Yuan Yao, Lu Yuan, Gang Hua, Sing Bing Kang. “Visual Attribute Transfer through Deep Image Analogy”, SIGGRAPH 2017

[3] Dongdong Chen, Jing Liao, Lu Yuan, Nenghai Yu, Gang Hua. “Coherent Online Video Style Transfer”, arXiv:1703.09211

你也许还想看：

华刚：arXiv让双盲评审形同虚设，单纯刷分把研究机械化、暴力化

观点|如何做好计算机视觉的研究？

观点|朱松纯：初探计算机视觉三个源头兼谈人工智能

计算机视觉：就在你我身边

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

2024的最后一天，给大家的跨年推荐！

和范爷分手5年后 , 李晨深夜发文高调宣布好消息 , 终于摆脱了困境！