论文|结合马尔科夫随机场和卷积神经网络的图像合成
|极市平台论文原创编译|
本文来源自下面论文
编译作者:晨阳
摘要
本文研究了生成通过结合马尔可夫随机场(MRF)模型和区别训练深卷积神经网络(dCNNs)的方式,来用于2D图像的合成。生成的MRF作用于更高级别的dCNN特征金字塔,在抽象层次上控制图像布局。本文将该方法应用于照片与非照片写实(艺术品)的合成任务。 MRF正则化器避免了出现过激励伪影的现象并减少以前的dCNN反演方法常见的不可信的特征混合,允许具有增加的视觉似然性的合成照相内容。与标准的基于MRF的纹理合成不同,本组合系统可以匹配和适应具有相当大的可变性的局部特征,产生远远超出传统的生成MRF方法的效果。
介绍
通过例子来合成content的问题是计算机视觉和图形中的经典问题。本文中将具体考虑数据驱动图像合成的问题:给定一个示例图像,希望可以完全自主地创建出一个看起来相似但结构不同的示例图像的变体。具体来说,将通过输入分成“style”图像和“content”图像来实现这一点。“style”图像描述了应该创建图像的构建块,“content”图像则约束它们的布局。图1示出了示例,其中输入图像在左侧示出,我们的结果如右侧图所示。
方法
本文通过用保持“style”样本的局部模式的MRF正则化来代替格式矩阵匹配的特征样统计统计来增加其框架:MRF和dCNN是一种规范的组合两个模型都非常依赖假设局部相关的信息和平移不变性。这使得dCNN中的特征的编码具有近似马尔可夫一致性属性:局部块具有用于描述对象的特征激活的特征布置,并且在类别变化(图2)中,更高编码变得不变。
图2:输入图像由VGG网络编码(像素颜色显示高维度特征空间的3D PCA嵌入)。相关图像的内容被映射到增加不变性的半分布的,近似空间上相干的特征星座
因此,论文中使用在这种更高级别的网络上的生成MRF模型。这规定了对象在更抽象类别方面的合理的局部布局,并且重要得是试图确保这些更高级特征的编码的一致性。然后在dCNN的较低层通过反演执行在对象类别内推广的实际任务和似真混合。技术上,通过额外的能量项来实现附加的MRF prior,该能量项对dCNN特征金字塔的上层的马尔可夫一致性进行建模。然后利用Kwatra等人的EM算法对MRF优化。将作者提出的方法应用于一些照片般逼真和非照片般逼真的图像合成任务,并表明它能够推广到远超出经典MRFs的能力的图像。在风格转移场景中,组合方法受益于dCNN在没有用户注释的情况下自动匹配语义相关图像部分的能力。与以前的反转dCNNs的方法相比,MRF prior改善了特征布局的局部似然性,避免了伪影并且通常提供了比Gatys等人的统计方法更可信的中间结构。特别是可以大大提高合成照片的合理性,这是以前的方法不具备的。
论文从三个角度对作者的方法进行详细描述:首先显示与像素值相比,神经激活导致更好的片匹配和混合。然后展示MRFs如何进一步改善结果。
1.神经匹配
非参数图像合成的关键组成部分是使合成数据与示例匹配。(图3是显示神经激活的玩具示例给出了比像素更好的匹配,任务是匹配两个不同的汽车图像。第一列包含一辆汽车的部分区域;每隔一列显示在另一个汽车中与之对应的在不同的特征映射(包括像素层)最佳匹配。
图3:VGG网络的不同层处的片匹配的比较
2.神经混合
具体来说,比较两组混合结果:第一种方法是直接混合两个输入色块的像素;第二种方法是使这些区域块(patches)通过网络,并在不同的层使他们的神经激活混合。图4比较了这两种方法的结果。前两列是用于混合的输入色块A和B。 它们被有意地选择为语义相关和结构相似,但是在像素值方面显着不同。第三列显示这两个补丁的平均值。每个剩余的列显示了在不同层处的混合重建。
图4:线性混合在像素空间和神经空间中的表现不同
3.MRF prior的影响
为了显示MRF prior的优点,论文比较了具有和不具有约束的合成结果。作者基于来自Gatys的匹配的Gram矩阵与“style约束”进行比较。图5验证了本地一致性的预期改进。第一行显示从作者的结果中裁剪的图像区域块(patches)。它们在视觉上与原始风格图像中的区域块(patches)一致。相反,Gatys产生瑕疵,如扭曲等。新的MRF prior减少了局部适应的灵活性,从而有利于更忠实地再现中尺度特征
图5:基于神经的合成中MRF prior的效果
效果
图6显示了通过艺术品风格化照片的两个例子。输入的照片(左)分别使用毕加索和康定斯基的风格进行艺术化。在这两种情况下,Gatys等人的方法(中图)保留了照片的内容和整体外观和感觉。然而,第一个结果(顶行)包含许多不必要的细节,眼睛看起来不自然。他们的第二个结果(下行)失去了原始画中的特征形状,并与内容样本部分混合。相比之下,我们的第一个结果合成更合理的面部特征。在第二个结果中,作者的方法也更类似于风格。(注意到重要的面部特征,如眼睛和嘴部合成为简单的形状,头发作为深色区域)
图6:与Gatys方法的样例效果比较
图7显示了照片拟真合成的两个实例。作者把一辆老式汽车的风格转移到两种不同的当代汽车上。注意在Gatys的结果中缺乏逼真的细节。使用MRFs约束(右),结果更逼真。
图7:与Gatys等人的比较用于照片拟真合成
作者发现当content更完整时,方法更准确。图8给出了Gatys和论文中这两种方法的详细分析。红色框显示三个区域,需要通过style图像和合成图像找到与三个区域最接近的匹配。注意,当在content和style图像(第一个区域)之间找到良好的匹配时,作者的方法产生更合理的结果,而当style图像和合成图像不太匹配的时候,错配发生(第二个区域)。对于第三个区域,没有匹配的车可以找到。在这种情况下,作者采用的方法是用纹理合成代替汽车,而Gatys的方法保留汽车并呈现它的工件。一般来说,用作者的方法创建更时尚的图像,但当MRF不适合content时,可能包含伪像。相比之下,参数方法更适应于content,但是以偏离风格为代价。
图8:作者的结果与Gatys结果的差异分析
论文中的方法是基于图像的style转换,特别是对于照片。然而,它有许多限制。首先,它更多地限制于输入数据:它仅在content图像可以由style图像中的MRF重新组合时才起作用。此外,虽然它实现了对照片写实合成的改进,但它仍然没有原始照片那么清晰。这是由于在训练网络期间无差别的图像细节的损失。
结论
本文开发了一个简单的方法,能够产生欣喜的结果。作者用一些成功和失败案例分析了结果,并讨论了其优缺点。更重要的是,论文中最后的结果通常在合成图像中保留更好的介子结构。对介质结构的更严格的控制也是这一点上的最大限制:MRF prior仅当style和content图像很相似时才发挥出优势,否则会出现伪影。对于纯粹的艺术风格,刚性变强也会是缺点。
版权所有,转载请联系授权
目前极市平台公众号正在征集计算机视觉方面的资讯,技术干货类及论文解析类等相关文章,欢迎大家投稿,一经采纳,红包酬谢。
投稿邮箱:developer@extremevision.com.cn。
PS.由北京大学团委指导,极视角主办的高校计算机视觉算法邀请赛目前正在报名中,大奖等你来拿,欢迎参加~点击阅读原文查看详情。