CVPR 2024 | 基于自纠正的非均匀纹理合成
The following article is from 深圳大学可视计算研究中心 Author 肖荣钧
本文是VCC肖荣钧同学对论文 Generating Non-Stationary Textures using Self-Rectification 的解读,该工作由深圳大学可视计算研究中心与以色列希伯来大学和特拉维夫大学合作完成,已被计算机视觉顶级会议CVPR 2024收录。论文第一作者为周漾助理教授,学生一作为2021级硕士研究生肖荣均,通讯作者为黄惠教授。
项目主页: https://vcc.tech/research/2024/TexRec 代码已开源:https://github.com/xiaorongjun000/Self-Rectification
该工作针对基于样例的非均匀纹理合成任务,提出了一种新颖的两步方法,允许用户首先使用图像编辑工具修改参考纹理,得到合成的初始粗糙目标。随后,利用该工作提出的自纠正方法,自动将这个目标细化成一个连贯、无缝的纹理,同时忠实地保留了参考示例的独特视觉特征。该方法基于预训练的扩散模型[1],尤其是自注意力机制[2],逐渐将合成的纹理与参考对齐,确保保留提供目标中的结构。该方法还可以应用于自然图像的惰性编辑,合成高度非均匀图像。大量实验表明,与现有方法相比,该方法可以处理大范围的非均匀纹理,具有前所未有的灵活性和质量。
引言
技术贡献
本工作主要贡献如下:
针对合成非均匀纹理挑战,提供了一种用户友好的编辑方法,使用户能够高效地设计新的非均匀纹理;
在纹理自纠正合成中,重点提出了一种全新的结构保留反演,使得合成结果的全局结构、布局和局部纹理细节同时得到了提升;
大量实验、对比和消融研究证实了方法的有效性,并能进一步扩展应用到图像编辑。
方法介绍
图1 基于自纠正的非均匀纹理合成流程概述
本文方法流程如图1所示。首先允许用户使用普通的图像编辑工具,利用样例纹理进行简单的编辑,形成目标纹理。随后,使用纹理自纠正方法对目标纹理进行修正,自动将目标纹理细化为一个连贯的、无缝的纹理,同时忠实的保留样例纹理的纹理特征。
在用户编辑中,用户首先基于样例纹理进行初步编辑,通过简单的操作如旋转和放置,得到目标纹理中用户感兴趣的部分。对于用户“留白”的背景部分,则使用随机像素(或图块)打乱作为初始化。将两部分叠加,创建出包含有限纹理块的目标纹理。
在纹理自纠正操作中,包括两个部分:结构保留反演和精细纹理采样,如下面图2所示。这两个过程者都在预训练Stable Diffusion(以下简称为SD)特征空间中进行。整个纹理自纠正的流程基于对目标纹理进行“重建”的过程,即首先对目标纹理 经过SD编码器E编码得到的特征 并进行应用DDIM反演,并将反演的最后一个潜在编码 作为DDIM采样过程的输入,将DDIM采样的最终特征编码 通过SD解码器D解码,即可得到最终的输出结果 。
1. 结构保留反演本文在SD的标准DDIM反演过程[3]中,将自注意力层的KV特征替换为平缓的特征,以达到在反演阶段保留下更多的特征的目的。本文方法从一个粗糙的目标图像 开始,对其连续进行两次反演。首先执行的是标准的DDIM反演,这一过程在逐步添加噪声的同时,生成了一系列自注意力特征。这些特征随后被用作第二次反演的参考。在第二次反演过程中,在时间步 小于某个预设阈值 时,采用逆序的自注意力KV注入策略,将原始注意力机制中的键特征 和值特征 替换为来自倒数第 个时间步的键特征 和值特征 。这种逆序注入方法有助于在反演过程中更好地保留目标图像的结构特征。结构保留反演的注意力计算公式可以表示为: 其中, 表示整个反演过程的总步骤数(本文中设定 ), 表示当前正在处理的时间步, 代表在时间步t的查询特征, 和 分别代表了在时间步 的键特征和值特征。
图3可视化了标准DDIM反演和结构保留反演过程中的中间潜在编码,可以看到,相比于标准DDIM反演得到的均匀噪声结果而言,结构保留反演完成后的最终特征编码仍然蕴含着关于 的丰富结构信息,这使得从该潜在编码开始的采样过程能够被有效地引导,以合成出既符合用户编辑目标又保留样例纹理特征的高质量纹理。
2. 精细纹理采样在完成结构保留反演后,本文从得到的最终特征编码 出发,进行精细纹理采样。在前 个时间步长(从 到 )中,允许采样过程在一定程度上重建目标图像的布局。在剩余的 个去噪步骤(从 到 )中,通过向采样过程中注入样例纹理 的KV特征,精细地匹配样例纹理中的纹理细节,以合成最终的输出图像 。具体来说,在去噪过程中的时间步 ( ),本文方法将在反演过程中提取的键 和值 特征注入到自注意力层中,以实现跨图像的注意力机制。其中, 代表在时间步t的查询特征, 和 分别是在时间步 的键特征和值特征,它们是从参考图像 的反演过程中提取得到的。这形成了一种跨图像的注意力机制,可以将样例纹理中对应的细节局部模式以合理的方式转移到合成结果中。
图4 精细纹理采样过程中的中间潜在编码的可视化
图4可视化了精细纹理采样过程中的中间潜在编码。这一可视化结果直观地展示了本文的方法如何在保持目标图像结构的同时,有效地复制样例纹理的细节。通过这种跨图像的注意力机制,本方法能精确控制纹理合成结果中的精细纹理模式,创造出具有高度真实感和视觉吸引力的纹理效果。
3. 两阶段的自纠正非稳态纹理合成利用结构保留反演,可以有效地“淡化”样例纹理中的微小细节,从而使自纠正过程更加聚焦于大尺度结构的构建。然而,这种方法可能会在生成结果中牺牲掉一些精细的纹理细节,导致合成的纹理显得过于平滑。为此,本文设计了一个分阶段的自纠正过程,通过从粗糙到精细的合成策略来优化整个流程,如图1所示。具体来说,在粗糙合成阶段,充分利用结构保留反演的能力,以生成连贯且可信的大尺度纹理结构,暂时忽略对于纹理细节的合成。随后,在精细合成阶段,减少或完全避免使用结构保留反演中的KV注入操作,允许细小纹理根据第一阶段的合成结果进行自然且精确的匹配,以实现最佳的合成效果。
IV
部分结果展示
图5展示了本文方法的实验结果以及与两个现有最先进的纹理合成方法[4, 5]的对比。从图中可以看出,本文方法生成的纹理其全局结构忠实地尊重用户对目标图像的编辑,同时局部仍具备高质量纹理细节。相比之下,对抗性扩展(TexExp)[4]并没有很好地捕捉到局部纹理细节。通过GCD损失进行的优化[5]能很好地复制局部纹理,但并不总是符合用户目标。
图5 实验结果与两个现有的最先进的纹理合成方法[4, 5]的对比
为了深入理解KV注入在纹理合成过程中的作用,本文节设计并执行了两个消融实验。在第一个消融实验中,首先将 和 两个参数设置为零,并同时全面探索了 和 参数的所有可能值。这一消融实验旨在评估在不涉及结构保留反演的情况下,KV注入在纹理采样阶段的独立影响。实验结果如图6所示。在该实验中, ( 和 )的较小值越小意味着在采样中执行更多步骤的KV注入,因此,目标图像也将被纠正得更接近参考纹理。相反,较大的 虽然保留了目标图像更多的布局,但同时也会引入了更多的结构错误或冲突,从而产生视觉上的伪影。
继对纹理采样中KV注入效果的研究之后,第二个消融实验本文进一步探讨了KV注入在结构保留反演过程中对合成结果的影响。为此,在本章中,保持 和 参数为默认值 ,并系统地探索了 和 参数的不同配置。实验结果如图7所示:
从图7中可以看出,引入KV注入后,合成纹理的整体质量得到了显著提升,无论是在结构的连贯性还是局部细节的准确性方面,都有了显著的改善。结构错误和伪影的数量大幅减少,显示出结构保留反演在提升合成质量方面的关键作用。
最后,图8展示了本文方法的两个扩展应用:颜色布局引导纹理合成和自然图像惰性编辑,显示出本文方法在图像编辑领域的广泛应用潜力。
总结与展望 该工作成功地解决了合成非平稳纹理这一复杂挑战,提供了一种方便用户高效设计新纹理的方法,具有前所未有的可控性。用户首先使用传统的图像编辑工具进行初步粗糙编辑,然后通过自动化的自纠正过程完成。该过程基于预训练的扩散网络和自注意力特征注入,展示了在合成一系列具有挑战性的非平稳纹理方面的灵活性和有效性。大量实验证明,本文的方法不管是在均匀纹理的无条件合成,还是结合用户编辑的非均匀纹理合成任务中都能获得连贯的、一致的高质量合成结果。
VI
思考与讨论
图9 通过不同方式的背景填充方法的合成结果
以下是开放性问题,欢迎读者朋友留言讨论: Q: 本文创新性的提出了一种全新的结构保持反演,对目标纹理进行两次DDIM反演,其中第二次反演中逆序注入第一次反演得到自注意力特征,使得最终反演结果消融了局部细节,保留了全局结构,这一方式能否推广到其他相关的任务呢?
-- End--
导 读 | 肖荣钧审 核 | 周漾编 辑 | 申金
参考文献
[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-resolution image synthesis with latent diffusion models. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10684-10695, 2022.
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. Advances in Neural Information Processing Systems (NIPS). 1-30, 2017.
[3] Song Jiaming , Meng Chenlin , Ermon Stefano. Denoising diffusion implicit models. International Conference on Learning Representations (ICLR). 2021.
[4] Yang Zhou, Zhen Zhu, Xiang Bai, Dani Lischinski, Daniel Cohen-Or, Hui Huang. Non-stationary texture synthesis by adversarial expansion. ACM Transactions on Graphics (TOG). 37(4), 49:1-49:13, 2018.
[5] Yang Zhou, Kaijian Chen, Rongjun Xiao, Hui Huang. Neural texture synthesis with guided correspondence. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 18095-18104, 2023.
深圳大学可视计算研究中心Visual Computing Research Center----------------------------------https://vcc.tech