查看原文
其他

[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成

孔宇昕 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍CVPR2022论文《Look Closer to Supervise Better: One-Shot Font Generation via Component-Based Discriminator》。该论文提出了一个新的基于部件级感知的one-shot字体生成方法,将部件级监督与GAN的对抗训练相结合。该模型提出了一个组件感知模块(CAM),以监督生成器在更细粒度的级别(组件级别)实现内容和风格解耦,CAM设计的灵感来源于人类如何识别字体样式和书写字形结构。与以往的方法专注于增加生成器的复杂度不同,该方法旨在为相对简单的生成器提供更细粒度的监督以充分发挥其性能。实验结果表明,该方法不仅在One-shot中文字体生成任务上取得了SOTA性能,而且在英文手写图像合成和图像编辑任务上也具有一定的竞争力。

一、Motivation



开发字体库是一个相当浩大的工程,人工进行字体设计本身就相当耗时,尤其是对于那些字符数量庞大的语种,例如超过25000个字符类别的中文;除此之外,开发跨语种的字体库也是一个迫切的需求:为了方便不同语言的排版和使用,Adobe和Google花费数年时间开发泛亚洲字体思源黑体,使其同时支持日文、韩文、繁体中文和简体中文。因此,如果能设计一个理想的字体生成系统,使其不仅能够支持少样本生成,还能支持跨语种生成,就能极大地减少字体库开发过程所耗费的人力物力。

为了更好地解决Few-shot字体生成任务,作者重新思考了以下两个问题:1)什么决定了人们对字体样式的判断?2)人们是如何学习正确地书写新的字符?为了直观地回答第一个问题,图1展示了同一个文本行用三种不同的字体样式书写时的情况,由于它们字符的整体架构相似,人们自然地会关注局部细节,比如笔画拐点,笔画粗细,连笔等,因此字符的组件在很大程度上决定了字体样式;对于第二个问题,当人们学习一个复杂的字形时,他们首先会学习构成字符的组件,直观地说,如果一个字形中的所有组件都写得正确,就可以正确地得到这个字符。受此启发,作者提出了组件感知模块(CAM)来模仿这种人类学习行为,为生成器提供组件级别的内容监督和风格监督,促使生成器去捕捉更多的局部细节。 

图1  同一个文本行用三种不同的字体样式书写

与其他基于部件的方法[1,2,3]相比,该论文提出的CG-GAN有以下优点:1)利用CAM所提供的部件级监督,生成器能够在不显式依赖组件类别输入的情况下捕捉局部风格特征,能够实现跨语种字体生成;2)使用部件级监督是一种Human-like的方法,克服了以往方法需要使用成对训练数据进行像素级强监督的局限性;3)CAM仅在训练阶段为生成器提供监督,不在推理阶段使用,因此不会带来额外的计算时间。除此之外,CG-GAN还可以灵活地拓展到手写体生成和文本图像编辑这两个任务上,展现出该方法的巨大潜力。

二、Method



CG-GAN的整体网络结构如图2所示,由生成器,判别器,组件感知模块CAM三部分组成。生成器实现内容和风格的解耦,由风格编码器和内容编码器对输入图像分别进行风格编码和内容编码,并将风格编码和内容编码输入到混合器中进行图像重建,输出生成图像;判别器对生成图像进行真假判别,进行对抗训练;CAM用于为生成器提供多尺度的组件级监督,包括组件级的风格监督和内容监督,促使生成器更多地关注局部细节,实现部件级别的风格内容解耦。

网络的关键部分在于组件感知模块CAM的设计,如前文所述,CAM模仿了两种人类学习机制:1)人们在区分字体样式时会更加关注组件部分,以及2)人们通过学习组件来学习新的字形。具体来说,首先由一个Feature Encoder对输入图像进行特征提取,沿通道方向将特征拼接起来输入到结合了Attention的RNN Decoder,Decoder将字符拆分成多个部件后借助注意力机制进行识别,相当于加入了一个部件级的内容监督。同时Decoder在每个时间步都会得到了一个2维的Attention Map,将每一个时间步得到的Attention Map与Encoder 提取到的特征图相乘,就可以得到加权后的特征图,这些加权后的特征图包含了对应部件的特征信息,再基于这些加权后的特征图对部件进行风格判别和真假判别,相当于加入了一个部件级的风格监督。训练过程需要用到输入字符的部件信息作为弱监督。通过多尺度的组件级判别输出,CAM可以通过反向传播将更细粒度的信息反馈给生成器,鼓励生成器在组件级别同时关注风格一致性、字形正确性和图像真实性三个方面。具体的数学建模过程请参阅论文。

图2  CG-GAN的整体网络结构

三、实验结果



One-shot 中文字体生成

我们首先在One-shot中文字体生成任务上进行了实验,与主流方法进行了定性和定量的对比。由表1可知,CG-GAN在Seen Style和Unseen Style两种场景下均取得了SOTA性能,尤其是在FID指标上具有显著优势;值得注意的是,CG-GAN仅在1-shot的条件下,仍然优于8-shot条件下的LF-Font;由图3可知,CG-GAN在One-shot条件下能够生成更高质量的图像,并且能够进行跨语种的字体生成。

表1 与主流方法在One-shot中文字体生成任务上的定量对比

Handwriting generation 手写文本合成

CG-GAN无需对整体架构做任何改进,就可以应用在手写体生成任务上;如表2和表3所示,CG-GAN在风格相关和风格无关两种手写文本生成场景下能够达到与主流方法Comparable的性能;生成的手写体图像如图4所示.

表2 与主流方法在风格相关手写文本合成任务上的定量对比
表3 与主流方法在风格无关手写文本合成任务上的定量对比

图4 与主流方法在手写文本合成任务上的定性对比

Scene text editing 图像编辑

除此之外,CG-GAN在图像编辑任务上也表现出较好的泛化性能,如图5所示,CG-GAN可以鲁棒地编辑不同长度的文本,模型可以随着字符数量变化而适当地调整字符的高度、宽度和间距。
 

图5 图像编辑任务上的可视化效果

消融实验

同时作者进行了消融学习实验,验证了CAM提供的各组件级监督的有效性,实验结果如表4所示。

表4 消融实验验证CAM各监督的有效性

参考文献



[1] Shan-Jean Wu, Chih-Yuan Yang, and Jane Yung-jen Hsu. CalliGAN: Style and Structure-aware Chinese Calligraphy Character Generator. In CVPRW, 2020.
[2] Junbum Cha, Sanghyuk Chun, Gayoung Lee, Bado Lee, Seonghyeon Kim, and Hwalsuk Lee. Few-shot Compositional Font Generation with Dual Memory. In ECCV, pages 735–751, 2020.
[3] Song Park, Sanghyuk Chun, Junbum Cha, Bado Lee, and Hyunjung Shim. Few-shot Font Generation with Localized Style Representations and Factorization. In AAAI, pages 2393–2402, 2021.


原文作者:Yuxin Kong, Canjie Luo, Weihong Ma, Qiyuan Zhu, Shenggao Zhu, Nicholas Yuan, Lianwen Jin


撰稿:孔宇昕

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存