[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成
本文简要介绍CVPR2022论文《Look Closer to Supervise Better: One-Shot Font Generation via Component-Based Discriminator》。该论文提出了一个新的基于部件级感知的one-shot字体生成方法,将部件级监督与GAN的对抗训练相结合。该模型提出了一个组件感知模块(CAM),以监督生成器在更细粒度的级别(组件级别)实现内容和风格解耦,CAM设计的灵感来源于人类如何识别字体样式和书写字形结构。与以往的方法专注于增加生成器的复杂度不同,该方法旨在为相对简单的生成器提供更细粒度的监督以充分发挥其性能。实验结果表明,该方法不仅在One-shot中文字体生成任务上取得了SOTA性能,而且在英文手写图像合成和图像编辑任务上也具有一定的竞争力。
一、Motivation
开发字体库是一个相当浩大的工程,人工进行字体设计本身就相当耗时,尤其是对于那些字符数量庞大的语种,例如超过25000个字符类别的中文;除此之外,开发跨语种的字体库也是一个迫切的需求:为了方便不同语言的排版和使用,Adobe和Google花费数年时间开发泛亚洲字体思源黑体,使其同时支持日文、韩文、繁体中文和简体中文。因此,如果能设计一个理想的字体生成系统,使其不仅能够支持少样本生成,还能支持跨语种生成,就能极大地减少字体库开发过程所耗费的人力物力。
为了更好地解决Few-shot字体生成任务,作者重新思考了以下两个问题:1)什么决定了人们对字体样式的判断?2)人们是如何学习正确地书写新的字符?为了直观地回答第一个问题,图1展示了同一个文本行用三种不同的字体样式书写时的情况,由于它们字符的整体架构相似,人们自然地会关注局部细节,比如笔画拐点,笔画粗细,连笔等,因此字符的组件在很大程度上决定了字体样式;对于第二个问题,当人们学习一个复杂的字形时,他们首先会学习构成字符的组件,直观地说,如果一个字形中的所有组件都写得正确,就可以正确地得到这个字符。受此启发,作者提出了组件感知模块(CAM)来模仿这种人类学习行为,为生成器提供组件级别的内容监督和风格监督,促使生成器去捕捉更多的局部细节。
图1 同一个文本行用三种不同的字体样式书写
二、Method
CG-GAN的整体网络结构如图2所示,由生成器,判别器,组件感知模块CAM三部分组成。生成器实现内容和风格的解耦,由风格编码器和内容编码器对输入图像分别进行风格编码和内容编码,并将风格编码和内容编码输入到混合器中进行图像重建,输出生成图像;判别器对生成图像进行真假判别,进行对抗训练;CAM用于为生成器提供多尺度的组件级监督,包括组件级的风格监督和内容监督,促使生成器更多地关注局部细节,实现部件级别的风格内容解耦。
网络的关键部分在于组件感知模块CAM的设计,如前文所述,CAM模仿了两种人类学习机制:1)人们在区分字体样式时会更加关注组件部分,以及2)人们通过学习组件来学习新的字形。具体来说,首先由一个Feature Encoder对输入图像进行特征提取,沿通道方向将特征拼接起来输入到结合了Attention的RNN Decoder,Decoder将字符拆分成多个部件后借助注意力机制进行识别,相当于加入了一个部件级的内容监督。同时Decoder在每个时间步都会得到了一个2维的Attention Map,将每一个时间步得到的Attention Map与Encoder 提取到的特征图相乘,就可以得到加权后的特征图,这些加权后的特征图包含了对应部件的特征信息,再基于这些加权后的特征图对部件进行风格判别和真假判别,相当于加入了一个部件级的风格监督。训练过程需要用到输入字符的部件信息作为弱监督。通过多尺度的组件级判别输出,CAM可以通过反向传播将更细粒度的信息反馈给生成器,鼓励生成器在组件级别同时关注风格一致性、字形正确性和图像真实性三个方面。具体的数学建模过程请参阅论文。
图2 CG-GAN的整体网络结构
三、实验结果
One-shot 中文字体生成
我们首先在One-shot中文字体生成任务上进行了实验,与主流方法进行了定性和定量的对比。由表1可知,CG-GAN在Seen Style和Unseen Style两种场景下均取得了SOTA性能,尤其是在FID指标上具有显著优势;值得注意的是,CG-GAN仅在1-shot的条件下,仍然优于8-shot条件下的LF-Font;由图3可知,CG-GAN在One-shot条件下能够生成更高质量的图像,并且能够进行跨语种的字体生成。
Handwriting generation 手写文本合成
CG-GAN无需对整体架构做任何改进,就可以应用在手写体生成任务上;如表2和表3所示,CG-GAN在风格相关和风格无关两种手写文本生成场景下能够达到与主流方法Comparable的性能;生成的手写体图像如图4所示.
图4 与主流方法在手写文本合成任务上的定性对比
Scene text editing 图像编辑
图5 图像编辑任务上的可视化效果
消融实验
同时作者进行了消融学习实验,验证了CAM提供的各组件级监督的有效性,实验结果如表4所示。
参考文献
原文作者:Yuxin Kong, Canjie Luo, Weihong Ma, Qiyuan Zhu, Shenggao Zhu, Nicholas Yuan, Lianwen Jin
撰稿:孔宇昕
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法(有源码)
[CVPR 2022]SimAN: 基于生成式模型的文本图像自监督表征学习
[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)
[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型
[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)
[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法
[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别(有源码)
[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别(有源码)
[ACM MM 2021]显示、阅读和推理:基于灵活上下文聚合器的表格结构识别
[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: