论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
本文简要介绍2021年6月份Facebook发表论文“TextStyleBrush: Transfer of Text Aesthetics from a Single Example”的主要工作。该论文基于深度学习的技术提出了一种自然场景文本图像和手写文本图像的编辑与合成算法,并且利用在风格迁移领域常用的网络设计策略和自监督的技术解决了现有的文本图像编辑与合成算法对像素对齐的数据标注的依赖,使得该算法可以使用真实数据进行训练,不需要合成大规模的数据,提高了算法的实用性和泛化性。该方法下文本编辑与合成的实际效果如图1所示:
一、研究意义与背景
文本编辑与合成任务(Scene Text Editing)旨在将一张文本图像中的文本替换成新的文本内容并保持原文本的风格。该任务一大应用就是可以用来做文本数据合成,通过这样的方式可以合成大量的自然场景文本或者手写文本。如图1所示,这些合成的数据相比起之前的合成引擎如SynthText[1],UnrealText[2]等都比较真实,因此也可以用来训练文本检测和识别网络。此外,文本编辑在广告、海报的编辑以及视觉信息翻译等任务也有广阔的应用场景。
二、方法简述
A.模型简介
本文提出的模型TextStyleBrush(TSB)流程如下图所示。在训练的时候,内容编码器以原文本和新文本的打印图片为输入,而风格编码器以粗略的文本图像(文本加一部分背景)作为输入,经过生成器网络得到原文本和新文本的合成图像和Mask;而在测试的时候,只需要输入新文本的打印图片和粗略的文本图像,就可以输出新文本的合成图像与Mask。
图2 TextStyleBrush(TSB)的结构流程图
由图2所示,TSB由七个子网络组成,分别是:内容编码器、风格编码器、风格映射网络、风格化文本生成器、字体分类网络、判别器、文本识别器。
首先是内容和风格编码器,它们都是使用ResNet34作为主干网络去分别提取内容和风格的高维特征表达。对于风格编码器,其输入是一张粗略的文本定位图(文本+一部分背景),这个目的是为了维持输入的长宽比,并且也能带来一些额外的全局语义背景信息;而且在风格编码器的倒数第二层还是用了RoI Align的操作去提取文本区域内的风格特征送入后续的网络。
接下来是风格化文本生成器,这是TSB最主要的结构。整个生成器是以StyleGAN2[6][7]为基础设计。但是原版的StyleGAN2存在一些问题,一是StyleGAN2是无监督训练的模型,所以它的结果是随机采样后生成的,没有任何条件的限制,而文本编辑这个任务需要合成特定的风格与内容;二是文本自身风格多样,比如骨架变换、书写风格变换等,因此在合成与转换的时候需要捕捉到全局和细节信息,这在StyleGAN2中还不够完善。因此,针对这些问题,TSB的风格化文本生成器直接将内容编码器得到的特征作为第一层的输入,而风格编码器的输出特征通过风格映射网络(Style Mapping Network)提取到Layer Specific Style Representation,通过StyleGAN2的转换机制与风格特征结合,以此生成最后的结果。此外,该生成器还会通过自监督的方式生成一个Mask辅助文本的合成。
B. 模型训练
TSB的训练除了生成对抗损失(Adversarial Loss)之外,主要是依靠三个损失函数,包括:Text Perceptual Loss、Text Content Loss和Reconstruction Loss。
1. Text Perceptual Loss
该损失函数的计算是利用了一个预训练好的字体分类器,它和常规的Style Loss[8]和Perceptual Loss[9]类似,都是计算生成结果和标签在高维特征下的损失作为监督。在该任务中,因为新文本并没有对应的标签,所以这里只计算原文本的合成结果与原文本的风格之间的损失。
2. Text Content Loss
这里利用的是一个预训练好的识别器,对所有生成图片和Mask都送入这样一个识别器去计算识别损失函数、回传梯度以保留文本的内容特征。但是这个识别器在训练的时候不更新参数。
3. Resconstruction Loss
三、实验结果与可视化
1. 消融实验
由于现实场景下没有像素对齐的数据用作评估模型性能,因此本文是在合成数据下去衡量各个模块的作用,如表1所示。
表1 消融实验结果
可以看到,在所有模块都加入训练的时候,FID可以达到最优的数值。
2. 与其他方法的对比
首先是将常用的场景文本数据集去进行这样的文本合成得到新的数据,将他们送入一个预训练好的识别器评估识别精度,精度越高代表合成的效果越好。
此外还进行了用户调研实验,让用户去区分文本图像是真实的还是TSB合成得到,结果如下表:
3. 可视化结果
四、总结与讨论
参考文献
[1] Gupta, Ankush, Andrea Vedaldi, and Andrew Zisserman. "Synthetic data for text. localisation in natural images." In CVPR. 2016.
[2] Long, Shangbang, and Cong Yao. "Unrealtext: Synthesizing realistic scene text images. from the unreal world." arXiv preprint arXiv:2003.10608 (2020).
[3] Wu, Liang, et al. "Editing text in the wild." In ACMM. 2019.
[4] Yang, Qiangpeng, Jun Huang, and Wei Lin. "Swaptext: Image based texts transfer in. scenes." In CVPR. 2020.
[5] Yu, Boxi, et al. "Mask-guided GAN for robust text editing in the scene." Neurocomputing. 441 (2021): 192-201.
[6] Karras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for. generative adversarial networks." In CVPR. 2019.
[7] T. Karras, S. Laine, M. Aittala, J. Hellsten, J. Lehtinen, and T. Aila, “Analyzing and improving. the image quality of StyleGAN,” in CVPR., 2020.
[8] Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. "Image style transfer using. convolutional neural networks." In CVPR. 2016.
[9] Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. "Perceptual losses for real-time style. transfer and super-resolution." In ECCV, 2016
原文作者: Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, Tal Hassner
撰稿:刘崇宇
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架
论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)
年度报告 | 自然场景文本检测与识别的深度学习方法【中国图象图形学报综述专刊
论文推荐|[IJCAI 2021] MatchVIE: 一个基于命名实体匹配相关性的视觉信息抽取学习框架
论文推荐|[CVPR 2021] MOST:具有定位细化功能的多向场景文本检测器
论文推荐|[IJCAI 2021]TCPN: 一个基于序列的弱监督视觉信息抽取学习框架
论文推荐|[CVPR 2021] 基于基元表征学习的场景文字识别
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: