查看原文
其他

论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移

刘崇宇 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍2021年6月份Facebook发表论文“TextStyleBrush: Transfer of Text Aesthetics from a Single Example”的主要工作。该论文基于深度学习的技术提出了一种自然场景文本图像和手写文本图像的编辑与合成算法,并且利用在风格迁移领域常用的网络设计策略和自监督的技术解决了现有的文本图像编辑与合成算法对像素对齐的数据标注的依赖,使得该算法可以使用真实数据进行训练,不需要合成大规模的数据,提高了算法的实用性和泛化性。该方法下文本编辑与合成的实际效果如图1所示: 

图1  TextStyleBrush在场景文本和手写文本上的编辑与合成效果

一、研究意义与背景



文本编辑与合成任务(Scene Text Editing)旨在将一张文本图像中的文本替换成新的文本内容并保持原文本的风格。该任务一大应用就是可以用来做文本数据合成,通过这样的方式可以合成大量的自然场景文本或者手写文本。如图1所示,这些合成的数据相比起之前的合成引擎如SynthText[1],UnrealText[2]等都比较真实,因此也可以用来训练文本检测和识别网络。此外,文本编辑在广告、海报的编辑以及视觉信息翻译等任务也有广阔的应用场景。

出于这样的需求,越来越多的学者开始关注这一领域,并提出了自己的解决方案,如SRNet,SwapText,MG-GAN[3-5]等。这些方法需要先进行擦除和文本风格合成,最后再将背景与前景进行融合,流程比较复杂,容易造成误差累积;而且它们都需要大量的像素对齐的数据,而现实中很难找到满足这样的数据,自己标成本也极高,因此这类方法都是依赖大量的合成数据进行训练。本文的方法将文本编辑视作一个简单直接的图像到图像的风格迁移与转换任务,流程更加简洁;还提出了一种自监督的训练策略,使得网络可以在真实数据下训练,减少了模型对于像素对齐数据的依赖。

二、方法简述



A.模型简介

本文提出的模型TextStyleBrush(TSB)流程如下图所示。在训练的时候,内容编码器以原文本和新文本的打印图片为输入,而风格编码器以粗略的文本图像(文本加一部分背景)作为输入,经过生成器网络得到原文本和新文本的合成图像和Mask;而在测试的时候,只需要输入新文本的打印图片和粗略的文本图像,就可以输出新文本的合成图像与Mask。 

图2  TextStyleBrush(TSB)的结构流程图

由图2所示,TSB由七个子网络组成,分别是:内容编码器、风格编码器、风格映射网络、风格化文本生成器、字体分类网络、判别器、文本识别器。

首先是内容和风格编码器,它们都是使用ResNet34作为主干网络去分别提取内容和风格的高维特征表达。对于风格编码器,其输入是一张粗略的文本定位图(文本+一部分背景),这个目的是为了维持输入的长宽比,并且也能带来一些额外的全局语义背景信息;而且在风格编码器的倒数第二层还是用了RoI Align的操作去提取文本区域内的风格特征送入后续的网络。

接下来是风格化文本生成器,这是TSB最主要的结构。整个生成器是以StyleGAN2[6][7]为基础设计。但是原版的StyleGAN2存在一些问题,一是StyleGAN2是无监督训练的模型,所以它的结果是随机采样后生成的,没有任何条件的限制,而文本编辑这个任务需要合成特定的风格与内容;二是文本自身风格多样,比如骨架变换、书写风格变换等,因此在合成与转换的时候需要捕捉到全局和细节信息,这在StyleGAN2中还不够完善。因此,针对这些问题,TSB的风格化文本生成器直接将内容编码器得到的特征作为第一层的输入,而风格编码器的输出特征通过风格映射网络(Style Mapping Network)提取到Layer Specific Style Representation,通过StyleGAN2的转换机制与风格特征结合,以此生成最后的结果。此外,该生成器还会通过自监督的方式生成一个Mask辅助文本的合成。

B. 模型训练

TSB的训练除了生成对抗损失(Adversarial Loss)之外,主要是依靠三个损失函数,包括:Text Perceptual Loss、Text Content Loss和Reconstruction Loss。

1. Text Perceptual Loss

该损失函数的计算是利用了一个预训练好的字体分类器,它和常规的Style Loss[8]和Perceptual Loss[9]类似,都是计算生成结果和标签在高维特征下的损失作为监督。在该任务中,因为新文本并没有对应的标签,所以这里只计算原文本的合成结果与原文本的风格之间的损失。 

2. Text Content Loss

这里利用的是一个预训练好的识别器,对所有生成图片和Mask都送入这样一个识别器去计算识别损失函数、回传梯度以保留文本的内容特征。但是这个识别器在训练的时候不更新参数。

3. Resconstruction Loss

这个Loss是网络自监督的重要组成部分。它主要可以分为两部分之间的Differences,它们计算损失的时候会通过学习到的Mask对文本区域进行加权;则为一个Cyclic Loss。首先它把生成的结果贴回原图作为风格编码器的输入再生成一个Fake Style Vector以及一个伪结果,然后这个伪结果和去计算L1 Loss。

三、实验结果与可视化



1. 消融实验

由于现实场景下没有像素对齐的数据用作评估模型性能,因此本文是在合成数据下去衡量各个模块的作用,如表1所示。 

表1 消融实验结果

可以看到,在所有模块都加入训练的时候,FID可以达到最优的数值。

2. 与其他方法的对比

首先是将常用的场景文本数据集去进行这样的文本合成得到新的数据,将他们送入一个预训练好的识别器评估识别精度,精度越高代表合成的效果越好。 

此外还进行了用户调研实验,让用户去区分文本图像是真实的还是TSB合成得到,结果如下表: 

3. 可视化结果 

四、总结与讨论



这篇文章提出了一个基于深度学习的文本图像编辑与合成网络TextStyleBrush(TSB),与目前的方法相比,TSB将这个任务视为一个直接的图像到图像的风格迁移与转换任务,而且提出了一种自监督的训练方式,摆脱了对像素对齐的数据的依赖,使得网络可以在真实数据下训练,提高了模型的实用性和泛化性。TSB目前已经取得了很好的效果,能够生成许多能以假乱真的图片,促进了这一领域技术的发展。我们在利用这样的技术进行数据合成,并以此作为文本检测和识别的数据基础以及进行一些广告编辑任务的同时,也要考虑到目前这类技术的应用带来的安全风险和版权风险等。

参考文献



[1] Gupta, Ankush, Andrea Vedaldi, and Andrew Zisserman. "Synthetic data for text. localisation in natural images." In CVPR. 2016.

[2] Long, Shangbang, and Cong Yao. "Unrealtext: Synthesizing realistic scene text images. from the unreal world." arXiv preprint arXiv:2003.10608 (2020).

[3] Wu, Liang, et al. "Editing text in the wild." In ACMM. 2019.

[4] Yang, Qiangpeng, Jun Huang, and Wei Lin. "Swaptext: Image based texts transfer in. scenes." In CVPR. 2020.

[5] Yu, Boxi, et al. "Mask-guided GAN for robust text editing in the scene." Neurocomputing. 441 (2021): 192-201.

[6] Karras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for. generative adversarial networks." In CVPR. 2019.

[7] T. Karras, S. Laine, M. Aittala, J. Hellsten, J. Lehtinen, and T. Aila, “Analyzing and improving. the image quality of StyleGAN,” in CVPR., 2020.

[8] Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. "Image style transfer using. convolutional neural networks." In CVPR. 2016.

[9] Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. "Perceptual losses for real-time style. transfer and super-resolution." In ECCV, 2016



原文作者: Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, Tal Hassner


撰稿:刘崇宇

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存