论文推荐|[ICCV 2021] Handwriting Transformer
本文简要介绍ICCV 2021录用论文“Handwriting Transformers”的主要工作。该工作针对手写文字生成任务,提出同时学习风格-内容纠缠、以及书写者的全局与局部书写风格来进行手写文字的生成工作。具体地,作者使用自注意力机制来捕获书写风格中长短范围间的关系,使用一个基于Transformer的编解码器来建模文本内容与书写风格之间的关系。该方法是第一个提出基于Transformer来做手写文本风格合成的工作。
一、研究背景
自动化手写文本生成可用于辅助书写困难人员进行相关工作,也可以用于深度学习中额外数据的采集用于模型训练,但是如何从键入的文本中生成真实性高、风格各异的文本,是一个具有挑战性的问题。
二、方法介绍
该方法的整体框架结构如图1所示,主要包含了4部分内容:1)合成网络G用于生成手写文本图像;2)鉴别器D用于判断生成数据的真实性;3)识别器R用于辅助文本的保留;4)风格分类器用于控制合成图像的风格。
2.1 图像生成网络G
如图1所示,图像生成网络G主要包括编码器以及解码器两部分,其中编码器根据给定输入风格示例图像,生成对应的特征Embedding序列;解码器根据编码器的输出特征序列以及给定文本输入,来生成与输入图像有相同风格的合成图像。编解码器的结构均采用卷积与Transformer相结合的形式,用以捕捉模型输入中的局部以及全局信息,从而生成更加真实的图像。
2.1.1 编码器
编码器的目的是用于输入图像的全局以及局部的风格属性。对于给定输入图像,先通过一个卷积神经网络提取图像特征,目的是为了得到分辨率更小的特征图,然后,将得到的特征图根据宽高展平成特征序列,再送入Transformer Encoder中进行全局以及局部特征的建模。同时,为了保持输入特征序列的位置信息,作者在输入时加入了位置编码。
2.1.2 解码器
解码器的结构与标准Transformer Decoder相同,使用编码器的输出作为Key与Value向量,而Query向量由解码器自身提供。对于一个长度为m的单词a,Query向量是作为解码器每一个注意力层的已学习位置编码,在对每个特定字母的解码时,对应的Query都会去寻找输入风格图像中对应字母的感兴趣区域得到响应的注意力权重(如图2所示),然后再经过Transformer Decoder输出,最后经过卷积层输出生成图像。
图2. 编解码器注意力权重可视化
2.2 训练损失函数
该工作训练的损失函数主要分为以下几个:
(1)对抗损失:该工作遵循传统GAN的训练方式,通过一个鉴别器D来判断生成图像的真假,对抗训练的损失函数如下:
(2)识别损失:为了确保生成图像包含了文本内容,使用一个CRNN识别器来计算生成图像的识别损失,损失函数如下:
(3)风格损失:使用一个风格分类器来控制合成图像的风格,该分类器使用交叉熵训练:
(4)循环损失(Cycle Loss):循环损失函数是该工作引入的一个重要函数,其定义为真实图像与合成图像经过编码器提取的特征之差的L1范数,使合成图像可以提取到与真实图像一样的特征:
最终的损失函数为:
三、主要实验结果及可视化效果
作者通过对比不同合成方法的生成图像质量,证明了所提方法的有效性,并通过消融实验证明了各个模块的有效性。
图3. 合成效果可视化
表2 各个模块的消融实验
四、总结
本文提出一种基于Transformer的手写文本图像生成方法,通过自注意力机制捕捉局部以及全局的风格属性,利用编码器-解码器注意力机制,通过推断每个查询字符的风格表示,在字符级别实现风格内容嵌入,可以生成具有不同长度和任何所需书写风格的真实风格的手写文本图像。
原文作者: Ankan Kumar Bhunia
撰稿:谢灿宇
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ACM MM2021]尝试理解交通标志
论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: