论文推荐|[ICCV 2021] Handwriting Transformer

Original 谢灿宇 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICCV 2021录用论文“Handwriting Transformers”的主要工作。该工作针对手写文字生成任务，提出同时学习风格-内容纠缠、以及书写者的全局与局部书写风格来进行手写文字的生成工作。具体地，作者使用自注意力机制来捕获书写风格中长短范围间的关系，使用一个基于Transformer的编解码器来建模文本内容与书写风格之间的关系。该方法是第一个提出基于Transformer来做手写文本风格合成的工作。

一、研究背景

自动化手写文本生成可用于辅助书写困难人员进行相关工作，也可以用于深度学习中额外数据的采集用于模型训练，但是如何从键入的文本中生成真实性高、风格各异的文本，是一个具有挑战性的问题。

目前，基于GAN的手写文本生成方法尚有缺陷，该工作将其归咎为以下两个关键问题：（1）表示文本风格与内容的特征之间连接不紧密，通常这两种特征是进行单独处理然后再进行简单拼接，虽然这样的方案能够在字/行级别实现风格和文本内容之间的纠缠，但它并没有明确地在字符级别强制风格和内容之间的纠缠。（2）尽管基于GAN的方法可以捕获全局书写风格（例如，墨水宽度、倾斜），但它们没有明确编码局部风格（例如，字符样式、连字）。由于这些问题，他们很难准确地模仿参考书写者的局部语言风格特征。本文提出一种替代方法，在一个单一的生成架构中处理这两个问题。

二、方法介绍

图1. 整体框架示意图

该方法的整体框架结构如图1所示，主要包含了4部分内容：1）合成网络G用于生成手写文本图像；2）鉴别器D用于判断生成数据的真实性；3）识别器R用于辅助文本的保留；4）风格分类器用于控制合成图像的风格。

2.1 图像生成网络G

如图1所示，图像生成网络G主要包括编码器以及解码器两部分，其中编码器根据给定输入风格示例图像，生成对应的特征Embedding序列；解码器根据编码器的输出特征序列以及给定文本输入，来生成与输入图像有相同风格的合成图像。编解码器的结构均采用卷积与Transformer相结合的形式，用以捕捉模型输入中的局部以及全局信息，从而生成更加真实的图像。

2.1.1 编码器

编码器的目的是用于输入图像的全局以及局部的风格属性。对于给定输入图像，先通过一个卷积神经网络提取图像特征，目的是为了得到分辨率更小的特征图，然后，将得到的特征图根据宽高展平成特征序列，再送入Transformer Encoder中进行全局以及局部特征的建模。同时，为了保持输入特征序列的位置信息，作者在输入时加入了位置编码。

2.1.2 解码器

解码器的结构与标准Transformer Decoder相同，使用编码器的输出作为Key与Value向量，而Query向量由解码器自身提供。对于一个长度为m的单词a，Query向量是作为解码器每一个注意力层的已学习位置编码，在对每个特定字母的解码时，对应的Query都会去寻找输入风格图像中对应字母的感兴趣区域得到响应的注意力权重（如图2所示），然后再经过Transformer Decoder输出，最后经过卷积层输出生成图像。

图2. 编解码器注意力权重可视化

2.2 训练损失函数

该工作训练的损失函数主要分为以下几个：

（1）对抗损失：该工作遵循传统GAN的训练方式，通过一个鉴别器D来判断生成图像的真假，对抗训练的损失函数如下：

（2）识别损失：为了确保生成图像包含了文本内容，使用一个CRNN识别器来计算生成图像的识别损失，损失函数如下：

（3）风格损失：使用一个风格分类器来控制合成图像的风格，该分类器使用交叉熵训练：

（4）循环损失（Cycle Loss）：循环损失函数是该工作引入的一个重要函数，其定义为真实图像与合成图像经过编码器提取的特征之差的L1范数，使合成图像可以提取到与真实图像一样的特征：

最终的损失函数为：

三、主要实验结果及可视化效果

作者通过对比不同合成方法的生成图像质量，证明了所提方法的有效性，并通过消融实验证明了各个模块的有效性。

表1 IAM数据集上不同生成方法合成质量的对比

图3. 合成效果可视化

表2 各个模块的消融实验

表3 单词级别与字符级别条件下的生成效果

四、总结

本文提出一种基于Transformer的手写文本图像生成方法，通过自注意力机制捕捉局部以及全局的风格属性，利用编码器-解码器注意力机制，通过推断每个查询字符的风格表示，在字符级别实现风格内容嵌入，可以生成具有不同长度和任何所需书写风格的真实风格的手写文本图像。

原文作者: Ankan Kumar Bhunia

撰稿：谢灿宇

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐|[ICCV 2021] Handwriting Transformer

论文推荐|[ACM MM2021]尝试理解交通标志

论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法

论文推荐|[ICCV2021]端到端的文本图像分块矫正方法

论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别

论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器（有源码）

论文推荐|[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

论文推荐|[ICDAR2021 BestPaper] ViBERTgrid：一种用于文档关键信息提取的联合训练多模态二维文档表示

论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络

论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络

论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐|[ICCV 2021] Handwriting Transformer

您可能也对以下帖子感兴趣