一、研究背景
目前,训练深度学习模型来完成手写文本识别的任务都需要大量的图片-内容标签数据,才能得到优秀的识别器。而标记这些数据需要花费大量的代价。近年来,已有相关研究探究通过手写文本生成的方法来解决手写识别训练的识别问题。
作者认为,以前的相关工作ScrabbleGAN[1]主要有以下缺陷:①需要为字符集中所有字符都设计单独权重的滤波层,使得模型在生成字符集较大的手写文本图片时,模型体积会变得非常大;②如图1所示,人类在书写英文文本行时,不同字符在y轴方向的位置和高度是不同的,ScrabbleGAN[1]没有显式地告诉生成器这个信息,使得生成的图片有可能会对齐失败,如图2所示。
图1 英文文本行在y轴方向的对齐
二、方法原理简述
2.1 总体结构
JokerGAN的结构如图3所示。输入生成器的条件有三个:①内容编码(图中的c1, …, c5,对字符Embedding得到);②风格编码(图中的z,高斯随机得到);③文本行对齐编码(图中的t,将在2.3中介绍)。生成器的训练由鉴别器(D)和识别器(R)进行监督,保证生成图片的真实性以及其中的内容与给定的内容一致。
图3 JokerGAN的整体结构
2.2 生成器设计与MCCBN
生成器将输入ci、z和t拼接在一起后得到的ei输入到基础滤波层(Base Filter Layer)中。在ScrabbleGAN[1]中,每个种类的字符使用的是独立权重的基础滤波层。这导致在字符集较大时,模型的体积会急剧膨胀。因此在JokerGAN中,所有种类的字符都共享基础滤波层的权重。
同时,作者还借鉴了cGAN中常用的Class-Conditional Batch Normalization(CBN)[2],提出了Multi-Class Conditional Batch Normalization(MCCBN)。CBN将Batch Normalization中的两个需要学习的参数γ和β改为由类别决定,公式如下:
2.3 文本行对齐编码
针对ScrabbleGAN[1]在英文中可能出现y轴对齐失败的问题,JokerGAN在生成器的输入中引入了文本行对齐编码(Text Line Conditioning, TLC),以英文书写四线三格的中间一格为基准(如图1所示)。如果文本行中有字母向下超过这一格,则称为“Below Baseline”,向上超过这一格则称为“Above Mean Line”。示例如表1所示。
2.4 训练步骤与loss
JokerGAN的训练步骤如算法1所示,识别器无须提前训练。
生成器训练上,由鉴别器和识别器进行监督,两个监督的Loss如下。
三、方法原理简述
3.1 可视化效果
JokerGAN生成英文手写图片的可视化效果如图4所示。与ScrabbleGAN和无TLC相比,JokerGAN能够较好地解决英文手写图片中y轴方向对齐的问题。
同时,作者还使用了自己合成的日文手写数据集训练JokerGAN,生成的日文图片效果如图5所示。
图4 JokerGAN生成的图片与ScrabbleGAN[1]的比较
图5 JokerGAN生成日文图片
3.2 识别实验
作者先用识别实验来验证JokerGAN生成的数据对识别训练的帮助。识别实验均在词级别进行。作者首先在IAM[3]数据集中随机选取1/8的数据(数据量5k)作为Baseline。随后分别加入ScrabbleGAN[1]、JokerGAN(无文本行对齐编码,w/o TLC)和JokerGAN生成的各10万张图片进行训练。在IAM[3]和CVL[4]测试集上评估的结果分别如表2和表3所示。实验结果表面JokerGAN生成的数据相较于ScrabbleGAN[1]对识别器帮助更大,同时也验证了TLC的有效性。
3.3评估与消融实验
作者通过实验比较了ScrabbleGAN[1]和JokerGAN的性能,同时也将有无TLC以及不同TLC Embedding尺寸的情况加入对比。评估指标使用了FID[5]、GAN-train[6]和GAN-test[6]。实验结果如表4所示。通过实验可知,JokerGAN的性能要优于ScrabbleGAN,且当TLC的embedding尺寸为4时,性能达到最优。
表4 不同模型的评估结果
3.4 模型体积对比
作者对比了ScrabbleGAN[1]和JokerGAN在不同字符集大小下的模型体积,如表5所示。通过对比可知,JokerGAN的模型体积明显小于ScrabbleGAN[1],特别是在字符集变大时,JokerGAN的模型体积不会急剧膨胀。
表5 不同字符集大小情况下,ScrabbleGAN[1]和JokerGAN模型体积对比
四、总结及讨论
五、相关资源
论文下载:
参考文献
[1] Fogel S, Averbuch-Elor H, Cohen S, et al. ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4324-4333.
[2] Miyato T, Koyama M. cGANs with Projection Discriminator[J]. arXiv preprint arXiv:1802.05637, 2018.
[3] Marti U V, Bunke H. The IAM-database: An English Sentence Database for Offline Handwriting Recognition[J]. International Journal on Document Analysis and Recognition, 2002, 5(1): 39-46.
[4] Kleber F, Fiel S, Diem M, et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting[C]//2013 12th International Conference on Document Analysis and Recognition. IEEE, 2013: 560-564.
[5] Heusel M, Ramsauer H, Unterthiner T, et al. Gans Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium[J]. Advances in Neural Information Processing Systems, 2017, 30.
[6] Shmelkov K, Schmid C, Alahari K. How good is my GAN?[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 213-229.
原文作者:Jan Zdenek, Hideki Nakayama
撰稿:黄家荣
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾