本文简要介绍CVPR 2020论文”ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation”。深度学习方法在手写文本识别问题上已经取得了大幅的性能提高,然而由于每个人的手写体都有独特风格,基于深度学习的训练样本会受到数量的限制,而且收集数据是一项具有挑战性且代价高昂的任务,随后的标注任务也比较困难。所以该论文使用半监督方法来减轻数据标注的负担。文章提出了一种基于ScrabbleGAN的半监督的方法,来合成在风格和词汇上都很通用的变长手写文本图像。
尽管在今天的数字时代,手写文本仍然有许多应用。除了大量积累多年的历史手写文本,手写至今仍在当今的医疗保健和金融机构发挥重要的作用。越来越多的人需要将手写文本的信息提取出来,并使其可以通过现代搜索引擎进行访问。在处理打印文本方面,现代技术似乎已经足够成熟[1,2],而手写文本识别似乎还不能与之相提并论,这是因为缺乏通用的、带注释的手写文本,以及获得手写文本的难度比较大。所以该文通过创建真实的合成文本,减少对文本标注的依赖,丰富训练数据在风格和词汇上的多样性。模型框架主要由拼接的多个字符滤波器、生成器、鉴别器、文本识别器、噪声向量组成。文章利用滤波器库的对应滤波器获取输入单词中每个字符的特征,并利用CNN感受域重叠的性质来解释邻近字母的影响,这种重叠区域允许相邻的字符相互作用,并创建一个平滑的过渡。生成器可以看作由不同类的条件生成器拼接而成的,每个类都代表字典里的一种字符,每个生成器都生成一个包含其输入字符的新片段。鉴别器促进生成真实的图像,识别器促进生成可读的文本,区分杂乱的文本和真实的文本。图2展示了单词”meet”的生成过程,具体如下:对于输入单词中的每个字符,模型从和字母表一样大的滤波器库中选择一个对应的滤波器。图2中连接了四个这样的滤波器(对应字母“e”的滤波器使用了两次),并乘以一个控制文本风格样式的噪声向量z。每个字符滤波后生成的区域大小相同,相邻字符的接受域是重叠的。值得注意的是,字符有效面积和字符间是否连笔是灵活可变的,例如,字母“m”占据了红色生成片段的大部分面积,而字母“e”和“t”在它们对应的生成块中所占的比例较小,此外,字母“t”是唯一的非连笔字母。此外,通过学习相邻字符之间的依赖关系,网络可以根据相邻字符对同一字符产生不同的变体。
在Generator模块中,输入图像被统一放缩到32像素的高度,并保持原图的宽高比,生成器的感受野宽度设置为16像素,每个滤波器的尺寸为32×8192。为了生成一个带有n个字符的单词,模型拼接对应这n个字符的滤波器,再将它们与一个32维的噪声向量z相乘,得到一个n×8192的矩阵,经过变形得到512×4×4n的矩阵,每个字符的大小为4×4,将这个张量输入到生成器的残差块中进行上采样,得到大小为32×16n的生成图像。模型通过残差块的方式,跳过部分连接,让生成器利用潜在空间直接影响不同分辨率和不同层次的特征。此外,生成器还引入了条件实例归一化层来调制残差块中使用的三个额外的噪声矢量。最后,使用带有tanh激活层的卷积层输出最终图像。Discriminator模块由不同的真伪分类器拼接而成,这些分类器存在重叠的感受野,所有分类器的分数通过池化层聚合到最终的鉴别器输出中。因为模型不依赖于字符级别的注释,所以不需要对每个分类器使用类监督。这样做的一个好处是,可以使用未标记的图像来训练鉴别器,甚至可以使用模型未见过的其他数据语料库。鉴别器的结构是受到BiGAN结构[3]的启发,由4个残差块和一个全连接层组成,并用最大边距损失监督训练。Recognizer模块基于CRNN结构,并用CTC loss[4]监督训练。它是用真实的带标注的手写样本训练的。大多数识别网络使用循环模块,它利用前面和后续的图像片段的信息来读取当前图像片段中的字符。比如论文[5]中的网络学习了一种隐式语言模型,通过利用文本中其他字符的先验知识,即使字符没有被写清楚,也能帮助识别出正确的字符。虽然这种质量在手写识别模型中是需要的,但在ScrabbleGAN里,它可能会引导网络正确地读取生成效果并不是很好的字符,因此,该文的识别网络只保留卷积网络的主干,从而保持了生成器生成字符的质量。该论文使用了三个Benchmarks数据集,包括法文数据集RIMES,、英文数据集IAM 和CVL的英文子集,性能评估标准采用的是词错误率WER(Word Error Rate)和归一化编辑距离NED(Normalized Edit Distance)。词错误率是误读单词的数量占测试集单词数的比率,归一化编辑距离是先计算预测结果和真词之间的编辑距离,再用真词的长度归一化得到的结果。文章给出的结果是尽可能重复五次训练和测试的平均值和标准偏差。更多实验细节可详见原文,下面是一些实验结果。图3是用不同噪声向量生成不同文本样式的结果。图中的每一行都由相同的噪声向量生成的,所以书写风格相同。
图4是其他模型和本文模型的生成效果比对,每个表格左列是论文[6] Alonso等人模型(详见原文)的生成结果,右列是本文模型的结果,可以明显看到本文模型的生成图像更为清晰,避免了字符丢失、出现多余字符的情况。
图5是在IAM数据集上两种不同样式之间的插值结果图。在每一列中,该文为第一行和最后一行的样本选择两个随机噪声向量,并在它们之间进行线性插值,以生成中间行图像的噪声向量。可以看到,每一个字母的大小、笔画宽度和字母之间的连接在两种风格之间逐渐变化。IAM数据集的大多数图像带有灰色背景,因此生成器也学会了产生背景的变化。
表1 在RIMES和IAM数据集上的手写文本识别实验
表1展示了用该文模型引入合成的训练数据后,在手写文本识别任务上的实验结果。对于每个数据集,第一行使用原始训练数据的结果,作为基线结果。第二行使用随机仿射变换扩充数据。第三行在原始训练数据的基础上引入ScrabbleGAN生成的10万张合成手写图像。第4行是在第三行所用模型的基础上进行的微调结果。从表中可以看出,与只使用现成的仿射增强相比,在训练期间使用ScrabbleGAN生成的样本加入训练,可以显著提高性能。
表2是域迁移测试,将模型应用在不同于训练集分布的测试数据上。该文在IAM数据集上训练模型,然后在CVL测试集上测试它的性能,作为比较的基线结果。该文根据三种不同的风格合成数据:使用CVL风格、CVL词汇,或者两者都使用。从这三种风格中生成的数据被附加到IAM训练集中。基线方法和Oracle方法之间17%的WER差距,可以证明所选HTR模型作这个泛化任务是比较困难的。其次,第2行使用CVL风格和IAM 词汇合成图像与原始方法相比,不会改善结果。另一方面,第3行用IAM风格和CVL词汇合成图像,大约可以提高5%的WER性能。最后,用CVL风格和Lexicon合成图像,WER又进一步改善了5%,而且NED得分比Oracle方法更好。
图6进一步说明识别损失和对抗损失之间平衡的重要性以及参数的影响。所有的图像都使用了相同的输入文本“ScrabbleGAN”,并且使用相同的噪声向量来生成每一行,每一行代表了从左侧仅使用识别损失进行训练,到右侧仅使用对抗损失进行训练的不同效果。结果显示,仅使用识别损失会导致图像看起来嘈杂且不包含任何可读文本。只使用对抗式损失可以得到真实的手写图像,但不包含所需的文本。所以文本可读性和样式多样性之间是需要进行平衡的。
该文提出了一种基于ScrabbleGAN的半监督的方法,来合成在风格和词汇上都很通用的变长手写文本图像。文章的方法不需要字符级别的注释,却可以学习字符的映射,能够生成任意长的单词,甚至是完整的句子。最后文章还给出了训练词汇的重要性不亚于训练风格的丰富性的结论。在未来,值得探索的一个方向是使用生成表征学习框架,更好地进行少样本学习。此外,可以探索较精细的分离方法,更好地控制包括连笔和笔划粗细在内的文本样式。另外,作者还计划进一步探索生成的字符具有相同感受野宽度的问题。[1] Amazon Inc., Amazon textract, https://aws.amazon.com/textract, 2019-11-01.1.
[2] Google Inc., Detect text in images,https://cloud.google.com/vision/docs/ocr, 2019-11-01. 1.[3] Andrew Brock, Jeff Donahue, and Karen Simonyan.Large scale gan training for high fifidelity natural image synthesis. arXiv preprint arXiv:1809.11096, 2018. 3, 4, 5[4] Alex Graves, Santiago Fernandez, Faustino Gomez, and Jurgen Schmidhuber. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning, pages 369–376. ACM, 2006. 5.[5] Ekraam Sabir, Stephen Rawls, and Prem Natarajan. Implicit language model in lstm for OCR. In 2017 14th IAPR International Conference on Document Analysis and Recognition(ICDAR), volume 7,pages 27–31. IEEE, 2017. 4.[6] Eloi Alonso, Bastien Moysset, and Ronaldo Messina. Adversarial generation of handwritten text images conditioned on sequences. arXiv preprint arXiv:1903.00277, 2019. 3, 4, 5, 6, 8.
原文作者:Sharon Fogel, Hadar Averbuch-Elor, Sarel Cohen , Shai Mazor and RoeeLitman Amazon Rekognition
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。
(扫描识别如上二维码加关注)