查看原文
其他

论文推荐|[ICFHR 2020] 基于风格GAN和联机手写样本合成的增强文本行图像改进手写OCR性能

赖松轩 CSIG文档图像分析与识别专委会 2022-07-11


一、研究背景
针对基于深度学习的手写OCR引擎,理想的训练集应该能够覆盖各类书写风格、背景与光影变化、所有可能出现的词汇等。然而,采集这样的一个训练集十分费时费力,在一些情况下严重制约着手写OCR识别精度。手写图像合成的重要性由此显现。得益于近年来对抗式生成网络的发展,不少学者提出了从文本或印刷体文本行生成手写风格文本行的方法。但是,此类方法生成的手写风格仍然不够丰富。另一个手写文本行生成的思路是将联机手写数据转为脱机图像。联机数据可以方便地由手机、书写板等设备采集得到,数据量大、风格多变,若能将其转为逼真的脱机手写图像,则能够很好的辅助手写OCR的训练。
本文的作者提出了图1所示的框架,能够利用联机数据生成逼真的脱机手写文本行图像。该框架采用了“编码器-解码器”的结构,并且利用风格编码器从真实手写图像提取风格特征,作为解码器的条件输入。实验表明,结合真实手写图像与该框架生成的图像,手写OCR引擎的识别精度能够得到较大提升。

图1 本文提出的手写文本行图像合成框架
 
二、方法原理简述




其中D为判别器。
       在测试阶段,将联机数据转为骨架图,并挑选任意一张真实手写图像作为风格图,一起输入生成器G,即可生成十分逼真的脱机手写图像。

三、主要实验结果
作者首先在IAM数据集[4]上进行实验。IAM数据集共有6,161条脱机手写文本行,作者将其高度归一化为=96,宽度设为=3IAM数据集联机部分共有12,195条文本行,作者采用文中提出的方法将其转为脱机图,其中风格图像为上述的6,161张脱机图像。生成的手写图像如图2所示,可以看到生成的图像保留了联机骨架的内容信息以及风格图像的风格信息。

图2 生成的脱机手写图像示意图,风格图像来自于IAM数据集。
       利用生成的图像和真实手写图像进行训练,结果如表1所示。从表1可以得到如下结论:一,相比于直接将联机数据打点转为脱机图,本文提出的手写图像合成方案明显更有助于OCR训练;二,生成的手写图像对于OCR训练的效果仍不及真实图像;三,采用真实图像和生成图像一起训练,识别精度有明显提升。
表1 采用不同训练策略得到的OCR系统在IAM数据集上的CER和WER (%)


       在表2中,作者验证了采用三个损失函数的有效性。

表2  不同损失函数对IAM数据集识别结果的影响

作者接着采用了更大规模的数据集进行训练,验证手写图像合成在大规模数据集情况下仍然有助于识别精度的提升。训练集中,真实图像来自于白板以及笔记上的手写图像,共计248K张;联机数据为私有数据,共有506.8K个样本,而风格图像与上述真实图像来源相同,共计145K个样本。生成的手写图像如图3所示,从视觉效果看,与真实手写图像殊无二致。实验结果如表3所示,可见在大规模数据集情况下,手写图像合成仍然有助于OCR识别精度的提升。

图3 生成的脱机手写图像示意图,风格图像来自于白板以及笔记上的手写图像
表3 采用不同训练策略得到的OCR系统在大规模数据集上的CER和WER (%)


四、总结
本文提出了一个GAN框架,能够将联机手写数据转为逼真的脱机手写图像,用于辅助OCR训练。实验结果表明,采用本文框架生成的手写图像能够有效提升OCR识别精度,对于采集和构造大规模手写数据集提供了一个可行的替代方案。本文潜在的改进空间有两点,一是可以探究更优的脱机图像骨架化操作,二是探究更优的生成器结构以及训练策略、损失函数等。 
本文荣获ICFHR2020 Best Student Paper Award。

参考文献 
[1] T. Karras, S. Laine, and T. Aila, “Astyle-based generator architecture for generative adversarial networks,” in Proceedings of CVPR, 2019, pp. 4401–4410.
[2] J. Johnson, A. Alahi, and L. Fei-Fei,“Perceptual losses for real-time style transfer and super-resolution,” in Proceedings of ECCV, 2016, pp. 694–711.
[3] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros,“Image-to-image translation with conditional adversarial networks,” in Proceedings of CVPR, 2017, pp. 5967–5976.
[4] U. Marti and H. Bunke, “The IAM-database: an English sentence database for offline handwriting recognition,” IJDAR, pp. 39–46, 2002.

 

原文作者: Mingyang Guan, Haisong Ding, Kai Chen and Qiang Huo


撰稿:赖松轩
编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 




往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存