@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法

马继钊 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍ACM MM 2022录用论文“Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition”的主要工作。受人类同时通过“读”和“写”来认识文本图像的启发,该论文集成了对比式和生成式自监督方法,能够显著提升各类文本下游任务的性能,包括文字识别、文本分割和超分辨率。其中在下游识别任务中,该方法刷新了11个场景文字数据集的识别性能,平均提升5%。

图1 (a)传统的对比式文本识别自监督方法和(b)本文提出的DIG,一种生成式和对比式结合的文本识别自监督方法

一、研究背景



基于深度学习的文本识别模型通常需要大规模的训练数据,而人工标注的真实样本数据量较少且标注成本很高。因此,对于文本识别来说,如何使用自监督方法来利用海量的无标注真实数据,是十分重要的研究方向。近年来,研究人员分别通过对比式自监督方法和生成式自监督方法来学习文本图像的区分性特征和上下文语义信息。受到人类同时依靠“读”和“写”两种方式来学习文本图像,本文提出了DIG,一种统一了对比式自监督学习和生成式图像掩码重建任务的文本识别自监督方法。

二、方法原理简述



图2 网络整体框架图

图2是这篇文章提出的文本识别自监督学习(DIG)方法的整体框图,主要包括对比学习分支掩码重建分支。该方法使用VIT作为特征提取器,将输入图片切分为不重叠的44大小的Patch进行特征提取,对比学习分支和掩码重建分支共享特征提取器。

DIG的对比学习分支基于MoCo v3, 输入样本经过不同的数据增广之后分别送入编码分支和动量分支进行实例映射。其中,数据增广的方法沿用了SeqCLR[1]的数据增广方法,并加入了颜色抖动、轻微旋转、灰度化等。在编码分支,掩码输入图像经过特征提取之后在水平方向上被切分为4个Patch,经过由多层感知机构成的映射模块和预测模块处理之后,得到最终的实例编码。动量分支用于构建对比学习的正负样本对,其结构与编码分支相同,并使用指数移动平均(EMA)的方法进行参数的更新。对比学习分支使用InfoNCR进行训练:

DIG的掩码重建分支基于SimMIM。该分支使用60%的掩码率对VIT的输入图像进行掩码,经过特征提取之后,通过一个线性层对掩码区域的像素值进行预测,该分支和对比学习分支共享特征提取器。掩码重建分支使用L2 Loss进行训练:

三、主要实验结果及可视化结果



本文首先在11个场景文字数据集上进行模型表征质量的评估,如表1所示:

表1 不同分支的表征质量对比实验

作者将11个场景文字数据集划分为规则、不规则和遮盖三种类型,通过固定预训练的Encoder参数,只训练Decoder的方式进行了模型表征质量的评估。如表1所示,DIG的表征质量明显优于对比学习分支和生成式分支,在规则和不规则数据集上,对比学习分支的性能优于生成式分支,而在遮盖数据集上,生成式分支的性能优于对比学习分支。

表2 与已有自监督方法的对比

作者在11个场景文字数据集上与已有的文本识别自监督方法进行了对比,如表2所示,DIG在不同的Encoder和Decoder设置下,性能都明显优于已有方法SeqCLR和PerSec,证明了该方法的优越性。

表3 与主流场景文字识别方法的对比

图3 对模型参数量的讨论

作者还将DIG与主流场景文字识别方法进行了对比,并进行了参数量的讨论。如表3所示,在保持实验设置严格对齐的情况下,DIG刷新了11个场景文字数据集的SOTA,相比之前的SOTA方法ABINet平均提升5%。作者对不同Backbone的参数量和性能进行了讨论。如图3所示,在轻量级的Backbone VIT-Tiny上,DIG的参数量明显小于ABINet,但识别率仍略微高于ABINet,当参数量Comparable时,DIG的性能优势明显。

表4 在文本超分辨任务上的实验

表5 在文本分割任务上的实验

作者在文本图像超分辨率和分割两个下游任务上验证了DIG的性能,如表4所示,DIG的超分辨率重建结果在SSIM和PSNR两个图像质量指标上达到了和之前方法Comparable的效果。如表5所示,在分割的IoU评价指标下,DiG-ViT-Small比Scratch-ViT-Small高出了5%。

图4 掩码重建分支的可视化结果

图4可视化了掩码重建分支的重建结果,对于遮挡或模糊图像,该分支仍然能够得到较高质量的重建结果,证明了DIG能够有效地捕捉文本图像中的上下文信息。

四、总结及讨论



本文提出了文本识别自监督模型DIG,该方法统一了对比学习和掩码图像建模两种自监督方法,可以同时学习文本图像的区分性信息和上下文特征。本文验证了DIG在文字识别、文字分割和超分辨率三个下游任务上的有效性,在各个任务上都得到了明显的性能提升。

参考文献



[1] Aberdam A, Litman R, Tsiper S, et al. Sequence-to-sequence contrastive learning for text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 15302-15312.

[2] Hao Liu, Bin Wang, Zhimin Bao, Mobai Xue, Sheng Kang, Deqiang Jiang, Yinsong

Liu, and Bo Ren. 2022. Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition. In AAAI Conf. on Artificial

Intelligence.

[3] Chen X, Xie S, He K. An empirical study of training self-supervised vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9640-9649.

原文作者:Mingkun Yang, Minghui Liao, Pu Lu, Jing Wang, Shenggao Zhu, Huali Luo, Qi Tian, Xiang Bai


撰稿:马继钊
编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾




欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



文章有问题?点此查看未经处理的缓存