[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
本文简要介绍ACM MM 2022录用论文“Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition”的主要工作。受人类同时通过“读”和“写”来认识文本图像的启发,该论文集成了对比式和生成式自监督方法,能够显著提升各类文本下游任务的性能,包括文字识别、文本分割和超分辨率。其中在下游识别任务中,该方法刷新了11个场景文字数据集的识别性能,平均提升5%。
图1 (a)传统的对比式文本识别自监督方法和(b)本文提出的DIG,一种生成式和对比式结合的文本识别自监督方法
一、研究背景
二、方法原理简述
图2 网络整体框架图
图2是这篇文章提出的文本识别自监督学习(DIG)方法的整体框图,主要包括对比学习分支和掩码重建分支。该方法使用VIT作为特征提取器,将输入图片切分为不重叠的44大小的Patch进行特征提取,对比学习分支和掩码重建分支共享特征提取器。
DIG的对比学习分支基于MoCo v3, 输入样本经过不同的数据增广之后分别送入编码分支和动量分支进行实例映射。其中,数据增广的方法沿用了SeqCLR[1]的数据增广方法,并加入了颜色抖动、轻微旋转、灰度化等。在编码分支,掩码输入图像经过特征提取之后在水平方向上被切分为4个Patch,经过由多层感知机构成的映射模块和预测模块处理之后,得到最终的实例编码。动量分支用于构建对比学习的正负样本对,其结构与编码分支相同,并使用指数移动平均(EMA)的方法进行参数的更新。对比学习分支使用InfoNCR进行训练:
DIG的掩码重建分支基于SimMIM。该分支使用60%的掩码率对VIT的输入图像进行掩码,经过特征提取之后,通过一个线性层对掩码区域的像素值进行预测,该分支和对比学习分支共享特征提取器。掩码重建分支使用L2 Loss进行训练:
三、主要实验结果及可视化结果
本文首先在11个场景文字数据集上进行模型表征质量的评估,如表1所示:
作者将11个场景文字数据集划分为规则、不规则和遮盖三种类型,通过固定预训练的Encoder参数,只训练Decoder的方式进行了模型表征质量的评估。如表1所示,DIG的表征质量明显优于对比学习分支和生成式分支,在规则和不规则数据集上,对比学习分支的性能优于生成式分支,而在遮盖数据集上,生成式分支的性能优于对比学习分支。
作者在11个场景文字数据集上与已有的文本识别自监督方法进行了对比,如表2所示,DIG在不同的Encoder和Decoder设置下,性能都明显优于已有方法SeqCLR和PerSec,证明了该方法的优越性。
表3 与主流场景文字识别方法的对比
图3 对模型参数量的讨论
作者还将DIG与主流场景文字识别方法进行了对比,并进行了参数量的讨论。如表3所示,在保持实验设置严格对齐的情况下,DIG刷新了11个场景文字数据集的SOTA,相比之前的SOTA方法ABINet平均提升5%。作者对不同Backbone的参数量和性能进行了讨论。如图3所示,在轻量级的Backbone VIT-Tiny上,DIG的参数量明显小于ABINet,但识别率仍略微高于ABINet,当参数量Comparable时,DIG的性能优势明显。
表4 在文本超分辨任务上的实验
表5 在文本分割任务上的实验
作者在文本图像超分辨率和分割两个下游任务上验证了DIG的性能,如表4所示,DIG的超分辨率重建结果在SSIM和PSNR两个图像质量指标上达到了和之前方法Comparable的效果。如表5所示,在分割的IoU评价指标下,DiG-ViT-Small比Scratch-ViT-Small高出了5%。
图4 掩码重建分支的可视化结果
四、总结及讨论
参考文献
[1] Aberdam A, Litman R, Tsiper S, et al. Sequence-to-sequence contrastive learning for text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 15302-15312.
[2] Hao Liu, Bin Wang, Zhimin Bao, Mobai Xue, Sheng Kang, Deqiang Jiang, Yinsong
Liu, and Bo Ren. 2022. Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition. In AAAI Conf. on Artificial
Intelligence.
原文作者:Mingkun Yang, Minghui Liao, Pu Lu, Jing Wang, Shenggao Zhu, Huali Luo, Qi Tian, Xiang Bai
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正
ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯