[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
本文简要介绍AAAI 2022论文“Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition”的主要工作。该论文主要针对场景文本识别任务,提出了一种双重上下文感知器,可对无标签的文本图像数据,同时从低级别笔划和高级别语义上下文空间中进行对比学习。
一、研究背景
自然场景文字兼具视觉和语义信息,视觉上在字体、颜色、书写风格等方面上具有多样性,在光照、遮挡、低分辨率等条件下也会呈现出外观变化,语义上不同的文本图像也具有内容的多样性,因此给场景文本识别带来了极大的挑战。传统的监督方法依赖于大量的标注数据来提升模型的识别性能,但数据的收集和标注成本是极高的。而已有的自监督学习方法,如SeqCLR [1],存在以下缺陷:1)该方法是从高层特征图的连续帧中产生实例,忽略了低层特征;2)通过增广构建正样本时,无法保证实例的对齐;3)引入其他图像样本充当负例,会引入不可控的跨样本的书写风格差异和内容差异。
二、方法原理简述
图3是这篇文章提出的PerSec(基于语义-笔划上下文的感知方法)的整体框图。文本图像输入编码器后,上下文感知器分别对低层和高层的编码特征进行层次对比学习,旨在获得更加鲁棒的编码特征。该方法的核心结构是上下文感知器(Context Perceiver),如图4所示,它由上下文聚合器(Contex Aggregator)和量化器(Quantizer)组成,前者对输入的编码特征进行上下文信息的聚合,获得特征(C),后者从输入特征中获取可学习的伪标签(P),接着基于C和P进行对比学习。
图4 上下文感知器的结构
上下文聚合器先对输入特征进行随机掩模,施加二维位置编码后,将其送入N个堆叠的改进过的Transformer模块中,这里的Transformer模块是由加窗的多头自注意模块(W-MHSA)和前馈网络(FFN)组成的。如公式(1)所示,与传统的MHSA不同的是,这里经过掩模处理后的特征图中,每个元素只跟在窗口限制范围内的上下文元素聚合,即子注意力机制在超过窗口范围后是不起作用的。
输入特征经过线性变换后得到
量化器从d维的输入特征中得到G个可学习的码本,每个码本含有V个d/G维的条目,每次通过Gumbel-Softmax运算随机地从每个码本挑选条目,最后将其拼接起来,最终得到一个d维的伪标签P。后续的对比学习就是在C和P之间进行的。
在预训练期间,PerSec通过对低级笔划和高级语义的上下文空间同时进行对比学习,学习到文本图像的表征。如公式(2),针对低级和高级的特征,文章分别引入对比损失
三、主要实验结果及可视化结果
图5 UTI-100M数据集
文章还提出了一个含有约一亿张无标注文本行图像的大规模预训练数据集(UTI-100M),该数据集涵盖了5种场景(书籍、票据、产品包装、杂志、街景)和4种语言(中英日韩)。实验设置详见原文,以下给出主要的实验结果,评价指标采用单词级别的准确率。
如表1和表2所示,不管是在无监督学习的设置下,还是半监督学习的设置下,都可以比已有的自监督方法获得更高的准确率,尤其是加入基于ViT的编码器和UTI-100M大规模预训练数据集后,准确率涨点尤为明显。
表2 无监督设置下的结果对比
表3的消融实验结果表明,笔划级别的上下文感知器(STCP)和语义级别的上下文感知器(SECP)对PerSec方法来说是不可或缺的。另外,作者还试验了PerSec在已有的文本识别方法上的适应性,结果如表4所示。可以看到,已有的文本识别方法加入了PerSec并在UTI-100M进行预训练后,性能都能得到明显的提升,说明PerSec作为一个即插即用的模块,具有良好的适应性。
表3 消融实验
( 表示对应的编码器引入了PerSec,并在UTI-100M进行了预训练)
为了探究PerSec从上下文空间中学习到的信息,作者分别对习得的注意力图、码本和笔划特征进行了可视化。如图6(a)-(b),通过PerSec的自监督学习,笔划级的注意力可以自动地集中在字符的笔划上,而语义级的注意力往往活跃在整个字符区域。如图6(c)-(d),语义层面的码本比笔划层面的有更多的簇间重叠,这意味着笔划层面的量化器具有更高的码本利用率。作者将这一现象归因于笔划特征空间更复杂,却是由较浅的网络提取出来的。图6(e)显示,如果去掉笔划上下文感知器(STCP),所提取到的笔划特征的判别性就会降低,这说明STCP是不可或缺的。此外,图6(f)可视化了码本中一些笔划特征在原始图像上的位置,它们分别位于笔划的连接点和端点,这证明了PerSec通过预训练可以很好地捕捉到文本图像的笔画结构。
四、总结及讨论
参考文献
[1] Aberdam A, Litman R, Tsiper S, et al. Sequence-to-sequence contrastive learning for text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 15302-15312.
原文作者: Hao Liu, Bin Wang, Zhimin Bao, Mobai Xue, Sheng Kang, Deqiang Jiang, Yinsong Liu, Bo Ren
撰稿:江佳佳
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ACM MM 2021] PIMNet:一种用于场景文本识别的并行、迭代和模仿网络(有源码)
论文推荐|[AAAI 2022]基于上下文的对比学习场景文本识别
[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
论文推荐|[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
竞赛冠军方法分享 | 基于多模态GCN和句子排序的POI生成方案
论文推荐|[ICDAR 2021]基于局部和全局金字塔掩模对齐的复杂表格结构识别(有源码)
论文推荐|[NeurIPS2021] 一个大规模开放域视频文本数据集和基于transformer的端到端文本识别算法(有源码)
论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: