@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法

江佳佳 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2022论文“Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition”的主要工作。该论文主要针对场景文本识别任务,提出了一种双重上下文感知器,可对无标签的文本图像数据,同时从低级别笔划和高级别语义上下文空间中进行对比学习。 

图1 基于上下文感知器的对比学习示意图

一、研究背景



自然场景文字兼具视觉和语义信息,视觉上在字体、颜色、书写风格等方面上具有多样性,在光照、遮挡、低分辨率等条件下也会呈现出外观变化,语义上不同的文本图像也具有内容的多样性,因此给场景文本识别带来了极大的挑战。传统的监督方法依赖于大量的标注数据来提升模型的识别性能,但数据的收集和标注成本是极高的。而已有的自监督学习方法,如SeqCLR [1],存在以下缺陷:1)该方法是从高层特征图的连续帧中产生实例,忽略了低层特征;2)通过增广构建正样本时,无法保证实例的对齐;3)引入其他图像样本充当负例,会引入不可控的跨样本的书写风格差异和内容差异。 

图2 自然场景文字复杂多样

二、方法原理简述



图3 网络整体框架图

图3是这篇文章提出的PerSec(基于语义-笔划上下文的感知方法)的整体框图。文本图像输入编码器后,上下文感知器分别对低层和高层的编码特征进行层次对比学习,旨在获得更加鲁棒的编码特征。该方法的核心结构是上下文感知器(Context Perceiver),如图4所示,它由上下文聚合器(Contex Aggregator)和量化器(Quantizer)组成,前者对输入的编码特征进行上下文信息的聚合,获得特征(C),后者从输入特征中获取可学习的伪标签(P),接着基于C和P进行对比学习。 

图4 上下文感知器的结构

上下文聚合器先对输入特征进行随机掩模,施加二维位置编码后,将其送入N个堆叠的改进过的Transformer模块中,这里的Transformer模块是由加窗的多头自注意模块(W-MHSA)和前馈网络(FFN)组成的。如公式(1)所示,与传统的MHSA不同的是,这里经过掩模处理后的特征图中,每个元素只跟在窗口限制范围内的上下文元素聚合,即子注意力机制在超过窗口范围后是不起作用的。     

输入特征经过线性变换后得到,其中表示限制自注意力作用范围的窗口掩模,当特征元素的位置超出窗口时,会被置为由此可以得到一个聚合了上下文信息的特征P。

量化器从d维的输入特征中得到G个可学习的码本,每个码本含有V个d/G维的条目,每次通过Gumbel-Softmax运算随机地从每个码本挑选条目,最后将其拼接起来,最终得到一个d维的伪标签P。后续的对比学习就是在C和P之间进行的。

在预训练期间,PerSec通过对低级笔划和高级语义的上下文空间同时进行对比学习,学习到文本图像的表征。如公式(2),针对低级和高级的特征,文章分别引入对比损失和多样性损失函数前者旨在区分落入同一个掩模的不同元素,后者旨在确保码本中每个条目尽可能等概率得被选中,以提高码本的利用率。

三、主要实验结果及可视化结果



图5  UTI-100M数据集

文章还提出了一个含有约一亿张无标注文本行图像的大规模预训练数据集(UTI-100M),该数据集涵盖了5种场景(书籍、票据、产品包装、杂志、街景)和4种语言(中英日韩)。实验设置详见原文,以下给出主要的实验结果,评价指标采用单词级别的准确率。

如表1和表2所示,不管是在无监督学习的设置下,还是半监督学习的设置下,都可以比已有的自监督方法获得更高的准确率,尤其是加入基于ViT的编码器和UTI-100M大规模预训练数据集后,准确率涨点尤为明显。

表1 半监督设置下的结果对比 

表2 无监督设置下的结果对比 

表3的消融实验结果表明,笔划级别的上下文感知器(STCP)和语义级别的上下文感知器(SECP)对PerSec方法来说是不可或缺的。另外,作者还试验了PerSec在已有的文本识别方法上的适应性,结果如表4所示。可以看到,已有的文本识别方法加入了PerSec并在UTI-100M进行预训练后,性能都能得到明显的提升,说明PerSec作为一个即插即用的模块,具有良好的适应性。

表3 消融实验 

表4  PerSec给已有文本识别方法带来的性能提升

( 表示对应的编码器引入了PerSec,并在UTI-100M进行了预训练) 

为了探究PerSec从上下文空间中学习到的信息,作者分别对习得的注意力图、码本和笔划特征进行了可视化。如图6(a)-(b),通过PerSec的自监督学习,笔划级的注意力可以自动地集中在字符的笔划上,而语义级的注意力往往活跃在整个字符区域。如图6(c)-(d),语义层面的码本比笔划层面的有更多的簇间重叠,这意味着笔划层面的量化器具有更高的码本利用率。作者将这一现象归因于笔划特征空间更复杂,却是由较浅的网络提取出来的。图6(e)显示,如果去掉笔划上下文感知器(STCP),所提取到的笔划特征的判别性就会降低,这说明STCP是不可或缺的。此外,图6(f)可视化了码本中一些笔划特征在原始图像上的位置,它们分别位于笔划的连接点和端点,这证明了PerSec通过预训练可以很好地捕捉到文本图像的笔画结构。 

图6  习得的注意力图、码本和笔划特征的可视化结果

四、总结及讨论



该文考虑到文本图像兼具视觉性和语义性的特点,提出了一种新的笔划-语义上下文感知方法(PerSec),通过对无标签数据进行分层对比学习,从文本图像中获取鲁棒的表征。文章通过消融和对比试验,验证了PerSec的有效性和适应性,可视化结果也支持这一结论。此外,文章还提供了一个上亿的UTI100M数据集进行预训练(注:论文暂未提供该数据集的下载链接),可以进一步提高PerSec的性能。

参考文献



[1] Aberdam A, Litman R, Tsiper S, et al. Sequence-to-sequence contrastive learning for text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 15302-15312.


原文作者: Hao Liu, Bin Wang, Zhimin Bao, Mobai Xue, Sheng Kang, Deqiang Jiang, Yinsong Liu, Bo Ren


撰稿:江佳佳

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



文章有问题?点此查看未经处理的缓存