@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

论文推荐|[AAAI 2022]基于上下文的对比学习场景文本识别

郑晓怡 CSIG文档图像分析与识别专委会 2022-07-11
本文简要介绍AAAI 2022论文“Context-based Contrastive Learning for Scene Text Recognition”的主要工作。该论文提出了一种新的框架--基于上下文的对比学习(ConCLR)。ConCLR通过将不同上下文中相同字符的群集拉在一起,并在嵌入空间中推开不同字符的群集,抑制了过度适应特定上下文的副作用,并学习了更健壮的表示。实验表明,ConCLR显著改善了词汇表外的泛化能力,并与基于注意力的识别器一起在公共基准测试上达到了最先进的性能。 

一、研究背景



自然场景文字识别一直是计算机视觉中研究最多的主题之一。场景文本图像中的丰富信息在视觉问答(Biten et al. 2019[1])、自动驾驶(Yu et al. 2021[2])和图像检索(Gomez et al. 2018[3])等一系列人工智能应用中发挥着至关重要的作用。以前的方法(Jaderberg 等人 2016[4];Wang、Babenko 和 Belongie 2011[5])试图从符号分类的角度解决这个问题。然而,场景文本图像的显著变化甚至失真,例如模糊和遮挡,阻碍了令人满意的性能。为了弥合这一差距,出现了许多基于注意力的方法(Fang et al. 2021[6]; Yu et al. 2020[7]; Yue et al. 2020[8]; Li et al. 2019[9]; Lyu et al. 2019[10]; Qiao et al. 2020[11]) 在公共基准测试方面取得了显著进展(Karatzasetal.2015[18];Mishra、Alahari 和 Jawahar 2012[12];Wang、Babenko 和 Belongie 2011[5];Phan 等人 2013[13];Risnumawan 等人 2014[14];Karatzas 等人 2013[15])。通过利用注意力机制(Bahdanau、Cho 和 Bengio 2015[14];Vaswani 等人 2017[17]),模型可以关注相邻字符而不是查看每个字符,从而显著改善对不规则和难以识别的文本的理解(Karatzas 等人 2015[18];Phan 等人 2013[13];Risnumawan 等人 2014[14])。

基于注意力的方法成功的关键是将上下文信息编码成字符嵌入,无论是以自动编码还是自回归的方式。此功能使模型不仅可以根据相应位置的像素,还可以根据来自周围符号的语言信息来推理目标字符。如图 1(左)所示,即使有严重的遮挡导致文本无法识别,模型仍然可以根据其他字符推断丢失的字符。然而,最近的工作(Wan et al. 2020[19])揭示了一个关键问题:基于注意力的方法更容易依赖词汇。对于在训练阶段看到的包含文本的图像,基于注意力的识别器实现了较好的准确性,但在预测具有词汇外文本的图像时,它们的性能急剧下降,即使它们在视觉上相对高质量和没有失真,如图 1(右)所示。作者推测主要原因是过度依赖上下文信息。在训练过程中,隐式上下文编码主导了判别过程。因此,模型会过度拟合特定的上下文,而不是学习每个字符的判别特征。这个问题严重损害了场景文本识别器的鲁棒性和泛化性,严重限制了其应用场景。

图1 词汇表内文本和词汇表外文本的文本识别示例。对于包含词汇表内文本的图像(左),即使面临遮挡,模型仍然可以通过上下文推断来正确预测,而对于包含词汇表外文本(右)的图像,即使文本清晰且没有失真,模型也更容易做出错误预测。

二、方法原理简述



基于上下文的数据增强

为了缓解基于注意力的方法更容易依赖词汇这个问题。文章的直觉是学习一种更好地平衡内在字符特征和上下文信息的表示,以消除后者的过度依赖。因此文章提出了基于上下文的数据增强 (ConAug)。通过简单的图像连接操作轻松修改场景文本图像的上下文。如图 2 所示,给定一个输入图像,ConAug将两个不同的图像连接,以分别获得两个不同的视图。因此,原始批次中的字符上下文在这两个视图中发生了不同的变化。

图2 基于上下文的数据扩充。⊕表示串联操作。对于输入批次中的字符,它们的上下文在两个增强视图中发生了不同的更改,例如,原始输入的第一个图像中“I”的上下文为“-S”,而在串联视图1中,其上下文在视图2中变为“-S-8”和“4--S”。 

ConCLR 的主要框架

ConCLR 的主要框架如图 3 所示。

图 3 ConCLR 的主要框架。每个输入图像首先被送入ConAug 以获得两个基于上下文的增强视图。然后将图像的这两个视图传递给主干和基于注意力的解码器,以获得对齐的字符特征。然后文章将这些特征传递给投影头,并优化对比损失以将正样本拉在一起并推开负样本。请注意,为简单起见,省略了原始批次的前向过程。
Backbone:文章采用 ResNet作为主干网络。输出特征图大小是输入图像大小的 1/4。为了捕捉远程空间依赖性,文章还采用了Transformer单元(Vaswani et al. 2017)。
基于注意力的解码器:基于注意力的解码器对齐和聚合每个字符的相关信息和特征。对齐的嵌入表示为Glimpses G。在此过程中,解码器能够涉及上下文信息以帮助推断目标字符。根据解码模式,文章将基于注意力的解码器分为顺序解码器和并行解码器,如图 4 所示。

图4 基于注意力的解码器。基于注意力的解码器主要可以分为顺序解码器(左)和并行解码器(右)。
尽管类似于RNN的顺序解码器取得了巨大的成功,但依赖于时间的解码策略严重限制了它的效率,并使训练过程更加棘手。
受 Transformer (Vaswani et al. 2017[17]) 的启发,最近的工作 (Yu et al. 2020[7]; Fang et al. 2021[6]) 为 STR 提出了基于注意力的并行解码器。在训练期间学习了固定数量的查询向量 q,每个向量对应于一个字符顺序的位置编码。因此,以特征图F为Key,可以并行解码Glimpse向量。
这种并行设计显著提高了解码器在训练和评估阶段的效率。此外,这种架构赋予模型更大的灵活性来处理不同的空间位置,并显示其优越性,特别是在不规则基准上。鉴于上述优点,文章在框架中使用(Fang等人,2021[6])中提出的并行解码器。
投影头:直接对比用于预测harms模型性能的嵌入,我们需要过滤掉特征中的不相关信息。因此,文章使用一个称为Proj(·) 的辅助模块将表示映射到优化对比损失的空间。文章对不同的架构进行实验,例如恒等映射、非线性投影和线性投影,如实验部分所示。结果表明,线性投影是最佳选择。
预测层:文章使用全连通(FC)层将Glimpse向量转为每个字符的概率。遵循前面工作,文章的FC层有37个类,包括数字0-9、不区分大小写的字符a-z和一个‘EOS’符号。
损失函数:在文章的框架中有两个损失目标,即识别损失和对比损失。前者,用于训练场景文本识别器,而后者用于学习语义空间中的鲁棒表示。在深入研究它们之前,我们首先要澄清这些符号。
文中定义一批输入数据为,其中Xi是输入图像,Yi是词级标签,N是批量大小。请注意,每个Yi还可以进一步划分为字符级标签,表示为,其中li是相应的词长。在ConAug之后,两个增加的数据批次分别表示为
识别损失:文章对原始输入批次和两个增强批次进行计算,可以表示为:

其中交叉熵损失,而ω是一个超参数,用于调整文本识别的增强样本的权重。
对比损失:对比损失计算是在两个增强的批次上进行的。首先,文章将两个批次配对为:给定一对增强数据的对准特征的并集可以表示为,字符标签的并集可以表示为为Z或者中任意样本的索引,是除 m 本身之外的其他索引,是与具有相同标签的其他对齐视觉特征的索引。一对数据的对比损失定义为:

其中 · 符号表示点积,τ∈R+表示温度超参数。因此,对于给定的批次,总对比损失可以通过以下公式计算:

总损失形式如下:

这里,λ作为对比损失的权重,是一个超参数。对比损耗的计算如图5所示。在文章的实验中,文章将ω设置为0.5,将τ设置为2,将λ设置为0.2。

图5 基于上下文的对比损失。对于两个增强的图像视图,我们首先通过主干、基于注意力的解码器和投影头为每个字符提取对应的嵌入。对于每个Anchor,例如红色的‘I’,我们将这些嵌入中不同的‘I’视为正样本,而将其他字符视为负样本。

三、主要实验结果及可视化结果



数据集和实施细节

为了将文章的方法与其他方法进行公平的比较(方等人。2021年;Yu等人[7]。2020;Yue et al.。2020[8]),文章遵循他们的设置进行训练和评估。训练集包括两个合成数据集,MJ(Jaderberg等人,(2016年、2014年[4])和ST(Gupta、V edaldi和Zisserman 2016[20]),并对六个公共基准进行评价,包括ICDAR 2013(IC13)(Karatzas等人[15])。2013)、ICDAR 2015(IC15)(Karatzas等人。2015年[18])、IIIT 5KWords(IIIT)(Mishra、Alahari和Jawahar 2012[12])、街景文本(SVT)(Wang、Babenko和Belongie 2011[5])、街景文本-透视(SVTP)(Phan et al.。2013[13])和CUTE80(Risnumawan等人。2014[14]),以及文章的综合基准OutText。
OutText包含1000个图像。文章将随机字符粘贴到白色背景中。请注意,为了保证图像质量,会排除模糊和遮挡等视觉失真。考虑到使用ConAug增加了训练集的平均字长,为了排除字长的影响,作者严格按照MJ和ST的字长分布来合成OutText。如图8所示,字长集中在3到8之间。 

图8 左:MJ和ST的字长分布。字长大于15的图像数量非常少,因此我们不在此图中显示它。右:不同长度单词的准确度。当字长大于8时,ConCLR的优势不断增强(此处省略)。
为了确保公平的比较,文章使用与ABINet相同的实验配置(Fang et al.2021[6])。文章为并联注意模块使用三个Transformer层,每个都有八个Heads。通过常见的数据增强,如随机旋转,仿射变换,色彩抖动等,图像大小调整为32×128。文章使用ADAM作为优化器,学习速率初始化为1e−4 和 在第6 Epoch 的时候Decayed 1e−5。所有实验均在四个批量为384的NVIDIA 2080Ti GPU上进行。 
见过和未见过文本的数据分析 
表1 对ConCLR中每个模块的有效性进行评估。计算了六个公共数据集的总体平均精度。NA表示基准测试中没有词汇表外的图像。

可以看出,与普通并行基于注意力的解码器相比,在IIIT、CATE和OutText上,不可见数据的准确率分别提高了4.5%、8.5%和4.5%。这表明ConCLR可以指导学习一种更好地平衡固有信息和上下文信息并且较少受上下文支配的表示。对于IC15,0.9%的改善相对较小,因为图像质量较差,如图6所示。当遇到严重遮挡或失真的图像时,模型无法根据每个字符的对应像素进行区分。在这种情况下,应该采用上下文信息来推断目标字符。对于词汇表中的数据,我们仍然可以观察到显著的性能改进。与IC13、SVT、IIIT、IC15、SVTP和CATE相比,ConCLR分别提高了1.2%、2%、0.1%、2.8%、2.8%和1.6%。这表明ConCLR带来的好处是普遍的,而且不仅限于词汇表外的数据。

图6 7个基准的图像样本 
表1也显示了每个模块的效果分析。仅通过结合ConAug数据增强技术,我们可以观察到未见数据的显著改善。此外,这也超过了基于SEW数据的基线。这表明,我们可以通过简单地使语境多样化来减少对特定语境的过度拟合,并改善词汇表外的泛化。此外,对比学习范式指导模型根据这些不同的语境更好地平衡不同特征的表征,这对看得见和看不见的文本都带来了更大的改善。 
学习表示的优越性
文章在OutText中对五个字符的嵌入进行了抽样,并使用tSNE将其尺寸缩小到两个。正如我们所观察到的,与从基线基于注意力的识别器学习的特征相比,从ConCLR学习的特征更好地聚类,证明了学习表示的优越性。

图7 ConCLR和基线并行注意力解码器的嵌入式可视化。我们从OutText中随机选择五个字符,例如‘g’、‘h’、‘y’、‘p’和‘f’,并使用tSNE可视化它们对应的所有嵌入。 
字长分析
由于ConAug增加了训练数据的平均长度,文章还计算了OutText上不同字长的准确率,如图8所示。对于长度大于8的单词,ConCLR在训练过程中受益于更广泛的字长分布而具有压倒性的优势。对于较小长度的单词,ConCLR在平均准确率上也具有优势,这表明ConCLR引导模型学习更具代表性的不同长度单词的嵌入,而不是过度拟合较长的单词。 
与现有技术的比较
文章还采用了与(Fang et al.2021[6])相同的语言模型(LM)。在相同的实验设置之后,文章首先使用ConCLR预训练视觉模型(ABINet视觉),然后使用LM进行微调。为了公平比较,文章重新实现了ABINet,结果如表3所示。正如我们所看到的,文章的方法实现了最好的性能,IIIT,SVT,IC15,SVTP和CUTE分别提高了0.8%,0.4%,0.5%,0.8%和3.8%。特别是对于包含词汇外文本的基准,例如IIIT和CUTE,ConCLR显示出其突出的优势。对于不包含看不见的文本的基准,ConCLR也取得了相当大的进步,证明了学习功能的好处是普遍的。 
表2 IIIT5K、IC13、SVT、IC15、SVTP和CUTE数据集的结果。†是文章的重新实现。

ConAug的有效性
数据增强在对比学习框架中起着至关重要的作用。为了探索其有效性,文章设计了三种级联模式:SingleCat,对于每个输入批次,我们只置换一次,并在一个随机侧将该置换批次连接到原始批次,然后计算级联批次和原始批次的对比损失;FixCat,对于每个输入,文章置换两次,并在一个固定侧将这两个置换批次连接到原始批次;RandCat,对于每个输入批次,文章排列两次,并在一个随机侧将这两个批次连接到原始批次。结果如表3所示。文章可以得出两个结论:1。将SingleCat与RandomCAT进行比较,我们可以观察到IIIT,IC15和OutText上看不见的数据分别提高1.3%,0.6%和1.4%。与更多图像连接产生更多样化的上下文和负样本进行对比,这有利于对比学习框架;2.比较 FixCat 和 RandCat,我们可以观察到看到和看不见的文本略有改善。这表明位置信息也是上下文信息,我们不仅应该更改连接的字符,还应该更改它们的位置。
表3 ConAug的消融研究。对于IC13-CUTE,上限值代表词汇内准确度,下限值代表词汇外准确度。在VG中,我们计算了六个公共数据集的总体平均精度。NA表示基准中没有词汇表外的图像。

投影头消融研究
文章考虑三种设置:1.恒等映射;2.非线性投影头,文章使用512×256FC层,256×512 FC层和中间的RELU激活;3.线性投影头,文章使用一个维度为512×512的全连接(FC)层。如表5所示,当使用恒等映射作为投影头时,与仅使用ConAug表1的设置相比,对比损失略微降低了性能,这表明直接对比来自Backbone的嵌入并不会带来有益的表示。此外,与恒等映射相比,使用非线性或线性投影都有显著的改善,这表明文章应该将嵌入映射到另一个空间进行对比。此外,通过比较非线性投影和线性投影的结果,我们可以发现线性投影具有一定的优势,文章推测非线性投影可能过度修改了原始嵌入,削弱了对比学习的效果。
表4 投影头的消融研究。对于IC13CUTE,上限值代表词汇内准确度,下限值代表词汇外准确度。在VG中,我们计算了六个公共数据集的总体平均精度。NA表示基准中没有词汇表外的图像。


四、总结及讨论



文章为 STR 提供了一种新的对比学习范式,其中使用来自不同语义上下文的嵌入而不是视觉增强来进行对比。其次,基于这种范式,文章提出了一个框架 ConCLR,它建立在现有的基于注意力的场景文本识别器上,以提高它们对看不见的文本的泛化能力。第三,文章合成了一个词汇外基准 OutText,以更好地揭示模型对看不见的文本的泛化。第四,广泛的实验结果证明了文章提出的方法的有效性。ConCLR 显著提高了未见文本的准确性,并在公共基准测试中实现了最好的性能,其中大部分文本都在训练阶段可见。 

参考文献



[1] Biten, A. F.; Tito, R.; Mafla, A.; Gomez, L.; Rusinol, M.;Valveny, E.; Jawahar, C.; and Karatzas, D. 2019. Scene text visual question answering. InIEEE Conference on Computer Vision and Pattern Recognition (CVPR).

[2] Yu, H.; Huang, Y .; Pi, L.; Zhang, C.; Li, X.; and Wang, L.2021. End-to-end video text detection with online tracking.Pattern Recognition.

[3] Gomez, L.; Mafla, A.; Rusinol, M.; and Karatzas, D. 2018.Single shot scene text retrieval. In European Conference on Computer Vision (ECCV).

[4] Jaderberg, M.; Simonyan, K.; V edaldi, A.; and Zisserman, A. 2014. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition. InWorkshop on Deep Learning, Annual Conference on Neural Information Processing Systems (NIPS).

[5] Wang, K.; Babenko, B.; and Belongie, S. 2011. End-to-end scene text recognition. InIEEE International Conference on Computer Vision (ICCV).

[6] Fang, S.; Xie, H.; Wang, Y .; Mao, Z.; and Zhang, Y . 2021.Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

[7] Yu, D.; Li, X.; Zhang, C.; Liu, T.; Han, J.; Liu, J.; and Ding, E. 2020. Towards accurate scene text recognition with semantic reasoning networks. InIEEE Conference on Computer Vision and Pattern Recognition (CVPR), 12113–12122.

[8] Yue, X.; Kuang, Z.; Lin, C.; Sun, H.; and Zhang, W. 2020. Robustscanner: Dynamically enhancing positional clues for robust text recognition. InEuropean Conference on Computer Vision (ECCV).

[9] Li, H.; Wang, P .; Shen, C.; and Zhang, G. 2019. Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition. InAAAI Conference on Artificial Intelligence.

[10] Lyu, P .; Y ang, Z.; Leng, X.; Wu, X.; Li, R.; and Shen, X. 2019. 2D Attentional Irregular Scene Text Recognizer. arXiv:1906.05708.

[11] Qiao, Z.; Zhou, Y .; Y ang, D.; Zhou, Y .; and Wang, W. 2020. SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

[12] Mishra, A.; Alahari, K.; and Jawahar, C. 2012. Scene text recognition using higher order language priors. In British Machine Vision Conference (BMVC).

[13] Phan, T. Q.; Shivakumara, P .; Tian, S.; and Tan, C. L. 2013. Recognizing text with perspective distortion in natural scenes. In IEEE International Conference on Computer Vision (ICCV).

[14] Risnumawan, A.; Shivakumara, P .; Chan, C. S.; and Tan, C. L. 2014. A robust arbitrary text detection system for natural scene images.Expert Systems with Applications

[15] Karatzas, D.; Shafait, F.; Uchida, S.; Iwamura, M.; i Bigorda, L. G.; Mestre, S. R.; Mas, J.; Mota, D. F.; Almazan, J. A.; and De Las Heras, L. P . 2013. ICDAR 2013 robust reading competition. In International Conference on Document Analysis and Recognition.

[16] Bahdanau, D.; Cho, K.; and Bengio, Y . 2015. Neural machine translation by jointly learning to align and translate.International Conference on Learning Representations (ICLR).

[17] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, L. u.; and Polosukhin, I. 2017. Attention is All you Need. In Annual Conference on Neural Information Processing Systems (NeurIPS).

[18] Karatzas, D.; Gomez-Bigorda, L.; Nicolaou, A.; Ghosh, S.; Bagdanov, A.; Iwamura, M.; Matas, J.; Neumann, L.; Chandrasekhar, V . R.; Lu, S.; et al. 2015. ICDAR 2015 competition on robust reading. In 13th International Conference on Document Analysis and Recognition (ICDAR).

[19] Wan, Z.; Zhang, J.; Zhang, L.; Luo, J.; and Y ao, C. 2020. On Vocabulary Reliance in Scene Text Recognition. In IEEE Conference on Computer Vision and Pattern Recognition(CVPR).

[20] Gupta, A.; V edaldi, A.; and Zisserman, A. 2016. Synthetic data for text localisation in natural images. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

 


原文作者: Xinyun Zhang, Binwu Zhu, Xufeng Yao, Qi Sun, Ruiyu Li, Bei Yu


撰稿:黄宇浩

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:




文章有问题?点此查看未经处理的缓存