查看原文
其他

[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)

李鸿亮 CSIG文档图像分析与识别专委会 2022-07-11
本文简要介绍AAAI 2022录用论文“Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition”的主要工作。该论文为了更好地识别任意形状的场景文本,提出一个基于视觉语义的文本推理模块GTR,作为语言模型的补充。GTR可以接在各种主流的识别模型上,给识别准确率带来显著的提升。同时,本文将基于分割的识别模型、语言模型和GTR组合起来得到S-GTR。S-GTR在多个场景文本识别测试集上取得了新的SOTA效果。本文的代码已开源。

图1 不同场景文本识别pipeline的对比。(a)仅视觉模型。(b)视觉模型和语言模型。(c)加入与语言模型并行堆叠的GTR。

一、研究背景



场景文本识别作为计算机视觉一个基础且活跃的研究课题,有着广泛的应用。由于存在复杂的背景、不规则的文本形状和各式各样的纹理,在真实场景中应用场景文本识别模型仍然面临着挑战。
在早期,大部分工作将场景文本识别当成简单的视觉识别任务,对图片进行字符级的识别,包括基于注意力的方法[1-2]和基于分割的方法[3-4]。这些方法取得了不错的效果,但是它们忽略了全局文本表征,因此很难在真实场景中输出鲁棒的识别结果。
为了对全局文本进行建模,不少工作[5-7]利用语言模型来对视觉模型预测的字符序列的联合概率进行优化。尽管这种策略能够根据语义上下文来纠正一些错误的识别结果,但在一些复杂的情况下效果有限。作者认为除了语义上下文外,空间的上下文信息也有利于对字符间的关系进行建模,但现有的工作还没有对这种信息进行充分的挖掘。

二、方法原理简述



图2 S-GTR整体框架图

整体结构

如图2所示,S-GTR由基于分割的视觉模型、语言模型和GTR构成。给定一张输入图片,基于分割的视觉模型对其进行处理并输出分割图。其中,是字符的类别数。对分割图M进行解码得到初步的字符序列预测,然后语言模型对T进行处理得到。T为预先定义的字符序列的最大长度。
本文提出的GTR与语言模型并行堆叠,将分割图M作为输入。首先,GTR利用一个可学习的特征排序模块将转化为,V包含T个特征图。然后,每个特征图都会被构建成一个子图,按顺序连接各个子图得到完整的图。最后,用GCN对图进行编码得到空间上下文向量
得到视觉模型的预测T、语言模型的预测L和GTR的预测S后,通过动态融合模块将它们结合在一起,输出网络最终的识别结果。

子图的构建

图3 子图的构建过程

子图的构建包括节点特征的构建以及邻接矩阵的构建这两部分,如图3所示。中T个时间步对应的特征图会被分别构建成T个子图。在每个时间步中,特征图上最高概率的类别与视觉模型在该时间步的预测一致的特征点会被保留,每个保留的特性点都与一个子图的节点对应。这些特征点对应的坐标,y和特征向量分别经过三个不同的卷积层,与经过三角函数处理的特征图顺序拼接起来,得到节点特征。在邻接矩阵的构建中,每个节点只与距离最近的8个节点建立连接。距离的计算同时考虑节点在二维特征图上欧几里德距离和特征向量的余弦相似度。此外,子图所有节点的平均节点为该子图的根节点。

动态融合

本文对SRN[6]中的动态融合模块进行推广,用来对视觉模型的预测T、语言模型的预测L和GTR的预测S进行融合:
其中,为对应预测序列中第个字符的概率分布,是可学习参数,是融合模块输出序列中第i个字符的概率分布。

上下文一致性

为了防止S-GTR过度依赖于语义上下文以及空间上下文中的一种,和避免两种上下文不一致从而造成不确定的识别结果,本文提出一种共同学习策略,即将语言模型的预测L和GTR的预测S的KL散度作为损失函数的一部分。

三、主要实验结果



表1 和SOTA方法的比较

如表1所示,不管是将GTR接在基于CTC的识别模型、基于Attention的识别模型还是带有语言模型的识别模型中,都能给识别准确率带来显著的提升,并且推理速度没有受到很大的影响。此外,在用三个数据集训练时,本文提出的S-GTR在6个测试集上都达到了SOTA。

表2 各模块消融实验

如表2所示,语言模型和GTR都能显著地提升识别准确率,并且两个模块共同作用能取得更好的效果。

表3 不同融合方式的比较

在表3中,作者对比了不同融合方式的效果。其中,“Add”是指将各个模块的输出加起来,“Concat”是指将各个模块的输出拼接起来,而“D-fuse”则是动态融合。对比这3种融合方式在6个测试集中的识别准确率可以看出,动态融合相比于另外两种融合方式有着显著的优势。

表4 不同模型在MLT-17中的表现

如表4所示,作者在多语言数据集MLT-17中对比了各个模型的效果。除了识别准确率外,作者还对比了归一化编辑距离(NED)这个指标。可以看出,即使是在多语言数据集中,GTR依然是有效的。

四、总结及讨论



这篇文章提出要基于视觉语义进行文本推理,并基于这个观点设计了基于图的文本推理模块GTR。GTR可以简单地插入现有的场景文本识别模型中,作为语言模型的补充或单独发挥作用。同时,作者将基于分割的视觉模型、语言模型和GTR进行组合,得到S-GTR模型。实验表明,加入GTR能够显著提升识别准确率,并且S-GTR能够在多个测试集上取得SOTA。这篇文章给文本推理提供了一个新的思路,并且验证了其有效性。

五、相关资源



本文地址:https://arxiv.org/pdf/2112.12916.pdf

本文开源代码地址:https://github.com/adeline-cs/GTR

参考文献



[1]Yang X, He D, Zhou Z, et al. Learning to read irregular text with attention mechanisms[C]//IJCAI. 2017, 1(2): 3.

[2]Shi B, Yang M, Wang X, et al. ASTER: An attentional scene text recognizer with flexible rectification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(9): 2035-2048.

[3]Liao M, Zhang J, Wan Z, et al. Scene text recognition from two-dimensional perspective[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 8714-8721.

[4]Wan Z, He M, Chen H, et al. Textscanner: Reading characters in order for robust scene text recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 12120-12127.

[5]Qiao Z, Zhou Y, Yang D, et al. Seed: Semantics enhanced encoder-decoder framework for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13528-13537.

[6]Yu D, Li X, Zhang C, et al. Towards accurate scene text recognition with semantic reasoning networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12113-12122.

[7]Fang S, Xie H, Wang Y, et al. Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.



原文作者:Yue He, Chen Chen, Jing Zhang, Juhua Liu*, Fengxiang He, Chaoyue Wang, Bo Du*


撰稿:李鸿亮

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存