图1 不同场景文本识别pipeline的对比。(a)仅视觉模型。(b)视觉模型和语言模型。(c)加入与语言模型并行堆叠的GTR。
一、研究背景
二、方法原理简述
整体结构
子图的构建
图3 子图的构建过程
动态融合
上下文一致性
为了防止S-GTR过度依赖于语义上下文以及空间上下文中的一种,和避免两种上下文不一致从而造成不确定的识别结果,本文提出一种共同学习策略,即将语言模型的预测L和GTR的预测S的KL散度作为损失函数的一部分。
三、主要实验结果
表1 和SOTA方法的比较
表2 各模块消融实验
表3 不同融合方式的比较
表4 不同模型在MLT-17中的表现
如表4所示,作者在多语言数据集MLT-17中对比了各个模型的效果。除了识别准确率外,作者还对比了归一化编辑距离(NED)这个指标。可以看出,即使是在多语言数据集中,GTR依然是有效的。
四、总结及讨论
这篇文章提出要基于视觉语义进行文本推理,并基于这个观点设计了基于图的文本推理模块GTR。GTR可以简单地插入现有的场景文本识别模型中,作为语言模型的补充或单独发挥作用。同时,作者将基于分割的视觉模型、语言模型和GTR进行组合,得到S-GTR模型。实验表明,加入GTR能够显著提升识别准确率,并且S-GTR能够在多个测试集上取得SOTA。这篇文章给文本推理提供了一个新的思路,并且验证了其有效性。
五、相关资源
本文地址:https://arxiv.org/pdf/2112.12916.pdf
参考文献
[1]Yang X, He D, Zhou Z, et al. Learning to read irregular text with attention mechanisms[C]//IJCAI. 2017, 1(2): 3.
[2]Shi B, Yang M, Wang X, et al. ASTER: An attentional scene text recognizer with flexible rectification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(9): 2035-2048.
[3]Liao M, Zhang J, Wan Z, et al. Scene text recognition from two-dimensional perspective[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 8714-8721.
[4]Wan Z, He M, Chen H, et al. Textscanner: Reading characters in order for robust scene text recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 12120-12127.
[5]Qiao Z, Zhou Y, Yang D, et al. Seed: Semantics enhanced encoder-decoder framework for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13528-13537.
[6]Yu D, Li X, Zhang C, et al. Towards accurate scene text recognition with semantic reasoning networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12113-12122.
[7]Fang S, Xie H, Wang Y, et al. Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.
原文作者:Yue He, Chen Chen, Jing Zhang, Juhua Liu*, Fengxiang He, Chaoyue Wang, Bo Du*
撰稿:李鸿亮
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾