[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)
图1 不同场景文本识别pipeline的对比。(a)仅视觉模型。(b)视觉模型和语言模型。(c)加入与语言模型并行堆叠的GTR。
一、研究背景
二、方法原理简述
整体结构
子图的构建
图3 子图的构建过程
动态融合
上下文一致性
为了防止S-GTR过度依赖于语义上下文以及空间上下文中的一种,和避免两种上下文不一致从而造成不确定的识别结果,本文提出一种共同学习策略,即将语言模型的预测L和GTR的预测S的KL散度作为损失函数的一部分。
三、主要实验结果
表1 和SOTA方法的比较
表2 各模块消融实验
表3 不同融合方式的比较
表4 不同模型在MLT-17中的表现
如表4所示,作者在多语言数据集MLT-17中对比了各个模型的效果。除了识别准确率外,作者还对比了归一化编辑距离(NED)这个指标。可以看出,即使是在多语言数据集中,GTR依然是有效的。
四、总结及讨论
这篇文章提出要基于视觉语义进行文本推理,并基于这个观点设计了基于图的文本推理模块GTR。GTR可以简单地插入现有的场景文本识别模型中,作为语言模型的补充或单独发挥作用。同时,作者将基于分割的视觉模型、语言模型和GTR进行组合,得到S-GTR模型。实验表明,加入GTR能够显著提升识别准确率,并且S-GTR能够在多个测试集上取得SOTA。这篇文章给文本推理提供了一个新的思路,并且验证了其有效性。
五、相关资源
本文地址:https://arxiv.org/pdf/2112.12916.pdf
参考文献
[1]Yang X, He D, Zhou Z, et al. Learning to read irregular text with attention mechanisms[C]//IJCAI. 2017, 1(2): 3.
[2]Shi B, Yang M, Wang X, et al. ASTER: An attentional scene text recognizer with flexible rectification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(9): 2035-2048.
[3]Liao M, Zhang J, Wan Z, et al. Scene text recognition from two-dimensional perspective[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 8714-8721.
[4]Wan Z, He M, Chen H, et al. Textscanner: Reading characters in order for robust scene text recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 12120-12127.
[5]Qiao Z, Zhou Y, Yang D, et al. Seed: Semantics enhanced encoder-decoder framework for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13528-13537.
[6]Yu D, Li X, Zhang C, et al. Towards accurate scene text recognition with semantic reasoning networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12113-12122.
[7]Fang S, Xie H, Wang Y, et al. Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.
原文作者:Yue He, Chen Chen, Jing Zhang, Juhua Liu*, Fengxiang He, Chaoyue Wang, Bo Du*
撰稿:李鸿亮
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型
[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)
[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法
[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别(有源码)
[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别(有源码)
[ACM MM 2021]显示、阅读和推理:基于灵活上下文聚合器的表格结构识别
[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法
论文推荐|[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)
[TNNLS 2022] SLOGAN——多样化手写体图像生成
[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: