论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
一、研究背景
作为人类认识世界的重要途径,视觉和语言是人类与外界互动过程中的主要信息渠道。视觉与语言是一个跨学科领域,包括计算机视觉 (CV) 和自然语言处理 (NLP)。它致力于让计算机像人类一样通过“眼睛”和“耳朵”观察、理解和探索世界。它在人机交互、机器人、虚拟现实、自动驾驶等许多领域都有非常重要的应用。基于文本的视觉问答(Text-based VQA)是其中的关键应用之一,旨在帮助计算机基于对视觉和语言信息的全面理解,自动回答与图像场景文本有关的自然语言问题。但是当前的文本视觉问答方法存在以下问题:1)缺乏对图片中场景文本的阅读理解;2)忽略了场景文本和目标属性之间的关系;3)在答案预测阶段,更倾向于固定答案池的分类,而缺乏语义匹配和语义推理。
二、方法原理简述
图1 模型整体框架
图1 是文章提出的模型的整体框架,该模型包含三个模块:(1)阅读模块——通过场景文本检测识别模型来提取图片中的场景文本,通过目标检测识别模型识别图片中的物体及其相应的属性;(2)理解模块——用来理解自然语言描述的问题、图像中的文本和目标所传达的信息。该模块通过阅读理解模型学习场景文本和目标的上下文信息,并提出分别基于语义注意力机制和位置注意力机制的文本和目标之间的关系推理;(3)回答组件——通过语义匹配和语义推理,从场景文本以及外部文本中预测当前问题的答案。
其中,
其中,
最后每个OCR文本与所有物体Object的融合向量可表示为:
答案预测:
通用的视觉问答问题一般把答案预测当作分类问题。直觉上,在基于文本的视觉文本问答任务中,如果没有引入答案本身的相关知识,而只是通过分类进行答案预测,这可能是有点不合适的。因此本模型把答案预测当作语义匹配和语义推理问题,这样就能在答案的表示中引入答案本身的相关信息。
答案预测模块用于计算每个候选答案是给定问题的答案的概率,其中每个候选答案可能是图像中的 OCR 文本或外部的文本。与其他方法使用固定答案池作为候选答案不同,本论文添加了由 QA 系统检索到的相关答案作为额外的候选答案。
首先计算问题的最终表示向量:
接着第i个OCR文本是否是该问题的答案的匹配得分计算为:
其中
然而,还有一些问题不能直接由图像中的场景文本来回答,而是需要基于场景文本进行推断。具体来说,我们通过 GRU 将OCR文本得分融合到外部文本得分计算中
三、主要实验结果及可视化效果
图2 每个候选答案中包含OCR Token的最大数对RUArt性能的影响
表1 RUArt在 ST-VQA Task 3数据集上的消融实验
图3 RUArt和其他变体模型的定性比较实验
图4 RUArt和其他方法在ST-VQA Task 3测试集上的定性比较
图5 COCO-Text子集上,不同准确率的OCR结果对RUArt*的性能影响
四、总结及讨论
本文提出了一种基于文本的视觉问答框架(RUArt)。该方法将所有输入统一为纯文本,增强了不同输入的语义融合,使推理更具可解释性。此外,我们提出通过语义和位置注意力机制来探索场景文本和目标及其属性之间的关系。我们的方法在当前可用的数据集,即ST-VQA和TextVQA上取得了具有竞争力的性能。在未来的研究中,我们会将OCR文本修正作为子模块加入到我们的框架中,通过后续任务的训练得到更好的OCR文本修正结果。
五、相关资源
参考文献
[1] A. Singh, V. Natarajan, M. Shah, Y. Jiang, X. Chen, D. Batra, D. Parikh, and M. Rohrbach, “Towards VQA models that can read,” in IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019. Computer Vision Foundation / IEEE, 2019, pp. 8317–8326.
[2] A. F. Biten, R. Tito, A. Mafla, L. Gomez, M. Rusinol, E. Valveny, C. Jawahar, and D. Karatzas, “Scene text visual question answering,” in IEEE/CVF International Conference on Computer Vision, ICCV 2019. IEEE, 2019, pp. 4290–4300.
[3] C. Zhu, M. Zeng, and X. Huang, “SDNet: contextualized attention-based deep network for conversational question answering,” arXiv preprint arXiv:1812.03593, 2018.
[4] R. Hu, A. Singh, T. Darrell, and M. Rohrbach, “Iterative answer prediction with pointer-augmented multimodal transformers for textvqa,” in IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020. IEEE, 2020, pp. 9989–9999.
[5] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: an attentional scene text recognizer with flexible rectification,” IEEE transactions on pattern analysis and machine intelligence, vol. 41, no. 9, pp. 2035–2048, 2019.
原文作者: Zan-Xia Jin, Heran Wu, Chun Yang, Fang Zhou, Jingyan Qin, Lei Xiao, Xu-Cheng Yin
撰稿:晋赞霞
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: