查看原文
其他

论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法

晋赞霞 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍T-MM 2021录用的论文“RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering”的主要工作。该论文提出了一个以文本为中心的文本视觉问答模型,该模型将不同的模态映射到同一特征空间中,根据其位置构建场景文本上下文,从而引入机器阅读理解模型进行场景理解,并提出分别基于语义和位置的文本和对象之间的关系推理。在答案预测阶段,该模型分别通过文本语义匹配和语义推理从场景文本和外部文本中预测答案。

一、研究背景



作为人类认识世界的重要途径,视觉和语言是人类与外界互动过程中的主要信息渠道。视觉与语言是一个跨学科领域,包括计算机视觉 (CV) 和自然语言处理 (NLP)。它致力于让计算机像人类一样通过“眼睛”和“耳朵”观察、理解和探索世界。它在人机交互、机器人、虚拟现实、自动驾驶等许多领域都有非常重要的应用。基于文本的视觉问答(Text-based VQA)是其中的关键应用之一,旨在帮助计算机基于对视觉和语言信息的全面理解,自动回答与图像场景文本有关的自然语言问题。但是当前的文本视觉问答方法存在以下问题:1)缺乏对图片中场景文本的阅读理解;2)忽略了场景文本和目标属性之间的关系;3)在答案预测阶段,更倾向于固定答案池的分类,而缺乏语义匹配和语义推理。

二、方法原理简述



  图1 模型整体框架

图1 是文章提出的模型的整体框架,该模型包含三个模块:(1)阅读模块——通过场景文本检测识别模型来提取图片中的场景文本,通过目标检测识别模型识别图片中的物体及其相应的属性;(2)理解模块——用来理解自然语言描述的问题、图像中的文本和目标所传达的信息。该模块通过阅读理解模型学习场景文本和目标的上下文信息,并提出分别基于语义注意力机制和位置注意力机制的文本和目标之间的关系推理;(3)回答组件——通过语义匹配和语义推理,从场景文本以及外部文本中预测当前问题的答案。

注意力机制:
语义注意力机制是为了挖掘OCR 文本和物体之间的语义关系,例如产品和数字之间的价格关系。这里的注意力机制类似于词间注意力机制,词间注意力的输入是OCR 文本或目标和问题词的低层表示,语义注意力机制的输入是OCR 文本和物体的高层语义表示。具体公式为 

其中,分别是第i个OCR 文本和第j个物体的高层语义表示,Attn(⋅)为注意力机制。

位置注意力机制是为了挖掘OCR文本和物体之间的位置关系,以及由位置关系所可能带来的语义关系。比如对于问题“指示牌上写的什么”来说,如果不知道指示牌和OCR文本的相对位置关系,很难回答对这个问题。我们基于目标和OCR文本的位置向量和语义向量进行位置注意力计算。位置向量是基于相对边界框坐标的 8 维位置特征得到的,其定义为。最终位置注意力计算公式如下: 

其中,分别是第i个OCR文本和第j个物体的位置向量表示,是第j个物体的高级语义表示, Attn(⋅)为注意力机制。

最后每个OCR文本与所有物体Object的融合向量可表示为: 

答案预测:

通用的视觉问答问题一般把答案预测当作分类问题。直觉上,在基于文本的视觉文本问答任务中,如果没有引入答案本身的相关知识,而只是通过分类进行答案预测,这可能是有点不合适的。因此本模型把答案预测当作语义匹配和语义推理问题,这样就能在答案的表示中引入答案本身的相关信息。

答案预测模块用于计算每个候选答案是给定问题的答案的概率,其中每个候选答案可能是图像中的 OCR 文本或外部的文本。与其他方法使用固定答案池作为候选答案不同,本论文添加了由 QA 系统检索到的相关答案作为额外的候选答案。 

首先计算问题的最终表示向量:,其中是问题中第i个单词的最终表示向量,是要学习的参数向量。

接着第i个OCR文本是否是该问题的答案的匹配得分计算为:

其中是OCR文本的最终向量表示,是要学习的参数矩阵。

然而,还有一些问题不能直接由图像中的场景文本来回答,而是需要基于场景文本进行推断。具体来说,我们通过 GRU 将OCR文本得分融合到外部文本得分计算中。因此,答案是第j个外部文本的概率是: 

其中是第j个外部文本的特征向量,其和OCR文本的编码方式一致,是要学习的参数矩阵。最后,我们从所有候选答案中选择概率最高的文本作为给定问题的最终答案。这里采用二元交叉熵损失作为训练模型的目标函数。

三、主要实验结果及可视化效果



图2 每个候选答案中包含OCR Token的最大数对RUArt性能的影响

表1 RUArt在 ST-VQA Task 3数据集上的消融实验 

 

图3 RUArt和其他变体模型的定性比较实验

图4 RUArt和其他方法在ST-VQA Task 3测试集上的定性比较 

图5 COCO-Text子集上,不同准确率的OCR结果对RUArt*的性能影响

表2 ST-VQA数据集上的结果 
表3 TextVQA数据集上的结果 

四、总结及讨论



本文提出了一种基于文本的视觉问答框架(RUArt)。该方法将所有输入统一为纯文本,增强了不同输入的语义融合,使推理更具可解释性。此外,我们提出通过语义和位置注意力机制来探索场景文本和目标及其属性之间的关系。我们的方法在当前可用的数据集,即ST-VQA和TextVQA上取得了具有竞争力的性能。在未来的研究中,我们会将OCR文本修正作为子模块加入到我们的框架中,通过后续任务的训练得到更好的OCR文本修正结果。

五、相关资源



论文地址:
https://ieeexplore.ieee.org/document/9583957

参考文献



[1] A. Singh, V. Natarajan, M. Shah, Y. Jiang, X. Chen, D. Batra, D. Parikh, and M. Rohrbach, “Towards VQA models that can read,” in IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019. Computer Vision Foundation / IEEE, 2019, pp. 8317–8326.

[2] A. F. Biten, R. Tito, A. Mafla, L. Gomez, M. Rusinol, E. Valveny, C. Jawahar, and D. Karatzas, “Scene text visual question answering,” in IEEE/CVF International Conference on Computer Vision, ICCV 2019. IEEE, 2019, pp. 4290–4300.

[3] C. Zhu, M. Zeng, and X. Huang, “SDNet: contextualized attention-based deep network for conversational question answering,” arXiv preprint arXiv:1812.03593, 2018.

[4] R. Hu, A. Singh, T. Darrell, and M. Rohrbach, “Iterative answer prediction with pointer-augmented multimodal transformers for textvqa,” in IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020. IEEE, 2020, pp. 9989–9999. 

[5] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: an attentional scene text recognizer with flexible rectification,” IEEE transactions on pattern analysis and machine intelligence, vol. 41, no. 9, pp. 2035–2048, 2019.



原文作者: Zan-Xia Jin, Heran Wu, Chun Yang, Fang Zhou, Jingyan Qin, Lei Xiao, Xu-Cheng Yin


撰稿:晋赞霞

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存