查看原文
其他

论文推荐|[IJCAI 2021] MatchVIE: 一个基于命名实体匹配相关性的视觉信息抽取学习框架

唐国志 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍被IJCAI 2021录取的论文“MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction”的主要工作。传统视觉信息抽取(VIE)框架通常采用一种序列标注方法或是文本分类方法,其通过引入多模态特征,如字体,颜色,版面布局等信息来对实体做细腻度的区分。但是数字语义类别或者模棱两可的语义信息通过简单引入多种模态特征并不得到能够很好地区分。为了解决这个问题,该文提出一种基于图神经网络的新颖实体关联性匹配模型。

一、研究背景



视觉信息提取 (VIE) 旨在从文档图像(发票、购买收据、身份证等)而不是纯文本中提取关键信息。VIE 任务的特殊性为信息抽取任务带来了一些额外的困难。首先,文档通常具有不同的布局,即使对于相同类型的文档(例如,来自不同供应商的发票),布局也有很大差异。此外,视觉富文档图像中可能包含多个相似但属性不相同的文本(例如,签发日期和到期日期)。因此,如何有效地利用语义特征和视觉特征提高模型对于信息抽取的鲁棒性成为近期研究的重点。因此,一些方法尝试将语义特征与文本的位置,图像等特征融合以进一步提高性能。以前的大多数方法都局限于序列标记或直接分类方法,这就需要模型在面对众多语义类别或一些含糊不清的文本时需要仔细地为每个实体分配相应的标签。 

Figure 1 The entity categories of the blue text segments (value) can be identified according to the semantics of connected red text segments (key). The entity categories of the yellow text segments can be identified according themselves semantics.

实际上,如文献[1]验证了视觉丰富的文档中实体之间的布局信息对判断实体之间的属性起着至关重要的作用。如Fig.1所示,蓝色文本段(值)的实体类别可以根据红色文本段(键)的语义确定。相比于序列标注或是纯分类的方法,本文发现研究键和值之间的相关性可能是 VIE 的另一种有效解决方案,基于以下观察和考虑:(1)文档图像中的文本通常以键值对的形式出现。如果能找到该值对应的键,自然可以根据键的语义来确定该值的属性。(2) 一个文档图像中可能有多个相似的文本(例如,注册日期和金额数字等),这些实体对应的键可以帮助模型更好地区分它们。(3) 考虑键和值之间的相关性可以显著地简化模型的学习过程并绕过对相似语义的序列标注。(4) 对于一些独立的实体,也就是不构成键值对的实体,它们很容易通过其自身的语义确定它的实体属性。这也是这些文本可以单独出现在文档图像中的原因。 

Figure 2  Overall framework of MatchVIE. The relevancy evaluation branch predicts the key-value relationship between entities. The entity recognition branch mainly determines the categories of standalone entities. The entity recognition branch is difficult to distinguish numeric categories which are similar in visual and semantic, such as the ‘4.90’ in purple.

二、方法简述



为了解决上述提到的问题,本文提出了一种称为MatchVIE 框架。如Fig. 2 所示,它分别由一个多模态特征提取主干网和两个特定分支(相关性评估分支, 实体识别分支)组成。多模态特征提取主干网结合位置、图像和语义等嵌入信息。随后,相关性评估分支基于图模块对文档的整体布局信息进行建模并获得键值匹配概率。同时,为了解决独立文本段的序列标签识别问题,作者设计了一个实体识别分支。

本文在多模态特征提取主干网中尝试提取丰富的模态特征,例如语义,位置和视觉特征。在视觉特征部分,与一些方法从预先裁剪出的文本块图像中提取视觉特征不同,本文方法先将整图送入ResNet主干网,随后采用ROI-Align提取文本段的坐标区域对应的特征图。 

这样的好处在于保留了全局的特征信息。随后,针对提取的多模态特征,引入自注意力机制对多模态特征做特征融合。 

为了表示实体之间的相关性,文本段之间的位置关系是一个重要的推理线索。因此本文构建了一个文档图结构,意味着,每个文本段作为一个单个节点,初始的节点特征提取每个文本段中所有字符的多模态特征得到。而文本段之间的相对位置关系反映的是图网络中边的特征。以往的方法,在量化节点之间的相对位置关系的时候通常采用如下的表征方法。 

然而,本文发现由于不同文本段之间的距离和形状的变化多样,这就会导致编码的数值非常不稳定。为了解决这个问题,本文采用一种简单而有效的操作,即 Num2Vec 来处理每个值。如Fig. 2 所示,对于每一个数值,本文采用一个固定长度的8位数组来保存每个数字。数组的前半部分对应于整数部分,其余部分对应于小数部分。然后,将这些数字按因子 0.1 进行缩放。这样就保证了编码值被限制在[-0.9,+0.9]的范围内,可以有效地减小数据的波动范围。

在 GNN 中特征更新的过程中,遵循文献[2]采用的方法,其定义了一个三元组 (节点-边-节点) 的形式用于特征更新。三元组特征由一个可学习的权重进行线性变换,生成一个中间特征向量,进行特征更新。

假设有N个节点,则所有文本段的相关性匹配矩阵可以枚举为N×N。而任意两个文本段之间的匹配关系可以建模成二值分类任务。如果两个文本段之间构成键-值关系,则用1表示。此外,由于N×N矩阵中正样本的数量是比较稀少的。为了处理这个问题,本文对相关性评估的损失函数采用Focal Loss[3]: 

同时为了解决独立实体的属性区分问题,本文还设计了一个实体识别分支。这个分支将字符级别的多模态编码特征采用经典的序列标注方法,结合CRF来约束实体的句法关系。

模型在训练的时候,对相关性评估分支和实体识别分支的损失函数进行联合优化。在前向推理的时候,优先采用相关性评估分支的输出,对于一些不构成匹配关系的实体,视其为独立类别,采用实体识别分支分支的输出作为最终结果。此外,对于存在实体关联性的键值对,其实体属性的确定方式有两种方式,第一种方式是穷举每个实体属性中键所有可能存在的文本形式,将其构建为一个查找表。第二种方式是学习每个实体属性中键的文本的语义属性,将特征最接近的类别作为该键值对的类别。 

三、实验结果



Table 1  Ablation study (F1-score) of the proposed model on the three datasets. 

如Table 1所示,作者设置了消融实验分析了MatchVIE中各个组件的影响,包括Focal Loss、K-V匹配、Num2Vec。模型逐渐去掉这三个模块,分别测试了模型精度的变化情况。可以发现,不采用Focal Loss损失函数,相关性评估分支无法有效克服匹配矩阵非常稀疏的问题。可以看出,相关性评估分支(K-V 匹配)可以大幅度提高准确率。为了进一步验证相关性评估分支的有效性,本文分别给出了是否结合相关性评估分支模型的预测结果。当相关性评估分支模型去除以后,模型变成了结合多模态信息的纯序列标注方法。可以看到基于序列标注的方法由于预先需要按照从左到右,从上到下的顺序预先组织文本的顺序,其过度依赖于预先定义好的先后顺序,并不能很好的处理这种多模态特征比较接近的数字语义类别。而本文提出的方法通过引入命名实体之间的相关性来有效区分这些类别。 

Figure 3  Comparison between the prediction results of MatchVIE  (bottom row) and sequence labeling methods (top row). Red blocks: value, blue blocks: key, red font: error prediction, green line depth: matching confifidence level.

此外,在使用 Num2Vec后,模型可以获得更稳定的结果,并具有额外的精度改进。此外,本文收集训练损失函数并绘制了损失曲线。从Fig. 4 可以看出,Num2Vec 可以帮助模型更平滑地收敛。 

Figure 4  The yellow polyline indicates loss without Num2Vec and the blue polyline indicates the loss with Num2Vec. It can be seen from that using Num2Vec can make training converge smoothly.

本文还尝试了两种方式来将一个键映射到某个类别, 两种方式的对比结果如Table 2 所示。一个是穷举每个类别所有可能键的文本值(例如,类别“Total”的键的查找表可以是“Total Sales”、“Total”、“Total Amount”、“Total (RM)”) ,另一个是基于特征的相似性。 

Table 2  Two methods of mapping keys to certain categories. 

作者将本文提出的MatchVIE方法和之前的主流方法进行对比,结果如Table 3所示。可以看到, MatchVIE方法绕过对各种语义的识别而只关注实体之间的强相关性,从而取得了不错的结果,特别针对一些实体本身不具备语义信息或是语义信息存在歧义性的实体类别,例如数字,日期等。通过实体相关性的引入,这些类别的属性得到了很好地区分。

Table 3  Experiment results on EPHOIE datasets. Standard F1-score (F1) are employed as evaluation metrics. NO: Number, STU:Student, EXAM: Examination. 

四、总结及讨论



本文提出了一个基于实体强相关性的视觉富文档信息抽取方法,它包含1)一种高效的多模态特征提取主干网;2)基于实体相关性的评估模块;3)针对独立实体区分的序列标注模块。该方法针对现有的序列标注方法或是分类方法无法有效处理数字类别或是存在语义歧义性实体的问题,进行了充分合理的改进。该方法避开了像常规方法那样采用序列标注方法或是分类的方法来直接处理一些不具备语义信息或是语义存在歧义性的实体,而是简单地关注于实体之间的强关联性。本文提出的方法在多个数据集上都取得了不错的性能,这也充分验证了该方法的有效性。

五、相关资源



论文地址:https://arxiv.org/abs/2106.12940

参考文献



[1] Cheng, Mengli, Minghui Qiu, Xing Shi, Jun Huang, and Wei Lin. "One-shot Text Field Labeling using Attention and Belief Propagation for Structure Information Extraction." In ACMmm, pp. 340-348. 2020.

[2] Xiaojing Liu, Feiyu Gao, Qiong Zhang, and Huasha Zhao. Graph convolution for multimodal information extraction from visually rich documents. In NAACL, pages 32–39, 2019.

[3] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar. Focal loss for dense object  detection. In ICCV, pages 2980–2988, 2017.

[4] Yujie Qian, Enrico Santus, Zhijing Jin, Jiang Guo, and Regina Barzilay. GraphIE: A graph-based framework for information extraction. In NAACL, 2019.

[5] Anoop Raveendra Katti, Christian Reis- swig, and Guder. Chargrid: Towards understanding 2d documents. In EMNLP, pages 4459–4469, 2018.


原文作者:Guozhi Tang* , Lele Xie*, Lianwen Jin† , Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu and Hui Li


撰稿:唐国志编排:高  学审校:殷  飞发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存