从视觉丰富文档(VRD, Visually Rich Document)中提取结构化信息的技术最近广受关注。现有的大部分工作将上述任务分解为文本解析(Text Reading)和信息抽取(Information Extraction)两个子任务,且工作重点在于如何提升信息抽取的性能,忽略了两个任务间的关系。本文提出了一种端到端的信息结构化技术,来实现两个任务相互促进、相互增强的效果。作者来自海康威视,浙江大学。现有的VRD文档信息结构化技术框架对比如上图所示,其中(a)-(c)为级联方案,(d)为端到端方案。(a)-(c)均包含文本解析和信息抽取两个单独的模块,区别在于信息抽取模块所使用的信息不同。具体的,(a)使用序列化后的1D文本序列,通过命名体识别(NER)等NLP技术实现;(b)使用文本的位置信息(Position)和内容信息(Text),通过图卷积网络(GCN)来提取;(c)在文本位置、内容信息的基础上,引入了图片的深层视觉特征(Visual Features)。上述级联方案均关注如何提升信息抽取模块的性能,忽略了文本解析和信息抽取模块间的关系。本文提出的一种端到端的信息结构化技术框架TRIE如(d)所示,其打通了文本解析和信息抽取模块,实现两个模块相互促进的效果。具体的,前向时,文本解析模块提供的多模态视觉和文本特征进一步融合用于信息抽取;反向时,信息抽取模块的监督信息同样可以促进文本解析模块的优化。TRIE由三个部分组成,分别是文本解析模块(Text Reading)、多模态上下文模块(Multimodal Context Block)和信息抽取模块(Information Extraction)。具体实现中,检测子模块可以为任何单阶段或两阶段的检测算法,识别子模块采用的是基于Attention的识别算法[4]。在信息结构化任务中,文本的上下文提供了必要的信息将其与其他字段区分开。多模态上下文模块共提取两种互补的上下文信息,视觉上下文和文本上下文。其中:然后通过Self-attention技术来建模两两文本间关系,得到最终的文本上下文:
其中Q、K、V 为一个文档样本中所有文本的特征描述矩阵。
2.3 信息抽取模块
上下文特征和文本特征在信息抽取中必不可少,上下文特征(和)提供了用于区分各字段的必要信息,文本特征(,包含逐字符特征)则使得信息抽取可以在字符粒度上进行。故,在信息抽取模块中,首先自适应融合视觉和文本上下文,
其中和为可学习加权参数。然后,上下文特征与文本特征进行Concat,
经双向LSTM进一步刻画字符间关系后,得到逐字符属于各感兴趣字段的概率。
所提出的TRIE模型可以端到端进行训练,训练Loss为检测Loss 、识别Loss 和结构化Loss 的加权和:
检测和识别Loss在此不做赘述,结构化Loss 定义如下:
其中,为第个Text中第t个字符的IBO标定。
1.1 文本解析和信息抽取模块相互促进实验:
为了验证TRIE中文本解析和信息抽取两个模块相互促进的效果,本文做了两组消融实验:(a)文本解析→信息抽取:即文本解析模块对信息抽取模块的贡献。文本解析模块为文本提供视觉上下文特征、文本上下文特征和文本特征,该实验主要验证上述三种特征分别为信息抽取模块带来多大增益。从下表可以看出, 由于文本特征仅包含文本中逐字符的特征(缺失了版面等视觉信息),仅使用该特征的信息抽取模块的准确率最低;融入视觉上下文或文本上下文都可大幅提升准确率;综合利用三种特征取得了最佳效果。(b)信息抽取→文本解析:即信息抽取模块对文本解析模块的贡献。为了验证该贡献,我们使用同一信息抽取模型(GCN[3])来评价端到端训练(即信息抽取模块的监督可反传给文本解析模块)和单独训练文本解析模块的性能。从下表可以看出,端到端训练能够得到更高的准确率(即更好的检测识别结果)。为了验证文本上下文中Layer和Head的影响,本文分别在出租车票和简历两个场景进行了消融实验,从中可以看出,在相对简单的场景(如出租车票),浅层、少Head数即可取得较优的性能;在相对复杂的场景(如简历),则需要更多的层数。
本文分别在出租车票、购物小票(SROIE)和简历场景与现有的SOTA方法进行了对比,对比算法包括:
从下表可以看出,所提出的TRIE算法性能优于上述SOTA方法。
针对视觉丰富文档的结构化输出问题,本文提出一种端到端的信息结构化方法TRIE,打通了文本解析模块和信息抽取模块,实现了两个模块相互促进、相互增强的效果。一系列实验证明方法的有效性。未来,我们考虑将该方法进一步拓展至其他多模态文档理解领域。
论文地址:https://arxiv.org/pdf/2005.13118.pdf
团队主页:https://davar-lab.github.io/publication.html[1] Anoop R.Katti et al. Chargrid: Towards Understanding 2D Documents. EMNLP 2018.[2] Xuezhe Ma et al.End-to-end Sequence Labeling via Bidirectional LSTM-CNNs-CRF. ACL 2016.[3] Xiaojing Liu et al. Graph Convolution for Multimodal Information Extraction from Visually Rich Documents. NAACL-HLT 2019.[4] Baoguang Shi et al.An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition. IEEE TPAMI 2017.
原文作者:Peng Zhang,Yunlu Xu,Zhanzhan Cheng,Shiliang Pu,Jing Lu,Liang Qiao,Yi Niu,Fei Wu
撰稿:张 鹏编排:高 学审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。