查看原文
其他

[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法

本文简要介绍ACL 2022录用论文“FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extraction”的主要工作。该论文主要针对表单文档信息抽取问题,提出了一种加入GCN并改进Transformer的网络,GCN接在Transformer之前,同时引入Rich Attention机制调整Transformer中的注意力分数更好地获取了文档的结构信息。实验结果表明该网络使用更少的预训练数据和以更少的网络参数在表单类信息抽取数据集中取得了更好的效果。  

图1 加入两种方法的效果图

一、研究背景



表格类文档的理解是一个越来越受到广泛关注的研究课题,它自动提取和组织有价值的文本数据,能实际应用于如抽取各类表单、广告和收据的信息过程中。理解自然语言表示的典型文档、文章或互联网中的内容已经得到广泛研究。然而,类似于表格的文档往往具有更复杂布局,包含结构化对象如表格和列。因此,与自然语言文档相比,表单类文档因其结构特征是一项具有独特挑战的课题,目前还没有进行充分探索。
随着序列化建模在自然语言理解任务中取得成功,这种方法也被广泛应用于文档理解领域。首先将表单文档序列化,然后将最先进的序列模型应用于其中,[1]采用Seq2seq with RNN,[2]采用Transformer。同时也有许多工作[3][4]关注文档的版面结构信息。然而这些工作在处理表单这种高度结构化的文档时依然无法取得足够好的效果。 

图2 表单类文档版面结构复杂

二、方法原理简述



图3 网络整体框架图
图3是这篇文章提出的FormNet的整体结构,网络对于传统方法的改进有两点,一是使用图卷积网络GCN建模文档结构信息,二是改进Transformer,使用ETC[5](采用全局-局部注意力机制的Transformer),在处理长序列建模任务时有效降低了模型的计算复杂度,并加入Rich Attention,计算注意力分数时加上相关惩罚偏置,使注意力更好地关注到文档中结构相关部分。
图卷积网络GCN部分首先使用β骨架图生成方法(β=1)对Token化后文档生成连通图,如图4所示,这种灵活且有效的连接有利于后续对文档结构信息的获取。接着生成节点和边后送入12层图卷积网络GCN,得到节点特征送入后续网络进一步建模。
ETC部分在Transformer的基础上改进注意力计算,采用全局-局部注意力机制,计算注意力时对于当前Token仅有序列中在距离r半径内的其他Token会计算注意力,较远Token对当前Token完全不可见。同时本文为注意力分数计算设计了一个引入与Token顺序和距离关系相关惩罚偏置的方法Rich Attention,进一步限制了注意力的计算,使网络更关注Token的序列关系,也即更好地获取了文档结构信息,Rich Attention结构如图5所示,对注意力分数的限制可视化如图6所示。

网络采用常用的预训练任务Masked Language Model(MLM),随机掩码恢复Token任务,进行预训练。使用相对于主流预训练模型(11M)显著较少的预训练数据(9M)即可在微调后在下游任务中达到SOTA,如图7所示。

三、主要实验结果及可视化结果



图4 β骨架图效果

 

图5 Rich Attention结构图 

图6 Rich Attention效果图 

图7 各模型参数效果CORD数据集对比图

表1 各数据集各模型对比结果 

表2 两模块消融实验 

本文在三个表单类信息抽取数据集上测试了方法的效果,如上图表所示。图4图6分别可视化展示了图卷积网络和Rich Attention的效果,在表2中进一步消融实验证明了二者的作用。图7对比了各模型参数和在CORD数据集上的效果,FormNet实现了模型参数量和模型效果的最优平衡。表1还分析对比了各预训练方法的预训练数据大小,证明了本文提出方法在少量预训练数据下的优越性。

四、总结及讨论



结合GCN,改进Transformer,本文构建了一个能提取结构特征,更适合于结构化表单文档的网络模型,相比于先前SOTA模型,模型参数量更小,需求预训练数据更少,在不进行预训练的情况下,模型也能达到不错的效果。同时Rich Attention机制能辅助注意力计算更加关注Token序列相关信息。本文这种针对表单文档场景,引入更好的归纳偏置改进模型的方法同样值得关注。

五、相关资源



  • 论文地址: https://arxiv.org/abs/2203.08411

参考文献



[1] Rasmus Berg Palm, Ole Winther, and Florian Laws.2017. Cloudscan-a configuration-free invoice analysis system using recurrent neural networks. In ICDAR.
[2] Wonseok Hwang, Seonghyeon Kim, Minjoon Seo, Jinyeong Yim, Seunghyun Park, Sungrae Park, Junyeop Lee, Bado Lee, and Hwalsuk Lee. 2019. Post-OCR parsing: building simple and robust parser via bio tagging. In Workshop on Document Intelligence at NeurIPS 2019.
[3] Xiaohui Zhao, Endi Niu, Zhuo Wu, and Xiaoguang Wang. 2019. Cutie: Learning to understand documents with convolutional universal text information extractor. In ICDAR.
[4] Carlos Soto and Shinjae Yoo. 2019. Visual detection with context for document layout analysis. In EMNLP-IJCNLP.
[5] Joshua Ainslie, Santiago Ontañón, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, and Li Yang. 2020. Etc: Encoding long and structured data in transformers. In EMNLP.


原文作者:Chen-Yu Lee, Chun-Liang Li, Timothy Dozat, Vincent Perot, Guolong Su, Nan Hua, Joshua Ainslie, Renshen Wang, Yasuhisa Fujii, Tomas Pfister


撰稿:李 腾

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾





欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存