查看原文
其他

论文推荐| [ACL 2021] LayoutLMv2:视觉富文档理解的多模态预训练(有源码)

本文简要介绍ACL 2021年录用论文“LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding”的主要工作。该论文是2020年发表在KDD上的LayoutLM[1]的升级版。相比于LayoutLM,LayoutLMV2主要改进的地方是在预训练阶段加入了图像信息,使模型能够对文本,图像和布局信息进行联合建模,在此基础之上提出了两个全新的预训练任务——“文本—图像对齐”和“文本—图像匹配”。实验表明,LayoutLMv2在多个文档理解的任务中表现优异。

一、研究背景



视觉富文档的理解任务不仅仅依赖于文档中的文本信息,同时还会考虑更多的富文本图像和布局位置等信息。而传统的NLP预训练模型如BERT[2],在处理视觉富文档理解的下游任务的时候,往往是忽略了文档的布局和图像信息而只考虑了文档的语义信息。而LayoutLM就是第一个将文本内容和文档布局信息结合起来一起进行学习的通用预训练模型。 

图1 视觉富文档示例

二、LayoutLMv2原理简述



图2 LayoutLMv2的整体结构
图2是LayoutLMv2的整体结构。如图2所示,模型首先将文本、图像、布局三种模态的输入转换成向量表示,然后再交给编码器网络,最终输出的表示向量可以供下游任务使用。下面将从三种模态输入的向量表示以及编码器网络四个方面展开描述。 

图3 LayoutLMv2 三种模态的输入
如图3中所示,是文本向量的输入。文章使用 WordPiece 切分原始输入文本,之后添加 [CLS] 和 [SEP] 标记,并用 [PAD] 补齐长度得到文本输入序列,再将词向量、一维位置向量、分段向量(代表 [A] 或 [B])相加得到文本向量。是图像向量,文章将输入的图片按网格状均分,使用ResNeXt-FPN 网络提取每个区域的视觉特征,最终和一维位置向量、分段向量相加得到图像向量。表示布局向量,对应于每个词或图像区域在页面中覆盖的坐标范围,使用平行于坐标轴的边界框(Bounding Box)表示布局信息。LayoutLMv2沿用了一代的处理方式,用4个边界坐标值、宽、高来表示一个边界框。最终的布局向量由6个特征对应的向量拼接得到。
为了融合三种模态的输入,文章还对Transformer[3]中的提出的自注意力机制进行了改进,引入相对位置信息。 

图4 传统的Saelf-attention和文章改进的基于空间感知的Self-attention

如图2顶部所示,为了能够帮助模型更好的理解三种模态信息之间的对应关系。文章在保留一代的遮罩式视觉语言模型(Masked Visual-Language Model)预训练任务的基础上。新增加了两个预训练任务:文本—图像对齐(Text-Image Alignment)和文本—图像匹配(Text-Image Match)。文本-图像对齐,具体操作是在图像上随机遮盖一部分文本行但是保留文本信息,让模型在词级别上进行二分类,预测每个词在图像上是否被覆盖,作者认为这可以帮助模型对齐文本和图像的位置信息。文档—图像匹配,对于预训练阶段的文档数据,会随机地替换或舍弃一部分文档图像,进而构造出图文不匹配的负样本。模型在文档级别上进行二分类,预测图文是否匹配,以此来对齐文本和图像的内容信息。

三、主要实验结果及可视化效果



表1 FUNSD数据集上模型表现 

表2 CORD数据集上模型表现

表3 SROIE数据集上模型的表现 

表4 Kleister-NDA数据集上模型的表现 

表5 模型在RVL-CDIP数据集的分类效果 

表6 DocVQA数据集上模型的表现 

表7 模型在DocVQA数据集上的消融实验 

由表1、表2、表3、表4、表5、表6来看,文章所提的LayoutLMv2预训练模型在表单理解、票据理解、杂布局长文档理解和文档图像分类以及视觉问答等多个文档理解的下游任务任务上都取得了state-of-the-art的结果。表7是文章的消融实验,可以看到,各部分改进均显著提高了模型性能。整理来看,模型 ANLS 得分从68.41%提升到了74.21%,充分证明了LayoutLM v2 改进的有效性

四、总结及讨论



  1. LayouLMv2在一代的预训练模型的基础之上,提出了一个新的模型将图像的信息也加入到了预训练阶段。

  2. 文章对传统的Self-attention机制进行了改进,提出了一个基于空间感知的Self-attention机制

  3. 为了能够充分利用起多模态的输入,使模型能够理解不同模态信息之间的对应关系,文章新提出了两个预训练任务,文本—图像对齐(Text-Image Alignment)和文本—图像匹配(Text-Image Match)。

五、相关资源



  • LayoutLMv2论文地址:https://arxiv.org/abs/2012.14740

  • LayoutLMv2开源代码地址:https://aka.ms/layoutlmv2

  • LayoutLMv1论文地址:
    https://dl.acm.org/doi/abs/10.1145/3394486.3403172

  • LayoutLM开源代码和预训练模型下载:
    https://github.com/microsoft/unilm/tree/master/layoutlm

  • BERT论文地址:https://arxiv.org/abs/1810.04805

参考文献



[1] Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout for document image understanding[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200
[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 4171-4186.
[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. NIPS 2017

原文作者:Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou


撰稿:张 宁编排:高 学审校:殷 飞发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 

往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存