论文推荐| [ACL 2021] LayoutLMv2:视觉富文档理解的多模态预训练(有源码)
本文简要介绍ACL 2021年录用论文“LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding”的主要工作。该论文是2020年发表在KDD上的LayoutLM[1]的升级版。相比于LayoutLM,LayoutLMV2主要改进的地方是在预训练阶段加入了图像信息,使模型能够对文本,图像和布局信息进行联合建模,在此基础之上提出了两个全新的预训练任务——“文本—图像对齐”和“文本—图像匹配”。实验表明,LayoutLMv2在多个文档理解的任务中表现优异。
一、研究背景
图1 视觉富文档示例
二、LayoutLMv2原理简述
如图2顶部所示,为了能够帮助模型更好的理解三种模态信息之间的对应关系。文章在保留一代的遮罩式视觉语言模型(Masked Visual-Language Model)预训练任务的基础上。新增加了两个预训练任务:文本—图像对齐(Text-Image Alignment)和文本—图像匹配(Text-Image Match)。文本-图像对齐,具体操作是在图像上随机遮盖一部分文本行但是保留文本信息,让模型在词级别上进行二分类,预测每个词在图像上是否被覆盖,作者认为这可以帮助模型对齐文本和图像的位置信息。文档—图像匹配,对于预训练阶段的文档数据,会随机地替换或舍弃一部分文档图像,进而构造出图文不匹配的负样本。模型在文档级别上进行二分类,预测图文是否匹配,以此来对齐文本和图像的内容信息。
三、主要实验结果及可视化效果
表1 FUNSD数据集上模型表现
表2 CORD数据集上模型表现
表3 SROIE数据集上模型的表现
表4 Kleister-NDA数据集上模型的表现
表5 模型在RVL-CDIP数据集的分类效果
表6 DocVQA数据集上模型的表现
表7 模型在DocVQA数据集上的消融实验
由表1、表2、表3、表4、表5、表6来看,文章所提的LayoutLMv2预训练模型在表单理解、票据理解、杂布局长文档理解和文档图像分类以及视觉问答等多个文档理解的下游任务任务上都取得了state-of-the-art的结果。表7是文章的消融实验,可以看到,各部分改进均显著提高了模型性能。整理来看,模型 ANLS 得分从68.41%提升到了74.21%,充分证明了LayoutLM v2 改进的有效性
四、总结及讨论
LayouLMv2在一代的预训练模型的基础之上,提出了一个新的模型将图像的信息也加入到了预训练阶段。
文章对传统的Self-attention机制进行了改进,提出了一个基于空间感知的Self-attention机制
为了能够充分利用起多模态的输入,使模型能够理解不同模态信息之间的对应关系,文章新提出了两个预训练任务,文本—图像对齐(Text-Image Alignment)和文本—图像匹配(Text-Image Match)。
五、相关资源
LayoutLMv2论文地址:https://arxiv.org/abs/2012.14740
LayoutLMv2开源代码地址:https://aka.ms/layoutlmv2
LayoutLMv1论文地址:
https://dl.acm.org/doi/abs/10.1145/3394486.3403172LayoutLM开源代码和预训练模型下载:
https://github.com/microsoft/unilm/tree/master/layoutlmBERT论文地址:https://arxiv.org/abs/1810.04805
参考文献
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: