蚂蚁安全天鉴实验室多模态文档预训练模型中稿国际顶会ACL2023

蚂蚁安全实验室蚂蚁技术AntTech

2024-08-22

导语

一年一度的ACL（The Association for Computational Linguistics）是自然语言处理和计算语言学领域最高级别的学术会议，每年由国际计算语言学学会主办。作为全球计算语言学领域最重要、影响力最大、最具活力的国际学术会议之一，ACL致力于研究涉及人类语言的计算问题，会议涵盖了从基础研究到实际应用的多个研究方向，汇集了来自研究机构和科技企业在自然语言处理领域最前沿、最顶级的研究成果。自1962年以来。该会议已经连续举办了61届，享有悠久的历史和极高的声誉，在自然语言处理研究领域被视为研究的风向标。在过去五年中，该会议的长文录取率约为25%。中国计算机学会（CCF）将该会议认定为人工智能领域A类国际学术会议。

近日，来自蚂蚁安全天鉴实验室的算法研究员提出了多模态文档预训练模型LayoutMask，针对文档理解中常见的阅读顺序问题进行了改进，提高了模型在下游多种文档理解任务的性能，并在蚂蚁集团的多个业务场景得到了落地与应用。相关论文已被ACL2023录用。

复旦大学计算机科学技术学院教授、博士生导师张奇老师表示，针对文档理解的多模态预训练模型技术近些年受到了越来越多学术界的关注与探索。这篇论文从真实应用场景出发，针对文档中的阅读顺序问题对文档预训练模型进行了改进。论文通过对不同布局模态信息的对比选择和对预训练任务的优化，显著改善了预训练模型对于文档表征的学习能力，并明显提升了其在多种文档理解任务上的性能。这项研究对文档的多模态表征学习有重要的研究意义和参考价值。

论文标题：LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding

论文地址：https://arxiv.org/abs/2305.18721

导言

视觉富文档理解（Visually-rich Document Understanding）在过去几年中吸引了许多研究人员的关注。使用基于Transformer的网络结构在大量文档图像上进行预训练的研究范式已经在该领域取得了显著的性能提升。其中主要的挑战在于如何将文档的不同模态，文本（Text）、布局（Layout）和图像（Image），通过各种预训练任务融合到一个统一的模型中。在我们的研究中，我们重点关注于改进文本和布局两个模态之间的融合与学习，并提出了一种创新的多模态预训练模型，LayoutMask。LayoutMask使用局部的1D位置信息而不是全局的1D位置信息作为布局模态的输入，并有两个预训练目标：（1）Masked Language Modeling：在两种新的掩码策略下预测被遮盖的文字；（2）Masked Position Modeling：通过预测被遮盖的2D位置来促进对布局模态的表征学习。LayoutMask可以在一个统一的框架中增强文本和布局模态之间的融合与学习，并为下游文档理解任务产生具有更好适应性和鲁棒性的多模态表征。相关实验结果表明，我们提出的模型可以在多种文档理解任务，比如表单理解、收据理解和文档图像分类等，都可以达到最先进的结果。

面向文档的多模态预训练技术背景

视觉丰富文档理解是一个重要的研究领域，旨在理解各种类型的文档（例如表格、收据和海报），并已经吸引了学术界和工业界的广泛关注。近年来，预训练技术被引入到这个领域，其中基于自监督学习的多模态预训练模型已经在各种文档理解任务中取得了很大的成功。然而，现有的文档预训练模型面临了文档阅读顺序问题的挑战。现有的方法通常采用全文排序的数字（例如从0到511）来作为1D位置信息输入表征文档中文本的阅读顺序，从而在预训练过程中提供明确的阅读顺序监督信息；我们将这种1D位置称之为Global 1D position。这种使用Global 1D position的方式在面向纯文本数据的NLP模型中被广泛使用，但是对于文档数据却并不是一个好的选择。

图 1：SROIE数据集中的一张收据图片和其不同的1D位置信息示意

为此，我们提出了一种新的1D位置信息，局部1D位置（Local 1D position），只表征单个OCR检测框（Segment）内部文字的顺序。以图1为例，我们展示了一张收据图片的Global 1D position和Local 1D position的区别。当使用Global 1D时，图片中文字的阅读顺序已经全部指定好了，比如“Qty”之后的单词是“Price”（蓝色箭头）。而当使用Local 1D时，由它并不包含不同segment之间的顺序，那么“Qty”的下一个词没有被给出而拥有更多的潜在选项，比如“2”、“15.50”和“RM”（红色箭头）；这种情况下，模型就需要结合1D位置信息和不同segment的位置（2D位置）去学习整个图片中文字的阅读顺序。

在此基础之上，本文提出了一种新的多模态预训练模型，LayoutMask。我们的模型只使用文本和布局信息作为模型输入，并在预训练过程中增强文本和布局模态之间融合，提升对于布局信息的表征学习。与之前的研究相比，LayoutMask有三个方面的创新点：1）提出使用Local 1D position替代Global 1D position；2）使用Whole Word Masking和Layout-Aware Masking两种策略来改善Masked Language Modeling任务；3）设计了一个全新的预训练任务，Masked Position Modeling，旨在预测被遮盖的2D位置。通过这些创新设计，我们增加了预训练目标的难度，迫使模型更多地关注布局信息并学习在各种不同排版的文档阅读顺序，从而为下游文档理解任务生成更具适应性和鲁棒性的多模态表征。实验结果表明，我们提出的方法可以显著改善下游VrDU任务性能，并仅使用文本和布局模态就可以实现领先的性能。

方法介绍

图 2：LayoutMask模型的整体框架。红色字体表示Masked Language Modeling相关的部分，蓝色字体表示Masked Position Modeling相关的部分。

LayoutMask模型的整体框架如图2所示。接下来我们对布局信息的选择和预训练任务进行详细的介绍。

3.1 布局信息的选择

表 1：不同的模型对1D位置和2D位置信息的选择。

一般而言，文档预训练模型会使用两种布局信息：1D位置和2D位置。我们将不同模型的具体使用的位置类型都列在的表1中。

在1D位置方面，我们认为使用Global 1D position会带来阅读顺序问题，并有可能损害预训练模型的泛化性和鲁棒性，所以我们在LayoutMask中使用Local 1D position。与Global 1D position相比，Local 1D position缺少了不同Segment之间的顺序，而仅包含了每个Segment内部的阅读顺序，并对每个Segment的第一个单词都从1开始排序。因此模型必须通过其他布局信息，比如2D位置信息，和语义相关的线索去学习全局的阅读顺序，而不是直接利用Global 1D position中表征的全局阅读顺序。这样的一个好处是，当遇到较为复杂的文档布局时，由OCR结果和规则确定的Global 1D position可能会有很大的错误，而Local 1D position会更为可靠。

造2D位置方面，一般有两种常用的2D位置类型：单词级别的2D位置（Word-level 2D position，Word-2D）和检测框级别的2D位置（Segment-level 2D position，Segment-2D）。对于Word-level 2D position，相同单词的token将具有相同的单词级别的检测框作为它们的2D位置。而对于Segment-level 2D position，其2D位置由每个Segment内的所有token共享。在我们的模型中，我们选择Local 1D position和Segment-level 2D position作为模型输入，其中Local 1D position可以提供Segment内的阅读顺序，而Segment-2D可以提供不同Segment之间的阅读顺序线索，因此预训练模型可以通过联合使用1D和2D位置学习正确的全局阅读顺序。

3.2 预训练任务

LayoutMask模型使用了两个预训练任务：Masked Language Modeling（MLM）和Masked Position Modeling（MPM）。

3.2.1 Masked Language Modeling

MLM任务是多模态预训练中最基本和常用的预训练任务。在这个任务中，我们按照一定概率随机地遮盖一些token，并在预训练期间预测这些token。在前期实验中，我们发现最常规的MLM任务对于多模态预训练并不是最佳的选择。因此，我们提出采用两种新策略，即Whole Word Masking（WWM）和Layout-Aware Masking（LAM），来增强这个任务。

WWM策略最初是为了增加中文语言模型的预训练任务难度而提出的。按照这个策略，我们在单词级别而不是token级别上进行遮盖，这使得MLM任务更具有挑战性。当使用WWM策略时，同一单词中已遮盖的和未遮盖的token之间的语义关系被消除了，因此模型必须找到更多的上下文来预测被遮盖的单词，这可以促进文本和布局的融合学习。

由于我们使用Local 1D position和Segment-level 2D position作为模型的输入，全局阅读顺序需要通过联合使用1D和2D位置来学习。我们发现跨segment的阅读顺序是更难学习的，因此我们提出LAM策略来解决这个问题。在这个策略中，每个segment的第一个和最后一个单词有更高的被遮盖的概率。为了预测这些遮盖的单词，模型必须更加关注如何在前面或后面的segment中寻找其上下文，从而促进学习跨segment的阅读顺序。

3.2.2 Masked Position Modeling

为了进一步促进MLM任务对布局信息的表征学习，我们设计了一个新的预训练任务进行辅助：Masked Position Modeling。MPM任务有一个和MLM任务对称的预训练目标：在预训练期间预测随机遮掩的2D位置。

首先，对于每个预训练文档，我们按照给定的概率随机选择一些不重复的单词，并计划遮盖其2D位置。由于1D和2D位置信息之间存在共享和关联的情况，我们不能简单地像MLM任务遮盖文本那样直接遮盖2D位置，否则模型可能利用这些关联信息而达不到预训练任务的目的。为此，我们使用了一些前置处理来消除这种影响，包含以下两个步骤：

（1）Segment拆分：首先，我们将被选择的单词从其segment中拆分出来，使原始segment变成2个或3个更小的segment（取决于单词是否位于开头/结尾或中间）。由此，每个被选择的单词都变成了一个只有单个单词的segment。然后，我们结合实际的空间位置关系，为每个新的segment更新1D和2D位置，从而消除原始位置信息可能带来的信息泄露。

（2）遮盖2D位置：对于每个被选中的单词，我们使用一个伪2D位置来替换其原始2D位置。在预训练过程中，我们的模型预测这些单词真实的2D位置，并通过使用GIoU损失函数进行梯度传播和参数更新。

总体来看，MPM任务非常类似于完型填空，即需要将一组从原文档中抠出来的单词在文档中找到正确的填入位置。因此，为了完成这个预测任务，模型必须根据语义关系找到每个单词的上下文，然后从布局的角度推断其正确的2D位置。这种同时使用语义和空间推理的联合学习过程可以促进文本和布局信息的交互，从而帮助模型学习更好的多模态表征。

实验结果

4.1 文档理解任务

我们首先比较了LayoutMask模型在表单和收据理解任务上性能，结果如表2所示。在只使用文本和布局模态的情况下，我们模型的Base版本在三个数据集上都取得了最好的结果，而Large版本也取得了非常有竞争力的结果。

表 2：不同模型在FUNSD，CORD和SROIE等数据集上的F1分数。

我们接着比较LayoutMask模型在文档分类数据集RVL-CDIP上的结果（见表3）。我们的模型超过了所有的单模态模型和大部分只使用了文本和布局模态的模型。由于这个数据集的图片（见图3）中有很多的OCR模型难以检测的元素，比如图像、线条和手写体，因此我们的结果与同时利用了文本、布局和图像的模型有一定的差距。

表 3：不同模型在RVL_CDIP数据集上的分类准确率。

图 3：RVL-CDIP数据集不同类别的图片示例：（1）广告；（2）新闻；（3）报告。

4.2 消融实验

表 4：“Segment Swap”对使用全局1D位置的模型的影响。Swap Probability表示加入扰动的概率。

我们还对使用1D位置信息进行了消融实验。我们使用Local 1D position的一个重要原因是其对布局的扰动具有鲁棒性。在真实场景中常见的一种布局扰动是“Segment Swap”，即由于文档旋转或OCR问题导致同一行中的segment的先后顺序被弄错了。在这种情况下，跨segment的错误顺序将导致Global 1D position也受到影响，并可能对模型推理产生负面效果。幸运的是，使用Local 1D position的模型不会受到这种干扰的影响，因为它不依赖于跨segment的顺序。

为了更好地展示使用Global 1D position可能导致的问题，我们通过在SROIE的测试数据集上模拟“Segment Swap”来观察其对使Global 1D position的模型的影响，其结果在表4中列出。在实验结果中，我们发现“Segment Swap”对每个类别的字段都有负面影响，并且对“Address”和“Company”两个字段的影响最大。这可能是因为在SROIE数据集中，大多数“Address”和“Company”都是多行排版的（见图4），因此布局扰动会带来更大的识别困难。

上述实验结果能够表明使用Local 1D position的好处，因为它不受这种布局干扰的影响，在真实场景中可以具有更好的鲁棒性。

图 4：SROIE数据集的示例图片。

结论

本文提出了一种新颖的多模态预训练模型LayoutMask，以解决文档理解任务中的阅读顺序问题。LayoutMask采用Local 1D position作为布局输入，可以生成具有更好适应性和鲁棒性的多模态表征。在LayoutMask中，我们为MLM任务增强了两种新的策略，并设计了一种新的预训练任务以增强文本布局交互和布局表示学习。我们的方法可以在仅使用文本和布局模态的情况下取得出色的结果，并在文档理解任务中显著优于许多SOTA方法。

此外，LayoutMask模型也在蚂蚁集团多个涉及文档理解与信息抽取的业务场景实现了落地与应用，比如资质解析、证件信息抽取和小程序页面理解等。其中，在支付宝的医保亲情账户中，我们使用LayoutMask模型搭建了对医学出生证明和户口本的自动化解析能力，降低了审核和绑定的时间，提升了用户体验；能力上线至今已经服务了数百万用户。此外，团队还将LayoutMask作为文档数据的Encoder实现与GLM模型的联合对齐，搭建了一个文档多模开集信息抽取模型，能够用于抽取未知类型文档的信息。

继续滑动看下一个

蚂蚁技术AntTech

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）

蚂蚁安全天鉴实验室多模态文档预训练模型中稿国际顶会ACL2023

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）

生成图片，分享到微信朋友圈

蚂蚁安全天鉴实验室多模态文档预训练模型中稿国际顶会ACL2023

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡