[AAAI 2022] BROS：一种专注于文本和版面信息的预训练语言模型，用于更好地抽取文档关键信息（有源码）

Original 廖文辉 CSIG文档图像分析与识别专委会 2022-07-13

本文简要介绍AAAI 2022录用论文“BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents”的主要工作。

本文提出了一个对二维空间中文本的相对位置进行编码，并使用区域掩蔽策略利用无标签文档进行无监督学习的预训练语言模型，在不加入视觉特征的情况下，在多个文档关键信息抽取的基准数据集上接近或超越了SOTA模型。

一、研究背景

文档信息抽取是指从文档图片中提取关键信息的过程，主要包括实体抽取和实体连接两个子任务，分别是指从文档中提取出有实际意义的一组单词从而构成实体，和将语义上同属一组的实体连接起来的过程，是机器人过程自动化的基本任务之一。由于它需要理解文档版面中包含的文本信息，这是一个需要计算机视觉和自然语言处理技术结合的任务。早期的研究没有利用版面信息完成任务，而近期的研究对此进行改进时引入的视觉信息带来了额外的计算成本，并且空间特征和文本特征结合的方式仍不够高效[1][2][3]。

图1 文档信息抽取流程图

二、方法原理简述

图2 网络整体框架图

图2是这篇文章的整体结构，它的骨干网络BROS Encoder采用了与BERT[4]一致的结构，并用BERT的预训练权重进行初始化。

在模态方面，本文采用了文本和版面两种模态。对文本信息的处理是将单词的词嵌入与位置编码相加，送入到BROS Encoder进行语义的深层建模。对版面信息的处理方式则是以单词检测框的相对位置关系为基础，计算相对位置编码，作为计算Attention Score时的偏置项，将版面信息与文本信息进行融合，如下面公式所示。

其中

就是与版面信息相关的偏置项，与第i个单词的检测框和第j个单词的检测框的左上角点、右上角点、左下角点和右下角点的相对位置有关，由下面公式计算得到。

其中

分别代表第i个单词和第j个单词的检测框中上述四个角点坐标的差值经过正弦函数变换后的结果，如下面的公式所示。

在预训练任务方面，文章引入了两个预训练任务，分别是Token-masked Language Model和Area-masked Language Model。

具体来说，Token-masked Language Model与BERT[4]和LayoutLMv2[1]中的一致，即对文档中的单词进行随机掩码，通过上下文信息预测掩码处的单词。如图3所示，其中红色框为选中的token，灰色区域则是单词的掩码。

图3 Token-masked Language Model示意图

Area-masked Language Model则是对文本检测框落入某一区域内的单词进行随机掩码，并预测掩码处的单词，其示意图如图4所示。具体来说，可以分为四步：

（1）随机选择一文本检测框；

（2）以该文本框为中心按某一分布的随机抽样扩大候选区域；

（3）确定与候选区域有较大重叠的文本检测框；

（4）对上述文本检测框内的单词进行掩码。

图4 Area-masked Language Model示意图

文章认为，由于候选区域中心的单词附近的单词均被掩码，网络将需要根据距离更远的单词来预测掩码单词的输出。

三、主要实验结果

表1 FUNSD数据集实体抽取实验结果

从表1可以看到，在仅使用文本信息和版面信息的情况下，无论是本文BROS的BASE模型还是LARGE模型，在参数量相近或更小的情况下超越了现有模型的表现。虽然其表现不及加入视觉信息的模型，但BROS对比这些模型在参数量上具有一定优势。

表2 不打乱单词顺序时实体抽取和实体连接实验结果

表3 打乱单词顺序时实体抽取和实体连接实验结果

表4 按不同方式重建单词顺序时实体抽取和实体连接实验结果

表2、表3、表4中p-F，p-S，p-C和p-Sci分别代表不同数据集，为解决打乱顺序后的关键信息抽取问题，文章引入了SPADE[5]作为解码器。从结果可以看到，BROS对单词的排列顺序不敏感，在各种单词排列方法上相较于其他方法均有更好的表现。

图5 模型表现与微调数据量的关系

表6 模型表现与微调数据量的关系

从图5和表6看出来，BROS相较于其他预训练模型，只需要更少的数据进行微调，就能在下游任务中达到更好的效果。

表7 BROS中各部件的消融实验

表8 不同的版面信息编码方式带来的影响

表7和表8分别是本文的消融实验。从实验结果来看，文章采用的位置编码和预训练任务均是有效的，加入后和基准模型的效果相比有明显提升。同时，文章对版面信息的相对位置编码方式优于LayoutLM[6]的绝对位置编码和LayoutLMv2[1]。

四、结论

本文提出了一个预训练语言模型 BROS，它专注于对文本和布局特征进行建模，以有效地从文档中提取关键信息。通过对文本在二维空间的相对位置进行编码，并使用区域策略掩码对模型进行预训练，BROS 在不依赖任何其它视觉特征的情况下展示出优越的性能。此外，BROS与其它预训练模型相比，对不同单词排序具有更好的鲁棒性。

五、相关资源

论文地址：https://arxiv.org/pdf/2108.04539v5.pdf
代码地址：https://github.com/clovaai/bros

参考文献

[1] Xu Y, Xu Y, Lv T, et al. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 2579-2591.

[2] Powalski R, Borchmann Ł, Jurkiewicz D, et al. Going full-tilt boogie on document understanding with text-image-layout transformer[C]//International Conference on Document Analysis and Recognition. Springer, Cham, 2021: 732-747.

[3] Li P, Gu J, Kuen J, et al. Selfdoc: Self-supervised document representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 5652-5660.

[4] Kenton J D M W C, Toutanova L K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL-HLT. 2019: 4171-4186.

[5] Hwang W, Yim J, Park S, et al. Spatial Dependency Parsing for Semi-Structured Document Information Extraction[C]//The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021). Association for Computational Linguistics, 2021.

[6] Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout for document image understanding[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.

原文作者:Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park

撰稿：廖文辉

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫描二维码，关注我们:

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

[AAAI 2022] BROS：一种专注于文本和版面信息的预训练语言模型，用于更好地抽取文档关键信息（有源码）

[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer

[CVPR 2022] TATT：用于场景文本图像超分辨率的文本注意力网络

[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成

[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法（有源码）

[CVPR 2022] SimAN: 基于生成式模型的文本图像自监督表征学习

[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理（有源码）

[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型

[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法（有源码）

[CVPR 2022] 特征采样与分组：基于Transformer的场景文字检测方法

[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别（有源码）

[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

生成图片，分享到微信朋友圈

[AAAI 2022] BROS：一种专注于文本和版面信息的预训练语言模型，用于更好地抽取文档关键信息（有源码）

您可能也对以下帖子感兴趣