[AAAI 2022] BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)
本文简要介绍AAAI 2022录用论文“BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents”的主要工作。
一、研究背景
文档信息抽取是指从文档图片中提取关键信息的过程,主要包括实体抽取和实体连接两个子任务,分别是指从文档中提取出有实际意义的一组单词从而构成实体,和将语义上同属一组的实体连接起来的过程,是机器人过程自动化的基本任务之一。由于它需要理解文档版面中包含的文本信息,这是一个需要计算机视觉和自然语言处理技术结合的任务。早期的研究没有利用版面信息完成任务,而近期的研究对此进行改进时引入的视觉信息带来了额外的计算成本,并且空间特征和文本特征结合的方式仍不够高效[1][2][3]。
二、方法原理简述
图2 网络整体框架图
图2是这篇文章的整体结构,它的骨干网络BROS Encoder采用了与BERT[4]一致的结构,并用BERT的预训练权重进行初始化。
具体来说,Token-masked Language Model与BERT[4]和LayoutLMv2[1]中的一致,即对文档中的单词进行随机掩码,通过上下文信息预测掩码处的单词。如图3所示,其中红色框为选中的token,灰色区域则是单词的掩码。
图3 Token-masked Language Model示意图
Area-masked Language Model则是对文本检测框落入某一区域内的单词进行随机掩码,并预测掩码处的单词,其示意图如图4所示。具体来说,可以分为四步:
(1)随机选择一文本检测框;
(2)以该文本框为中心按某一分布的随机抽样扩大候选区域;
(3)确定与候选区域有较大重叠的文本检测框;
(4)对上述文本检测框内的单词进行掩码。
图4 Area-masked Language Model示意图
三、主要实验结果
从表1可以看到,在仅使用文本信息和版面信息的情况下,无论是本文BROS的BASE模型还是LARGE模型,在参数量相近或更小的情况下超越了现有模型的表现。虽然其表现不及加入视觉信息的模型,但BROS对比这些模型在参数量上具有一定优势。
表2 不打乱单词顺序时实体抽取和实体连接实验结果
表3 打乱单词顺序时实体抽取和实体连接实验结果
表4 按不同方式重建单词顺序时实体抽取和实体连接实验结果
表2、表3、表4中p-F,p-S,p-C和p-Sci分别代表不同数据集,为解决打乱顺序后的关键信息抽取问题,文章引入了SPADE[5]作为解码器。从结果可以看到,BROS对单词的排列顺序不敏感,在各种单词排列方法上相较于其他方法均有更好的表现。
图5 模型表现与微调数据量的关系
表6 模型表现与微调数据量的关系
从图5和表6看出来,BROS相较于其他预训练模型,只需要更少的数据进行微调,就能在下游任务中达到更好的效果。
四、结论
五、相关资源
论文地址:https://arxiv.org/pdf/2108.04539v5.pdf
代码地址:https://github.com/clovaai/bros
参考文献
[1] Xu Y, Xu Y, Lv T, et al. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 2579-2591.
[2] Powalski R, Borchmann Ł, Jurkiewicz D, et al. Going full-tilt boogie on document understanding with text-image-layout transformer[C]//International Conference on Document Analysis and Recognition. Springer, Cham, 2021: 732-747.
[3] Li P, Gu J, Kuen J, et al. Selfdoc: Self-supervised document representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 5652-5660.
[4] Kenton J D M W C, Toutanova L K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL-HLT. 2019: 4171-4186.
[5] Hwang W, Yim J, Park S, et al. Spatial Dependency Parsing for Semi-Structured Document Information Extraction[C]//The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021). Association for Computational Linguistics, 2021.
[6] Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout for document image understanding[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.
原文作者:Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park
撰稿:廖文辉
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer
[CVPR 2022] TATT:用于场景文本图像超分辨率的文本注意力网络
[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成
[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法(有源码)
[CVPR 2022] SimAN: 基于生成式模型的文本图像自监督表征学习
[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)
[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型
[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)
[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法
[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别(有源码)
[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: