论文推荐|[ICDAR2021 BestPaper] ViBERTgrid：一种用于文档关键信息提取的联合训练多模态二维文档表示

Original 张河锁 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍微软亚洲研究院发表在ICDAR 2021上，并获得Best Paper的论文“ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents”的主要工作。该论文提出一个新的通过拼接BERTGrid特征图到CNN中间层得到的多模态主干网络，其中BERTGrid是通过BERT词嵌入得到的Grid图。通过这种方式可以生成一个更强大的基于Grid的文档表示，本文将之命名为ViBERTGrid。与BERTGrid不同，本文提出的多模态主干网络中BERT和CNN的参数是联合训练的。实验结果表明，该联合训练策略显著提高了ViBERTGrid的表示能力。因此，本文基于ViBERTGrid的关键信息提取方法在一些真实场景数据集上取得了最先进的性能。

一、研究背景与意义

最近基于Grid的文档表示，如BERTGrid，允许同时编码文档的文本和布局信息在一个二维特征映射图，使得一些SOTA的图像分割/目标检测模型可以直接用于提取文档关键信息。然而，目前这些方法的性能还没有达到与基于序列和基于图的方法（如LayoutLM[1]，PICK[2]，TRIE[3]以及VIES[4]）相当的水平。图1比较了不同文档表示类型的先进方法，可以看出目前最先进的基于序列和基于图的方法采用了一些重要的技术来提高精度，包括融合不同模态的信息，联合训练不同模态特征，引入NLP领域最新的BERT类预训练语言模型以及借助基于文档图像的大规模预训练等。然而与之相比，之前最先进的grid文档表示方法，如BERTgrid[5]和VisualWordGrid[6]，却在这些方面有着极大的缺失。基于这个观察，本文提出一种新的grid类型文档表征方法ViBERTgrid，并以此研究grid的文档表示是否也能在文档理解场景下得到最好的性能。为了验证本文提出的文档表征方法的有效性，作者在关键信息提取任务（KIE）上进行了实验。关键信息提取的任务是从如发票、采购订单、收据等文档中提取许多预定义的关键字段的值，如图2所示。

图1. 不同文档表示类型的先进方法之间的比较。

图2. KIE任务的两个例子，图中展示了一些关键字段，包括公司名称、地址、电话号码、日期、电子邮件、传真号码、发票号码、小计、税收和总额，两个例子分别来自INVOICE发票示例（https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/）和SROIE[7]收据数据集。

二、方法简述

如图3所示，本文提出的方法由三个关键组件组成：1)用于生成ViBERTGrid特征图的多模态主干网络；2)辅助语义分割头，用于逐像素字段类型分类；3)词级字段类型分类头，用于预测每个单词的字段类型。

图3. 基于ViBERTGrid文档表示构建的关键信息提取方法框架图

2.1. ViBERTgrid生成

遵循BERTGrid[5]的方法，首先构建一个二维单词grid图，其中的单词嵌入由预先训练的BERT生成，得到的Grid图可以表示为如下：

文档图中含有单词的位置用该单词的词嵌入表示，其他位置则用零向量表示。接下来，将生成的BERTGrid 图拼接到CNN的中间层，从而构建一个新的多模态主干网络，具体结构如图3所示。为了节省计算量，CNN采用了构建在ResNet18-D网络之上的轻量级ResNet18-FPN网络，而新增的BERTGrid 图拼接到Conv3_1卷积层之后的特征图中。

2.2. 词级别字段类型分类头

通过上面的ViBERTGrid主干网络之后可以得到文档图像的特征图，对于每个单词，用ROIAlign[8]来获取单词级别的输出特征。然后用两层3 x 3卷积层将其映射成一个小的7 × 7 × 256特征图，并用全连接层转化为一个1024维的向量。最后，将该特征向量与BERT输出的单词嵌入向量拼接起来，输入后面的字段类型分类头。字段类型分类头包含两个分类器：第一个是一个二分类器，来判断某个单词是否属于指定的某个字段类型；第二个分类器则对属于指定某个字段类型的单词作进一步的分类，判断是具体的哪个字段类型。两分类器均使用交叉熵损失进行监督训练，最后进行损失叠加，可表示为如下（其中k表示字段类型数）：

2.3. 辅助语义分割头

在训练这个端到端网络时，本文发现增加一个额外的像素级分割损失可以使网络更快更稳定地收敛。类似于词级字段类型分类头，这个辅助语义分割头也包含两个分类器：第一个是判断像素点属于指定字段某个类型、无关文本类型或背景；第二个分类器则继续将像素点进一步分类为具体的字段类别。同样，损失可以表示为：

2.4. 联合训练策略

联合训练BERT模型和CNN模型并不容易，因为这两种模型是通过不同的优化器和超参数进行微调的。预先训练的BERT模型通常使用Adam优化器进行微调，学习率非常小，而CNN模型使用标准SGD优化器进行微调，学习率相对较大。因此，本文分别用AdamW[9]优化器和SGD优化器对预训练的BERT模型和CNN模型进行训练。这两个优化器的超参数设置也是独立的。

三、实验设置与结果

3.1. 与已有方法的比较

本文在INVOICE和SROIE数据集上，和目前主流的信息提取方法作比较，得到的结果如Table 2与Table 3所示。可以发现，本文提出的方法可以取得相当甚至更好的性能。

3.2. 消融实验

本文设置消融实验分别比较了联合训练、不同模态特征的使用、对不同预训练语言模型加入CNN模型、BERTgrid图加在CNN特征图的不同阶段、在CNN中间层或特征输出层分别加入BERTgrid图和词嵌入特征带来的影响，得到的结果如Table 4-8。

从上述的消融实验结果中可以得到结论：本文提出的使用不同的优化器、不同的学习率来针对BERT与CNN的联合优化方法具有最好的性能；两个模态特征同时使用，并联合优化可以实现最优性能；CNN模型的使用对提升方法性能作用显著；将BERTGrid图添加到CNN的C3阶段特征图能有较好的性能；在不同的模型层数条件下，同时在CNN中间层和特征的输出层加入BERTgrid图和词嵌入特征都能有最好的性能。

四、总结与讨论

本文提出了一种新的基于Grid的文档表示方法ViBERTGrid。通过将BERTGrid和CNN的优点结合起来，并联合训练BERT和CNN的参数， ViBERTGrid的表示能力大大优于其他基于Grid的文档表示，如BERTGrid和VisualWordGrid。因此，基于ViBERTGrid的关键信息提取方法在实验的两个数据集上取得了最先进的性能。同时，本文提出的ViBERTGrid也可以很容易地集成到其他关键信息提取框架中，未来可以进一步探索该文档表示对其他关键信息提取框架的有效性。此外，也可以探索基于这种文档表示方法在其他文档理解任务，如版面分析和表结构识别等的有效性。

参考文献

[1] Y. Xu, M. Li, L. Cui, S. Huang, F. Wei and M. Zhou, "LayoutLM: Pre-training of Text and Layout for Document Image Understanding," in SIGKDD, 2020, pp. 1192–1200.

[2] W. Yu, N. Lu, X. Qi, P. Gong and R. Xiao, "PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks," in ICPR, 2020.

[3] P. Zhang, Y. Xu, Z. Cheng, S. Pu, J. Lu, L. Qiao, Y. Niu and F. Wu, "TRIE: End-to-End Text Reading and Information Extraction for Document Understanding," in ACM Multimedia, 2020, pp. 1413–1422.

[4] J. Wang, C. Liu, L. Jin, G. Tang, J. Zhang, S. Zhang, Q. Wang, Y. Wu and M. Cai, "Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution," in AAAI, 2021.

[5] T. I. Denk and C. Reisswig, "BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding," in Document Intelligence Workshop at NeurIPS, 2019.

[6] M. Kerroumi, O. Sayem and A. Shabou, "VisualWordGrid: Information Extraction From Scanned Documents Using A Multimodal Approach," in ICDAR Workshops, 2021.

[7] Z. Huang, K. Chen, J. He, X. Bai, D. Karatzas, S. Lu and C. V. Jawahar, "ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction," in ICDAR, 2019, pp. 1516-1520.

[8] K. He, G. Gkioxari, P. Dollár and R. Girshick, "Mask R-CNN," in ICCV, 2017, pp. 2961- 2969.

[9] I. Loshchilov and F. Hutter, "Decoupled Weight Decay Regularization," in ICLR, 2019.

原文作者: WeiHong Lin，QiFang Gao, Lei Sun, ZhuoYao Zhong, Kai Hu，Qin Ren, Qiang Huo

撰稿：张河锁

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐|[ICDAR2021 BestPaper] ViBERTgrid：一种用于文档关键信息提取的联合训练多模态二维文档表示

论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络

论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络

论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移

论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架（有源码）

论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击

论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络

论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架

论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)

年度报告 | 自然场景文本检测与识别的深度学习方法【中国图象图形学报综述专刊

论文推荐|[IJCAI 2021] MatchVIE: 一个基于命名实体匹配相关性的视觉信息抽取学习框架

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐|[ICDAR2021 BestPaper] ViBERTgrid：一种用于文档关键信息提取的联合训练多模态二维文档表示

您可能也对以下帖子感兴趣