蚂蚁安全实验室LayoutGCN中稿文档图像识别领域顶级赛事ICDAR2023
近日,蚂蚁安全天鉴、天筭实验室协同合作,联合推出轻量级文档理解模型框架LayoutGCN,相关研究工作被文档智能领域最高级别的学术会议ICDAR2023收录。文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR)是文档智能领域最高级别的学术会议,由国际模式识别学会(IAPR)组织,每两年在不同城市举行一次,涉及人工智能领域的研究和应用,包括但不限于文本识别、文档分析、手写识别、图像处理等方面的人工智能技术。ICDAR会议的高技术难度、高实际应用性,备受众多科研院校、科技公司的广泛关注,会议举办至今已有119个国家的7821多支队伍参与其中,持续为文档智能领域技术发展注入推动力量。
论文地址:https://link.springer.com/chapter/10.1007/978-3-031-41682-8_10
在当今数字化转型的时代,文档理解已经成为日益重要的技术领域。无论是企业、政府、学校,还是个人都会面临大量的文档处理任务,文档理解技术可以帮助我们快速、准确地识别和提取各种类型文档的信息,为企业、机构或者个人提供更便捷的数据管理和信息处理方式。同时,文档理解技术也可以帮助我们更快速地浏览和理解大量的信息,提高工作效率和决策能力。此次蚂蚁安全天鉴、天筭实验室联合推出的轻量级文档理解模型框架LayoutGCN,可实现在保持同预训练类模型相当性能的同时,极大地降低了文档理解应用的成本,并且可以部署于端设备上,现已经被成功应用于蚂蚁集团的多个业务场景。
目录
1. 前沿
2. 方法
2.1. 文档建模
2.2 模型结构
2.3 下游任务
3. 实验
4. 案例
5. 总结
前言
视觉富文档(Visually Rich Document, VRD)是指在视觉呈现上存在丰富样式和布局的文档,比如发票、简历、表单、论文、票据等,视觉富文档理解(Visually Rich Document Understanding, VRDU)则是对视觉富文档进行分类、抽取、结构化等处理。通常情况下,视觉富文档理解是作为OCR(Optical Character Recognition)的下游任务,但也有部分研究尝试直接通过文档图像来解决视觉富文档理解任务,比如TIRE[3, 34]。在实际应用中,视觉富文档理解仍然主要作为OCR的下游任务进行处理,因为直接通过文档图像来解决视觉富文本理解任务的技术尚未成熟。
图1.1 视觉富文档示例
在视觉富文档理解任务中,除了文本特征,布局和视觉特征也同样重要,所以视觉富文档理解的相关研究主要是提出有效的文本、布局和图像特征的融合方法。根据所采用的技术路线不同,视觉富文档理解的相关研究主要可以分为两个方向,分别是预训练方法和非预训练方法。预训练方法是视觉富文档理解的热门研究方向,主要是将文本、布局以及图像特征融入BERT类似的预训练框架,从而得到针对视觉富文档的预训练模型,比如LayoutLM[14, 31, 32]、LAMBERT[5]、StrucText[22]等;在另一方向上,研究人员将文本、布局和图像视为三种模态,并利用多模态融合技术或图神经网络(Graph Neural Network, GNN)来融合这些多模态特征,而不进行任何文档特定的预训练,比如DocStruct[29],PICK[33]。
虽然已有的视觉富文档方法的优越性已经得到了验证,但这些模型均是大型模型,不论训练还是预测均需要大量的资源,包括数据资源、计算资源以及时间。在缺乏资源的情况下,比如缺少大量的训练数据或者计算资源,亦或是端设备的应用,大型模型是无法胜任的。另外,大型模型训练对环境的影响也受到了越来越多的关注,艾玛・斯特鲁贝尔等人指出采用GPU预训练一个BERT模型的碳排放量相当于飞机横跨美国的一次飞行[28]。在提倡碳中和这样的大背景下,我们做算法研究的同时也应该承担起节能减排的社会责任。最后,现有的视觉富文档预训练模型采用的是类似于BERT的框架,而这类框架是为序列数据设计的,并不适合空间结构的数据,比如布局特征,并且会受到阅读顺序的严重影响。此外,关于文档预训练还存在一个未经论证的问题,即通过大量数据进行预训练所学习到的深层语义特征是否对于所有视觉富文档理解任务都是必要的。针对上述的问题,我们尝试探索量级轻并且性能好的方法来解决视觉富文档理解任务。
图1.2 LayoutGCN的处理流程
我们所提出的方法是一种新型且有效的轻量级算法框架,称为LayoutGCN,适用于各类视觉富文档理解任务。图1.2显示了LayoutGCN对单个文档的处理流程,首先,将文档构建成一种全链接图,图中的节点就是文档中的文本块。然后采用卷积网络(Convolutional Neural Network, CNN)对节点的文本进行编码得到文本特征,文档的图像同样采用卷积网络进行编码,配合RoI(Region of Interest)池化操作得到节点的图像特征,节点对应的布局特征通过全链接网络映射到高维空间。紧接着采用图卷积网络(Graph Convolutional Network , GCN)对文本、布局以及图像特征进行聚合得到更丰富的节点表征,用于下游的任务,比如文档分类、节点分类、序列标注、链接预测等。
方法
2.1 文档建模
一个视觉富文档通常由一系列的文本块组成,我们将文本块作为节点
图2.1 从视觉富文档中构建全链接图
2.2 模型结构
LayoutGCN的模型结构如下图所示,主要分为四个部分,分别是文本编码、图像编码、布局编码和图模块,接下来将对这四部分进行详细的介绍。
图2.2 LayoutGCN的模型框架
2.2.1 文本编码
在视觉富文档理解任务中,尤其是信息抽取任务中,关键信息通常包含在某些关键词,比如标题、表头等,或者具有明显模式的文本,比如人名、地名、日期等。在这类情况下,文本的深层语义并不是必要的,使用N-gram的特征就足够了。因此,我们采用TextCNN[17]作为文本编码器,并采用SAME模式的卷积以保证输出的序列表征与输入的文本序列具有相同的长度。假设文本序列
其中,
2.2.2 布局编码
通过节点的四角坐标,可以获得节点的位置、大小以及形状等布局特征,直观上理解,这些特征对视觉富文档任务都可能有帮助。考虑到数值稳定的因素,对上述特征进行了归一化处理,最终形成了节点的初始布局特征,如下:
其中,
其中,
2.2.3 图像编码
在视觉富文档理解任务中,文档图像也提供了有价值的信息。例如在某些情况下,关键信息的表示采用了粗体或斜体文本,或具有明显的背景。处理文档图像的主要方法有两类。第一种是根据每个节点的边界框坐标,将文档图像裁剪成多个图像段,并将这些段分别编码为节点的视觉特征。然而,这种方式会丢失文本块周围的视觉信息。另一种方法是先对整个文档图像进行编码,然后使用RoI池化来获取节点的视觉特征。文档图像的特征也可以用于下游任务,如文档分类。我们采用了第二种方法,使用CSP-Darknet[6]作为视觉编码器。设
为了获取节点的视觉特征,我们设计了一种新的RoI池化方法,称为大小匹配RoI池化(Size-matched RoI Pooling)。首先,我们定义节点Vi的最大尺度如下:
同节点最大尺度dimax最接近的
利用RoI池化层的输出,我们使用全局平均池化层和全链接层获取节点Vi的视觉特征,如下所示:
其中,Ck是特征的通道数。
2.2.4 图模块
在图模块中,引入了图卷积网络GCN[30]来捕捉节点之前的潜在关系。首先,通过组合上述的文本、布局和图像特征形成节点的初始特征。DocStruct指出文本、布局和图像特征包含不同的信息,在不同任务中的贡献度也有所差异,需要采用不同的处理方式。其中,文本和布局特征比较稳定,可以直接拼接在一起作为基础特征,如下:
而图像特征只在特定的情况下才会有所帮助,作为shifting features特征处理,采用基于注意力的门机制与基础特征进行融合,融合方式描述如下:
其中,ɑi为门机制的权重,ri为节点Vi的融合特征。所有的节点特征可以表示为
最终的节点表征通过多层的GCN网络计算得到,如下
其中,
是对角矩阵且
为了能够将节点之间相对位置的信息引入模型,我们对邻接矩阵的权重进行了仔细设计。首先,利用极坐标来构建节点之间的相互关系,如下图所示。直观地来说,节点之间的径向距离越近,节点之前的权重应该越大。节点之间的角度为特定值时,其权重应高于其他角度,比如在文档中出现键值对时,键通常出现在值的左边或者上边。
图2.3 极坐标中的节点关系
我们将邻接矩阵的权重分为两个部分,分别与节点之间了径向距离和角度相关,如下所示
其中,ε为一个可学习的参数。权重ɑijr与径向距离的关系是固定的,计算方式如下:
其中,λ是一个正的常数,控制权重随着径向距离的增加而衰减的速度。
由于权重和角度的关系很难显式的定义,我们就让模型学习它们之间的关系。受到位置向量[7]的启发,我们将角度按照特定的间隔δ进行离散化,如下:
然后,将离散后的角度θij映射为固定的实数向量xjiθ,通过两层全链接构建角度和权重的关系,即
最后,将GCN的最终输出与节点的原始特征融合作为节点的最终表征,假设GCN的最终输出为
节点ri的表征融合了文本、图像和布局的特征,能够对多种下游任务产生增益。
2.3 下游任务
依托LayoutGCN灵活的框架,可以解决多种下游任务,如序列标注、节点分类、链接预测和文档分类。本小节将详细介绍如何使用LayoutGCN的输出完成不同的下游任务。
2.3.1 序列标注
视觉富文档的信息抽取问题通常作为序列标注任务来处理,通常的做法是将所有节点的文本拼接成一个序列,然后进行序列标注。这种方法在实际应用中存在诸多弊端,比如文本太长时,需要进行截断导致信息丢失,解码的效率也会随着文本的长度增加而下降,并且受阅读顺序的影响较大。我们将每个节点的文本作为单独的序列进行处理,将节点的表征拼接到文本的序列表征,作为序列标注解码器的输入,序列标注的输出层采用全链接接CRF层,如下:
其中ys为输出的标签序列。
2.3.2 节点分类
节点分类在实际应用中较为少见,主要原因是我们无论从OCR服务还是文本解析方法获得文档的文本块都不会非常规整,比如我们关注的目标文本,可能会被切分为多个文本块,甚至和其他文本混在同一个文本块。但节点分类仍然有少量的应用场景,并且可以作为多任务的辅助任务。基于LayoutGCN进行节点分类非常简单,就是将节点的表征作为分类器的输入,如下
其中,yin为各个类别的概率。
2.3.3 链接预测
链接预测在视觉富文档中的应用主要是重构文档的结构,比如表格的结构。对于链接预测任务,我们首先对节点表征进行线性的映射,如下所示:
而后,节点Vi与节点Vj之间的链接通过如下方式进行预测:
yijp即是节点Vi和节点Vj之间存在关系的概率。
2.3.4 文档分类
在LayoutGCN的模型结构下,文档分类就等同于图分类任务。我们采用基于注意力机制的图池化(Graph Pooling)操作,获得图的表征,如下所示:
同时考虑到文档图像表征对文档分类也有着重要的作用,所以图表征和图像表征都作为文档分类器的输入,如下:
yd为各个类别的概率。
实验
为了验证LayoutGCN的有效性,我们在公开的数据集FUNSD[16],SROIE[15],CORD[25],Train-Ticket[33],RVL-CDIP[11]上进行了测试验证。我们将LayoutGCN与已有的强基线模型进行比较,并根据它们的参数量级将它们分为基础模型(base)和大型模型(large)。这些基线模型包括单文本模态模型、文档预训练模型和非预训练模型,PICK是唯一一个具有竞争力的非预训练方法。具体实验结果如下表所示:
表3.1 LayoutGCN在公开数据集上的实验结果
同现有的基线模型相比,LayoutGCN在基准测试集上取得了有竞争力的结果,甚至超过了一些大型模型。虽然与SOTA结果存在一定差距,但考虑到模型规模更小且无需预训练,我们的方法仍然具有竞争力。除了LayoutLMv3,LayoutGCN在FUNSD上的结果接近于基线模型。由于训练数据很少,仅有149个样本,我们方法的性能很难提高。在SROIE数据集上,LayoutGCN与几个基线模型之间存在明显差距。除了缺乏训练样本外,我们将在案例研究中说明另一个原因。CORD和Train-Ticket数据集的训练样本相对较多,我们的模型取得了几乎与SOTA结果相近的分数。在实践中,LayoutGCN在各种应用中可以通过大约一千个训练样本就可以获得可应用的性能。
尽管RVL-CDIP训练集非常庞大,但LayoutGCN仍然与基线模型存在较大的差距。这种现象部分原因是Tesseract OCR的表现不如基线工作所使用的工业OCR服务。同时也反映出LayoutGCN的一个不足之处,即它不适用于文档布局差异较大的任务。RVL-CDIP数据集包含16种类型的文档图像,不同类型的文档布局差异很大,这对我们的方法来说太过复杂了。此外,我们方法在文本和图像的深层语义表示能力上并不是很强。这些因素导致LayoutGCN在RVL-CDIP数据集上几乎无法取得与基线模型相当的结果。
图3.1 邻接矩阵的正向案例分析
为了进一步分析邻接矩阵的权重生成方案的有效性,我们观察了在具体样本上邻接矩阵的权重。考虑到SROIE数据集中的样本是购物票据,节点之间的关系比较直观,我们就随机选取了测试集中的一个样本,观察了邻接矩阵的权重。首先,节点“170.00”是需要识别的金额信息,对应权重较高的节点均是包含和金额共现频率较高的内容。另一个节点包含时间信息,对应权重最高的节点是含有“Date”关键词的节点,这个关键词是提取时间信息非常强的信号。这个案例充分地说明了LayoutGCN可以有效地学习到节点之间相对位置的关系。
图3.2 邻接矩阵的负向案例分析
在分析过程中,我们还观察到另一个现象。在某些情况下,两个相邻的节点可能具有近似的邻接权重,同时也包含相似的内容,使得模型无法区分这两个节点。如图所示,节点“RM83.00”和“RM100.00”对应的邻接权重非常相似,特别是它们与节点“TOTAL”的邻接权重是相同的,而“TOTAL”节点是确定总金额非常关键的信息。另一方面,节点“RM83.00”与节点“CHECKS PAID”和“TOTAL”之间的邻接权重也非常相似,而节点“RM100.00”与节点“TOTAL”和“CASH”之间的也有着近似的邻接权重,导致LayoutGCN无法学习到节点“RM83.00”和“RM100.00”的准确表示。由于这些问题,模型未能准确地识别出该样本对应的总金额信息,反映出均匀的角度离散化方案是存在缺陷的。如果使用较大的间隔,则角度分辨率不足。在图3.2中所示的情况下,“RM100.00”节点与“TOTAL”和“CASH”节点之间的角度都为零,而过小的角度间隔则会降低模型的鲁棒性。更好的离散化角度的方法可能是非均匀的,我们将在未来的研究中进行改进。
案例
LayoutGCN除了在公开的数据集上取得了比较好的效果,也在多个实际的应用中得到了检验。LayoutGCN已经应用于蚂蚁集团的多个业务场景,此处例举三个应用案例,分别是资质凭证的解析、账单详情的信息抽取以及物流单的结构化。资质凭证的解析任务主要是针对营业执照、食品经营许可证、医疗器械经营许可证、人力资源服务许可证、金融许可证、食品小经营店备案证等几十种凭证进行主要信息的提取。虽然凭证的类型较多,但是它们的内容和布局均比较相似,利用LayoutGCN只需要训练一个模型便可以很好地解决几十种凭证的解析。账单详情的信息抽取任务可以提取不同支付APP的账单详情中的关键信息。该应用任务中,不同支付APP的账单内容和布局有一定的差异,并且数据上还存在截图、截断、拍屏、拼图、翻拍、复印、涂抹、打码等多种形态,给账单的信息抽取带了较大的困难,但我们使用LayoutGCN在该任务上还是取得了非常好的效果。
图4.1 实际应用案例的示例
最后一个案例是物流单的结构化,从英文物流单中提取物流信息并进行结构化处理。首先,物流单的内容是英文,而资质凭证和账单详情的内容均是中文,这个案例说明了LayoutGCN可以适用于不同的语言,而不像预训练方法限制于预训练阶段使用的数据语言。其次,物流单的结构化任务需要将以表格形式展示的商品信息进行结构化处理,多个商品的信息形成一个列表。我们通过链接预测的方式,在同一个商品信息对应的文本块之间建立链接,从而将商品信息进行分组。LayoutGCN可以处理简单表格的结构化,对于复杂的表格则还是需要通过表格识别的方法来完成结构化。LayoutGCN在这个三个应用上的具体效果指标如下表所示:
表4.1 LayoutGCN在实际应用案例上的效果(F1)
总结
本文介绍了 LayoutGCN,一种新颖且轻量级的视觉富文档理解模型。LayoutGCN 使用来自文本、布局和图像的浅层语义特征解决视觉富文档理解任务。针对布局,我们建模了文本块的相对位置关系和邻接矩阵权重之间的关系,并将布局信息作为先验知识引入模型,增强了布局信息的利用。我们在五个公开基准上进行了大量实验。结果表明,LayoutGCN 对于各种下游任务是实用的,并且可以实现与现有大规模模型相媲美的表现。LayoutGCN具有轻量的模型结构,并且不需要进行预训练,使得它在实践中的成本比现有预训练模型要低得多,为低资源情况下的视觉富文档理解应用提供了可行且有效的方法。此外,我们展示了仅使用三种模式的浅层语义处理视觉富文档理解任务的可行性,并为解决视觉富文档理解领域中的问题提供了新的视角。在未来的研究中,我们会对邻接矩阵权重的生成方案进行优化,尤其是角度的离散化方案,进一步提升LayoutGCN的性能。另外,我们也会探索LayoutGCN在偏视觉的文档任务上应用,比如视觉问答、布局分析等。
拓展阅读
参考文献
[1] Appalaraju, S., Jasani, B., Kota, B.U., Xie, Y., Manmatha, R.: Docformer: End-to- end transformer for document understanding. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 993–1003 (2021)
[2] Ba, J.L., Kiros, J.R., Hinton, G.E.: Layer normalization. arXiv preprint arXiv:1607.06450 (2016)
[3] Cheng, Z., Zhang, P., Li, C., Liang, Q., Xu, Y., Li, P., Pu, S., Niu, Y., Wu, F.: Trie++: Towards end-to-end information extraction from visually rich documents. arXiv preprint arXiv:2207.06744 (2022)
[4] Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.:Bert:Pre-trainingofdeepbidirec- tional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018)
[5] Garncarek, Ł., Powalski, R., Stanisławek, T., Topolski, B., Halama, P., Turski, M., Graliński, F.: Lambert: layout-aware language modeling for information extraction. In: International Conference on Document Analysis and Recognition. pp. 532–547. Springer (2021)
[6] Ge, Z., Liu, S., Wang, F., Li, Z., Sun, J.: Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430 (2021)
[7] Gehring, J., Auli, M., Grangier, D., Yarats, D., Dauphin, Y.N.: Convolutional sequence to sequence learning. In: International conference on machine learning. pp. 1243–1252. PMLR (2017)
[8] Gu, J., Kuen, J., Morariu, V.I., Zhao, H., Jain, R., Barmpalios, N., Nenkova, A., Sun, T.: Unidoc: Unified pretraining framework for document understanding. Advances in Neural Information Processing Systems 34, 39–50 (2021)
[9] Gu, Z., Meng, C., Wang, K., Lan, J., Wang, W., Gu, M., Zhang, L.: Xylayoutlm: Towards layout-aware multimodal networks for visually-rich document understand- ing. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4583–4592 (2022)
[10] Guo, H., Qin, X., Liu, J., Han, J., Liu, J., Ding, E.: Eaten: Entity-aware atten- tion for single shot visual text extraction. In: 2019 International Conference on Document Analysis and Recognition (ICDAR). pp. 254–259. IEEE (2019)
[11] Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval (2015)
[12] He, K., Gkioxari, G., Dollár, P., Girshick, R.: Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision. pp. 2961–2969 (2017)
[13] Hong, T., Kim, D., Ji, M., Hwang, W., Nam, D., Park, S.: Bros: A pre-trained language model focusing on text and layout for better key information extraction from documents. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 36, pp. 10767–10775 (2022)
[14] Huang, Y., Lv, T., Cui, L., Lu, Y., Wei, F.: Layoutlmv3: Pre-training for document ai with unified text and image masking. arXiv preprint arXiv:2204.08387 (2022)
[15] Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., Jawahar, C.: Icdar2019 competition on scanned receipt ocr and information extraction. In: 2019 Interna- tional Conference on Document Analysis and Recognition (ICDAR). pp. 1516– 1520. IEEE (2019)
[16] Jaume, G., Ekenel, H.K., Thiran, J.P.: Funsd: A dataset for form understanding in noisy scanned documents. In: 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW) (2019)
[17] Kim, Y.: Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882v2 (2014)
[18] Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)
[19] Lafferty, J., McCallum, A., Pereira, F.C.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data (2001)
[20] Li, C., Bi, B., Yan, M., Wang, W., Huang, S., Huang, F., Si, L.: Structurallm: Structural pre-training for form understanding. arXiv preprint arXiv:2105.11210 (2021)
[21] Li, P., Gu, J., Kuen, J., Morariu, V.I., Zhao, H., Jain, R., Manjunatha, V., Liu, H.: Selfdoc: Self-supervised document representation learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5652– 5660 (2021)
[22] Li, Y., Qian, Y., Yu, Y., Qin, X., Zhang, C., Liu, Y., Yao, K., Han, J., Liu, J., Ding, E.: Structext: Structured text understanding with multi-modal transformers. In: Proceedings of the 29th ACM International Conference on Multimedia. pp. 1912– 1920 (2021)
[23] Liu, X., Gao, F., Zhang, Q., Zhao, H.: Graph convolution for multimodal infor- mation extraction from visually rich documents. arXiv preprint arXiv:1903.11279 (2019)
[24] Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V.: Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692 (2019)
[25] Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., Lee, H.: Cord: a consolidated receipt dataset for post-ocr parsing. In: Workshop on Document Intelligence at NeurIPS 2019 (2019)
[26] Powalski, R., Borchmann, Ł., Jurkiewicz, D., Dwojak, T., Pietruszka, M., Pałka, G.: Going full-tilt boogie on document understanding with text-image-layout trans- former. In: International Conference on Document Analysis and Recognition. pp. 732–747. Springer (2021)
[27] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.: Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research 15(1), 1929–1958 (2014)
[28] Strubell, E., Ganesh, A., McCallum, A.: Energy and policy considerations for deep learning in nlp. arXiv preprint arXiv:1906.02243 (2019)
[29] Wang, Z., Zhan, M., Liu, X., Liang, D.: Docstruct: a multimodal method to extract hierarchy structure in document for general form understanding. arXiv preprint arXiv:2010.11685 (2020)
[30] Welling, M., Kipf, T.N.: Semi-supervised classification with graph convolutional networks. In: J. International Conference on Learning Representations (ICLR 2017) (2016)
[31] Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., et al.: Layoutlmv2: Multi-modal pre-training for visually-rich document understanding. arXiv preprint arXiv:2012.14740 (2022)
[32] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: Layoutlm: Pre-training of text and layout for document image understanding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. pp. 1192–1200 (2020)
[33] Yu, W., Lu, N., Qi, X., Gong, P., Xiao, R.: Pick: processing key information ex- traction from documents using improved graph learning-convolutional networks. In: 2020 25th International Conference on Pattern Recognition (ICPR). pp. 4363– 4370. IEEE (2021)
[34] Zhang, P., Xu, Y., Cheng, Z., Pu, S., Lu, J., Qiao, L., Niu, Y., Wu, F.: Trie: end-to-end text reading and information extraction for document understanding. In: Proceedings of the 28th ACM International Conference on Multimedia. pp. 1413–1422 (2020)