查看原文
其他

[ACM MM 2021]​显示、阅读和推理:基于灵活上下文聚合器的表格结构识别

陈邦栋 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ACM MM 2021的论文“Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator”的主要工作。本文主要针对表格结构识别这一具有挑战性的问题进行研究。目前,很多方法采用基于图的上下文聚合器,来稀疏地建模表格元素的上下文关系。但是,基于图的方法可能会引入过强的归纳偏置,无法充分地表示复杂表格结构。为了让模型从数据中学习更合适的归纳偏置,本文引入Transformer作为上下文聚合器。Transformer以密集上下文作为输入,同时由于的归纳偏置的弱化,Transformer对数据的规模要求更高,并且训练过程不稳定。为了解决上述问题,本文设计了FLAG模块,自适应的结合基于Transformer和基于图的上下文聚合器。基于FLAG,本文设计了一个端到端的网络FLAG-Net,无需额外的OCR信息,能够灵活地调整密集和稀疏上下文的聚合,进行表格元素的关系推理。本文还进一步探索了FLAG中的上下文选择模式,对于识别表格结构至关重要。大量实验证明本文的方法在多个公开数据集上达到了SOTA。

一、研究背景



表格结构识别 (TSR) 受到越来越多的关注,并在许多文档分析应用程序(例如问答和对话系统)中发挥着重要作用,其中PDF或图像文档呈现的表格数据通常以结构化方式包含基本信息。TSR旨在读取表格结构并以机器可读格式表示,但由于表格布局、呈现样式和噪声污染的不同,这仍然是一个棘手的问题。近年来,研究者们提出了很多不同类型的方法来提高表格结构识别的性能,这些方法可以分为两类:非基于表格元素的方法[1~6]和基于表格元素的方法[7~14]。

非基于表格元素的方法大多数都是从表格图像出发,提取全局信息进行表格结构重建。方法[1~3]尝试预测表格中的行/列边界,甚至是不可见的网格线,这在识别跨多行/多列的单元格方面存在限制。为了解决这个问题,SPLERGE[4]尝试先分割表格的网格结构并合并相邻的跨行/列的单元格,但是对于倾斜的表格图像仍然无法取得不错的结果。另外,TableBank[5]和EDD[6]这两个方法尝试将表格结构识别当做一个图像到序列转换问题,采用基于生成的方法将表格结构输出为文本序列,避免了人为参与,但依赖于大量数据。

基于表格元素的方法旨在建立提取的表格元素之间的关系,以简化识别表格结构的任务。方法[7~10]尝试基于启发式算法恢复元素的关系。此外,一些方法[11~14]试图使用图网络来构建元素之间的联系,并推理元素之间的关系。GraphTSR[11]使用边到顶点和顶点到边的图注意块将每条边分为水平、垂直或不相关的关系。方法[13]引入DGCNN来构建融合图像与文本块间位置特征之间的关系,以预测节点之间的关系。GFTE[12]也将表结构识别的任务视为一个边缘预测问题,并试图通过附加的单词嵌入来提高预测精度。然而上述的工作受到了输入的几个假设的限制,例如准确的单词Bbox、准确的OCR结果等。为了克服这个问题,TabStruct-Net[14]以联合方式预测对齐的单元格区域和局部单元格关系。然而由于缺乏单元格边界的可见纹理,很难精确地学习对齐的单元格。

在这项工作中,作者提出预测检测到的单词Bbox之间的邻接关系,而不是单元格,这解决了“单元格边界模糊”问题。在表格元素关系推理方面引入Transformer,并注入表格元素的图关系信息,以提高表格结构识别的上下文信息。另外还设计了FLAG-Net网络来联合训练表格元素检测和关系预测,取得了良好的性能和效率。

二、FLAG-Net原理简述



如图1所示是端到端FLAG-Net的方法框架,包括:表格元素检测,灵活上下文聚合和表格结构预测三个部分。首先,基于元素候选网络(EPN)预测了一组表格元素,这里的表格元素是单词Bbox而不是单元Bbox,避免了单元格边界模糊问题。然后由一组堆叠的FLAG模块进行灵活的上下文聚合。最后,将输出的具有灵活上下文的表格元素Embedding进行两两配对,从单元格、行和列的角度来预测它们之间的关系。 

图1 FLAG-Net的方法框架

表格元素检测模块:该模块基于Mask R-CNN,去掉了Mask分支,采用ResNet50和FPN作为主干网,如图1的绿色部分所示。然后,由EPN模块生成一组表格元素候选区域,该模块基于RPN,配备了RoIAlign操作,避免出现错位的结果。这里每个表格元素表示为E = (x, y, w, h),其中(x, y)是边界框的中心点,h和w分别对应框的高度和宽度。为了方便地检测元素,在不同尺度的金字塔级特征上使用{32²,64²,128²,256²}这4个尺度的Anchors,并将不同大小的RoIs分配给它们,高宽比设置为{0.5, 1, 2.0}。RoI Align输出的7×7×d大小的特征被传递到两个d维全连接层,然后执行元素的分类预测和边界框回归。为了将大量的预测元素候选框减少到一个合理水平,消除冗余的低质量元素候选框,作者使用了NMS,并且引入这种选择机制可以获得更快的推理速度。NMS后获得N个表格元素,通过RoI Align和d维FC层,可以获得对应区域的N个特征向量。对于每个表格元素,可以获得一个四维的坐标特征,其中W, H分别表示图片的宽和高。可以获得该模块的输出特征为:,其中是N个元素的坐标特征,为映射矩阵。

灵活上下文聚合模块:该FLAG模块包含了基于Transformer的密集上下文聚合器(DCA)和基于图模型的稀疏上下文聚合器(SCA)。如图2所示是FLAG模块以检测到的表格元素特征向量作为输入的详细方框图。对于密集上下文,作者采用标准的多头注意力(MHA)来建模全局范围的表格元素之间的密集上下文关系,其中将表格元素检测的输出X作为FLAG的输入{Q, K, V}。MHA的具体计算方式如公式(1) ~ (3)所示,输出特征向量为Hi。对于稀疏上下文,作者在DGCNN上构建SCA,将关系归纳偏好引入模型,使其能够在局部学习稀疏上下文信息。与MHA类似,作者将基于图的聚合器扩展到多头情况,在每个头中,表格元素X的特征向量通过一个线性层进行变换,然后输出特征被构建成图,其中输出特征作为图节点。与使用DGCNN的工作相似,同样使用k近邻算法KNN,为每个节点选择k个最近的节点来构建局部上下文,然后使用CNN将边信息聚合为节点特征,输出为Di

考虑到MHA联合捕获来自不同表示子空间的不同全局关系信息的能力,作者为每个头分支设计了一个门控模块,利用稀疏上下文来增强密集上下文,并实现它们之间的自适应调制。给定相应的密集上下文Hi和稀疏上下文Di,将门控操作定义为公式(4)所示,其中σ表示Sigmoid函数,Wg表示可学习的门控参数。通过这种方式,从不同的子空间中以自适应的方式将基于Transformer和基于图的上下文信息进行融合,然后将它们拼接在一起并通过一个线性层。此外还利用残差连接,使特征传递更加流畅。最后,输出一个FLAG模块的灵活上下文特征Y。如图1所示,将每个FLAG模块的输出通过跳跃连接进行传递,并融合到最后的一个FLAG模块的输出中。

 

图2 FLAG模块的具体流程

关系推理模块:获得灵活上下文特征之后,作者将任意两个特征向量沿通道进行拼接,实现两两配对,得到。然后使用三组独立FC层,分别从行、列和单元格的角度对U进行二分类预测,如图1所示。

本文的方法采用端到端文本检测和邻接关系预测的多种优化任务对所提出的FLAG-Net进行训练,总的优化函数如公式(5)所示。其中,分别表示用于优化表格元素检测任务的元素候选网络损失、边界框分类损失和边界框回归损失,与MaskR-CNN中的损失函数相似。相应地,分别表示单元格、列和行关系的损失,是从关系推理模块计算的交叉熵损失。在三个交叉熵损失中,1表示一对ui,j属于同一关系,否则用0表示。

另外,在表格元素检测模块中,如果在NMS之后保留了具有高置信度的错位元素框,它们仍然不适合训练上下文聚合器和学习它们之间的关系。为了解决这个问题,作者计算了候选框和GT框之间的IoU,并保留了IoU >0.8的框。最后,利用过滤后的边界框构建成对,通过上述二分类来预测它们之间的关系。此外,考虑到每个元素对之间分类的计算复杂度,还引入了蒙特卡罗采样来选择固定数量的样本。详细正向算法流程见下图伪代码。 

三、主要实验结果及可视化效果



作者在多个数据集上进行了实验和性能对比,包括:ICDAR 2013,ICDAR 2019,UNLV,SciTSR,TableBank和PubTabNet。采用的评价指标包括:邻接关系的Precision,Recall和F1-score、BELU、TEDS。实验环境:1*Nvidia Tesla V100 GPU (32 GB显存)。表1~3是本文方法与其他方法在上述多个公开数据集上的性能对比,本文的FLAG-Net方法在多个数据集上的性能都优于现有的方法。表4是本文方法与其他方法的前向推理效率的对比,FLAG-Net在综合效果和效率上有一定的优势。

表1 本文与其他方法在IC13, IC19, UNLV和SciTSR数据集上的性能对比 
表2 本文与其他方法在TableBank数据集上的性能对比
 
表3 本文与其他方法在PubTabNet数据集上的性能对比
 
表4 本文与其他方法的前向推理效率的对比

为了验证本文提出的子模块的有效性,作者在ICDAR-2019数据集上进行了消融实验。如表5所示,在分别加入基于Transformer的密集上下文聚合器(DCA)、基于GCN的稀疏上下文聚合器(SCA)、自适应门控(G)和联合训练(JT)的情况下,对最终的定量结果都有一定程度的提升。为了进一步探索FLAG模块关注的上下文信息,作者将DCA中多头注意热图和最后一层SCA的k个邻居的热图可视化,如图3所示,DCA可以关注全局范围内的所有元素,而SCA倾向于从局部上下文建立元素关系,该热图表明SCA的接受域是稀疏的,因为建立的图和KNN选择策略具有很强的归纳偏差。作者还进一步探究FLAG-Net中的门控参数的影响,具有可学习参数的门控模块可以通过自适应调整来整合密集上下文和稀疏上下文之间的优势。如图4所示,均门控参数(黑色)反映了对密集上下文和稀疏上下文的平均关注量,随着训练过程不断减少,表明门控模块在密集和稀疏上下文之间灵活结合的有用性。

表5 FLAG-Net在ICDAR-2019数据集上的消融实验

图3 由密集上下文聚合器和稀疏上下文聚合器生成的热图的可视化 
图4 不同FLAG模块的不同分支中,门控参数值随着训练过程的变化

四、总结及讨论



本文提出了一个灵活的上下文聚合器(FLAG),能以一种自适应的方式聚合表格元素的密集和稀疏的上下文。基于FLAG模块,作者设计了一个端到端框架FLAG-Net,通过联合表格元素检测和元素关系推理来解决表格结构识别问题。在公共数据集上进行了大量的实验,结果表明该模型优于其他方法,并验证了FLAG模块在提高表格结构识别的精度上的有效性。

五、相关资源



论文地址:https://dl.acm.org/doi/10.1145/3474085.3481534

参考文献



[1]Saqib Ali Khan, Syed Muhammad Daniyal Khalid, Muhammad Ali Shahzad, and Faisal Shafait. 2019. Table structure extraction with bi-directional gated recurrent unit networks. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 1366–1371.

[2]Shubham Singh Paliwal, D Vishwanath, Rohit Rahul, Monika Sharma, and Lovekesh Vig. 2019. Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 128–133.

[3]Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed. 2017. Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In 2017 14th IAPR international conference on document analysis and recognition (ICDAR), Vol. 1. IEEE, 1162–1167.

[4]Chris Tensmeyer, Vlad I Morariu, Brian Price, Scott Cohen, and Tony Martinez. 2019. Deep splitting and merging for table structure decomposition. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 114–121.

[5]Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li. 2020. Tablebank: Table benchmark for image-based table detection and recognition. In Proceedings of The 12th Language Resources and Evaluation Conference. 1918–1925.

[6]Xu Zhong, Elaheh ShafieiBavani, and Antonio Jimeno Yepes. 2019. Image-based table recognition: data, model, and evaluation. arXiv preprint arXiv:1911.10683 (2019).

[7]Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure. 2020. CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 572–573.

[8]Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, and Fei Wu. 2021. LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment. arXiv preprint arXiv:2105.06224 (2021).

[9]Wenyuan Xue, Qingyong Li, and Dacheng Tao. 2019. ReS2TIM: reconstruct syntactic structures from table images. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 749–755.

[10]Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, and Nancy Xin Ru Wang. 2021. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 697–706.

[11]Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, and XianLing Mao. 2019. Complicated Table Structure Recognition. arXiv preprint arXiv:1908.04729 (2019).

[12]Yiren Li, Zheng Huang, Junchi Yan, Yi Zhou, Fan Ye, and Xianhui Liu. 2020. GFTE: Graph-based Financial Table Extraction. arXiv preprint arXiv:2003.07560 (2020).

[13]Shah Rukh Qasim, Hassan Mahmood, and Faisal Shafait. 2019. Rethinking table recognition using graph neural networks. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 142–147.

[14]Sachin Raja, Ajoy Mondal, and CV Jawahar. 2020. Table Structure Recognition using Top-Down and Bottom-Up Cues. In European Conference on Computer Vision. Springer, 70–86.


原文作者:Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji


撰稿:陈邦栋

编排:高  学
审校:殷  飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存