[ACM MM 2021]显示、阅读和推理:基于灵活上下文聚合器的表格结构识别
一、研究背景
表格结构识别 (TSR) 受到越来越多的关注,并在许多文档分析应用程序(例如问答和对话系统)中发挥着重要作用,其中PDF或图像文档呈现的表格数据通常以结构化方式包含基本信息。TSR旨在读取表格结构并以机器可读格式表示,但由于表格布局、呈现样式和噪声污染的不同,这仍然是一个棘手的问题。近年来,研究者们提出了很多不同类型的方法来提高表格结构识别的性能,这些方法可以分为两类:非基于表格元素的方法[1~6]和基于表格元素的方法[7~14]。
非基于表格元素的方法大多数都是从表格图像出发,提取全局信息进行表格结构重建。方法[1~3]尝试预测表格中的行/列边界,甚至是不可见的网格线,这在识别跨多行/多列的单元格方面存在限制。为了解决这个问题,SPLERGE[4]尝试先分割表格的网格结构并合并相邻的跨行/列的单元格,但是对于倾斜的表格图像仍然无法取得不错的结果。另外,TableBank[5]和EDD[6]这两个方法尝试将表格结构识别当做一个图像到序列转换问题,采用基于生成的方法将表格结构输出为文本序列,避免了人为参与,但依赖于大量数据。
基于表格元素的方法旨在建立提取的表格元素之间的关系,以简化识别表格结构的任务。方法[7~10]尝试基于启发式算法恢复元素的关系。此外,一些方法[11~14]试图使用图网络来构建元素之间的联系,并推理元素之间的关系。GraphTSR[11]使用边到顶点和顶点到边的图注意块将每条边分为水平、垂直或不相关的关系。方法[13]引入DGCNN来构建融合图像与文本块间位置特征之间的关系,以预测节点之间的关系。GFTE[12]也将表结构识别的任务视为一个边缘预测问题,并试图通过附加的单词嵌入来提高预测精度。然而上述的工作受到了输入的几个假设的限制,例如准确的单词Bbox、准确的OCR结果等。为了克服这个问题,TabStruct-Net[14]以联合方式预测对齐的单元格区域和局部单元格关系。然而由于缺乏单元格边界的可见纹理,很难精确地学习对齐的单元格。
二、FLAG-Net原理简述
如图1所示是端到端FLAG-Net的方法框架,包括:表格元素检测,灵活上下文聚合和表格结构预测三个部分。首先,基于元素候选网络(EPN)预测了一组表格元素,这里的表格元素是单词Bbox而不是单元Bbox,避免了单元格边界模糊问题。然后由一组堆叠的FLAG模块进行灵活的上下文聚合。最后,将输出的具有灵活上下文的表格元素Embedding进行两两配对,从单元格、行和列的角度来预测它们之间的关系。
图1 FLAG-Net的方法框架
表格元素检测模块:该模块基于Mask R-CNN,去掉了Mask分支,采用ResNet50和FPN作为主干网,如图1的绿色部分所示。然后,由EPN模块生成一组表格元素候选区域,该模块基于RPN,配备了RoIAlign操作,避免出现错位的结果。这里每个表格元素表示为E = (x, y, w, h),其中(x, y)是边界框的中心点,h和w分别对应框的高度和宽度。为了方便地检测元素,在不同尺度的金字塔级特征上使用{32²,64²,128²,256²}这4个尺度的Anchors,并将不同大小的RoIs分配给它们,高宽比设置为{0.5, 1, 2.0}。RoI Align输出的7×7×d大小的特征被传递到两个d维全连接层,然后执行元素的分类预测和边界框回归。为了将大量的预测元素候选框减少到一个合理水平,消除冗余的低质量元素候选框,作者使用了NMS,并且引入这种选择机制可以获得更快的推理速度。NMS后获得N个表格元素,通过RoI Align和d维FC层,可以获得对应区域的N个特征向量
灵活上下文聚合模块:该FLAG模块包含了基于Transformer的密集上下文聚合器(DCA)和基于图模型的稀疏上下文聚合器(SCA)。如图2所示是FLAG模块以检测到的表格元素特征向量作为输入的详细方框图。对于密集上下文,作者采用标准的多头注意力(MHA)来建模全局范围的表格元素之间的密集上下文关系,其中将表格元素检测的输出X作为FLAG的输入{Q, K, V}。MHA的具体计算方式如公式(1) ~ (3)所示,输出特征向量为Hi。对于稀疏上下文,作者在DGCNN上构建SCA,将关系归纳偏好引入模型,使其能够在局部学习稀疏上下文信息。与MHA类似,作者将基于图的聚合器扩展到多头情况,在每个头中,表格元素X的特征向量通过一个线性层进行变换,然后输出特征被构建成图,其中输出特征作为图节点。与使用DGCNN的工作相似,同样使用k近邻算法KNN,为每个节点选择k个最近的节点来构建局部上下文,然后使用CNN将边信息聚合为节点特征,输出为Di。
考虑到MHA联合捕获来自不同表示子空间的不同全局关系信息的能力,作者为每个头分支设计了一个门控模块,利用稀疏上下文来增强密集上下文,并实现它们之间的自适应调制。给定相应的密集上下文Hi和稀疏上下文Di,将门控操作定义为公式(4)所示,其中σ表示Sigmoid函数,Wg表示可学习的门控参数。通过这种方式,从不同的子空间中以自适应的方式将基于Transformer和基于图的上下文信息进行融合,然后将它们拼接在一起并通过一个线性层。此外还利用残差连接,使特征传递更加流畅。最后,输出一个FLAG模块的灵活上下文特征Y。如图1所示,将每个FLAG模块的输出通过跳跃连接进行传递,并融合到最后的一个FLAG模块的输出中。
图2 FLAG模块的具体流程
关系推理模块:获得灵活上下文特征
本文的方法采用端到端文本检测和邻接关系预测的多种优化任务对所提出的FLAG-Net进行训练,总的优化函数如公式(5)所示。其中,
另外,在表格元素检测模块中,如果在NMS之后保留了具有高置信度的错位元素框,它们仍然不适合训练上下文聚合器和学习它们之间的关系。为了解决这个问题,作者计算了候选框和GT框之间的IoU,并保留了IoU >0.8的框。最后,利用过滤后的边界框构建成对,通过上述二分类来预测它们之间的关系。此外,考虑到每个元素对之间分类的计算复杂度,还引入了蒙特卡罗采样来选择固定数量的样本。详细正向算法流程见下图伪代码。
三、主要实验结果及可视化效果
作者在多个数据集上进行了实验和性能对比,包括:ICDAR 2013,ICDAR 2019,UNLV,SciTSR,TableBank和PubTabNet。采用的评价指标包括:邻接关系的Precision,Recall和F1-score、BELU、TEDS。实验环境:1*Nvidia Tesla V100 GPU (32 GB显存)。表1~3是本文方法与其他方法在上述多个公开数据集上的性能对比,本文的FLAG-Net方法在多个数据集上的性能都优于现有的方法。表4是本文方法与其他方法的前向推理效率的对比,FLAG-Net在综合效果和效率上有一定的优势。
为了验证本文提出的子模块的有效性,作者在ICDAR-2019数据集上进行了消融实验。如表5所示,在分别加入基于Transformer的密集上下文聚合器(DCA)、基于GCN的稀疏上下文聚合器(SCA)、自适应门控(G)和联合训练(JT)的情况下,对最终的定量结果都有一定程度的提升。为了进一步探索FLAG模块关注的上下文信息,作者将DCA中多头注意热图和最后一层SCA的k个邻居的热图可视化,如图3所示,DCA可以关注全局范围内的所有元素,而SCA倾向于从局部上下文建立元素关系,该热图表明SCA的接受域是稀疏的,因为建立的图和KNN选择策略具有很强的归纳偏差。作者还进一步探究FLAG-Net中的门控参数的影响,具有可学习参数的门控模块可以通过自适应调整来整合密集上下文和稀疏上下文之间的优势。如图4所示,均门控参数(黑色)反映了对密集上下文和稀疏上下文的平均关注量,随着训练过程不断减少,表明门控模块在密集和稀疏上下文之间灵活结合的有用性。
表5 FLAG-Net在ICDAR-2019数据集上的消融实验
四、总结及讨论
五、相关资源
参考文献
[1]Saqib Ali Khan, Syed Muhammad Daniyal Khalid, Muhammad Ali Shahzad, and Faisal Shafait. 2019. Table structure extraction with bi-directional gated recurrent unit networks. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 1366–1371.
[2]Shubham Singh Paliwal, D Vishwanath, Rohit Rahul, Monika Sharma, and Lovekesh Vig. 2019. Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 128–133.
[3]Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed. 2017. Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In 2017 14th IAPR international conference on document analysis and recognition (ICDAR), Vol. 1. IEEE, 1162–1167.
[4]Chris Tensmeyer, Vlad I Morariu, Brian Price, Scott Cohen, and Tony Martinez. 2019. Deep splitting and merging for table structure decomposition. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 114–121.
[5]Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li. 2020. Tablebank: Table benchmark for image-based table detection and recognition. In Proceedings of The 12th Language Resources and Evaluation Conference. 1918–1925.
[6]Xu Zhong, Elaheh ShafieiBavani, and Antonio Jimeno Yepes. 2019. Image-based table recognition: data, model, and evaluation. arXiv preprint arXiv:1911.10683 (2019).
[7]Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure. 2020. CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 572–573.
[8]Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, and Fei Wu. 2021. LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment. arXiv preprint arXiv:2105.06224 (2021).
[9]Wenyuan Xue, Qingyong Li, and Dacheng Tao. 2019. ReS2TIM: reconstruct syntactic structures from table images. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 749–755.
[10]Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, and Nancy Xin Ru Wang. 2021. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 697–706.
[11]Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, and XianLing Mao. 2019. Complicated Table Structure Recognition. arXiv preprint arXiv:1908.04729 (2019).
[12]Yiren Li, Zheng Huang, Junchi Yan, Yi Zhou, Fan Ye, and Xianhui Liu. 2020. GFTE: Graph-based Financial Table Extraction. arXiv preprint arXiv:2003.07560 (2020).
[13]Shah Rukh Qasim, Hassan Mahmood, and Faisal Shafait. 2019. Rethinking table recognition using graph neural networks. In 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 142–147.
[14]Sachin Raja, Ajoy Mondal, and CV Jawahar. 2020. Table Structure Recognition using Top-Down and Bottom-Up Cues. In European Conference on Computer Vision. Springer, 70–86.
原文作者:Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji
撰稿:陈邦栋
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法
论文推荐|[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)
[TNNLS 2022] SLOGAN——多样化手写体图像生成
[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
[ACM MM 2021] PIMNet:一种用于场景文本识别的并行、迭代和模仿网络(有源码)
[AAAI 2022]基于上下文的对比学习场景文本识别
[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: