论文推荐|[ICDAR 2021]基于局部和全局金字塔掩模对齐的复杂表格结构识别(有源码)
一、研究背景
表格是财务报表、科学文献、采购清单等许多真实文档中信息丰富的数据格式之一。除了文本内容,表格的结构对于人们进行关键信息的提取至关重要。因此,表格结构识别成为当前文档理解系统中的重要技术之一。传统的表格识别研究主要采用手工特征和启发式规则,这些方法大多应用于简单的表结构或特定的数据格式,如PDF。随着深度神经网络在计算机视觉领域的巨大成功,人们开始关注具有更加一般结构的基于图像的表格。本文将以前的方法大致分为两类:基于全局对象的方法和基于局部对象的方法。
基于全局对象的方法主要关注全局表格组件的特性,大多从行/列或网格边界检测开始。不少方法[1~5]使用基于检测或分割的方法来获取表格行/列区域,进一步通过这些区域的交叠来获取单元格区域。还有一些方法[6~7]直接感知整个图像信息,并使用编码器-解码器框架直接将表格结构输出为文本序列。尽管这些方法看起来很优雅,完全避免了人为因素的影响,但这些模型通常很难训练,并且需要依赖大量的训练数据。基于全局对象的方法通常难以处理各种复杂的表结构,例如跨多行/列的单元格或包含多行文本的单元格。
基于局部对象的方法从最小的基本元素单元格开始。给定单元格级别的文本区域标注,该任务可以相对容易的通过一般的通用检测方法完成,例如YOLO,Faster R-CNN等。在获得对应的框之后,可以基于一些启发式规则和算法恢复单元格关系。或者,一些方法[8~11]将检测到的框视为图节点,并基于图神经网络来预测节点间的连接关系。由于没有检测到空单元,基于局部对象的方法通常对存在空单元的表格效果不好。
二、LGPMA原理简述
如图1所示是LGPMA的整体工作流程。该模型是基于Mask-RCNN框架实现的,图中最左边的边界框检测分支直接学习非空单元格对齐边界框的检测任务。该网络同时学习基于 RoI-Align操作提取的局部特征的局部金字塔掩码对齐(LPMA)任务和基于全局特征图的全局金字塔掩码对齐(GPMA)任务。在LPMA中,除了学习文本区域的分割任务外,还使用水平和垂直方向上的金字塔软掩模作为监督来训练网络。在GPMA中,网络学习所有非空单元格对齐边界框的全局金字塔掩模。为了获得更多关于空单元分割的信息,网络还学习了非空单元格和空单元格的全局分割任务。然后采用金字塔Mask重新评分模块对预测的金字塔Mask进行调整,然后通过平面聚类可以得到精确对齐的边界框。最后使用一个的结构重建流程,包括单元匹配、空单元搜索、空单元合并,以获得最终的表结构。
图1 LGPMA的整体框图
对齐框检测:该任务的难点主要来自文本区域与真实单元格区域之间的覆盖范围差距,实际单元格区域可能包含行/列对齐的空白区域,尤其是跨多行/列的单元格。在文本区域和行/列索引的标注基础上,根据每行/列中的最大框高度/宽度生成对齐边界框标签。对于打印格式且无视觉旋转或透视变换的表格图像,如果能够获得对齐的单元格区域并假设没有空单元格,则很容易根据水平和垂直方向上的坐标重叠信息推断单元格关系。采用Mask-RCNN作为基础模型,并用对齐边界框作为监督对网络进行训练。然而对齐边界框的学习并不容易,因为单元格很容易与空白区域混淆。为此,作者使用软标签分割来突破边界框的限制,并获得更精确的对齐边界框。
局部金字塔掩模对齐:在这部分,作者训练模型学习文本区域分割任务和单元格金字塔掩模回归任务。文本区域分割任务与以往的分割模型相同,其中只有文本区域标记为1,其他区域标记为0。对于单元格金字塔掩模回归任务,作者在水平和垂直方向上为对齐边界框区域中的像素分配值,如图2所示,文本的中间点为最大的回归目标1,远离中心点的像素的值随着距离线性下降。通过这种方式,单元格区域中的每个像素都能够参与预测边界。
图2 (a) 红色的文本bbox和蓝色的单元格对齐bbox;(b) 水平和垂直方向上的金字塔掩模标签
全局金字塔掩模对齐:为了确定单元格的准确覆盖区域,全局特征还可能提供一些视觉线索,从全局视图中学习每个像素的偏移可以帮助定位更精确的边界。作者使用金字塔标签作为每个像素的回归目标,称为GPMA。与LPMA一样,GPMA同时学习:全局分割任务和全局金字塔掩模回归任务。在全局分割任务中,直接分割所有对齐的单元格,包括非空单元格和空单元格,只有此任务才能学习空单元格分割信息。对于全局金字塔掩模回归,所有非空单元格将被分配类似于LPMA的金字塔标签。
前向推理阶段:推理过程分为两个阶段,首先根据金字塔掩码预测得到精确对齐的边界框,然后利用所提出的结构恢复管道生成最终的表结构。
(a)对齐框Refine:为了综合全局和局部这两者的优点,作者提出了一种金字塔掩码重新评分策略。对于具有局部金字塔掩码预测的任何区域,作者添加来自全局金字塔掩码的信息以调整这些预测结果。对于预测的对齐边界框B={(x1, y1), (x2, y2)}和文本区域掩码的边界框Bt={(x’1,y’1), (x’2, y’2)},点(x, y)的预测值可按如下方式重新计算。
其中
然后对于每个预测区域,可以使用水平和垂直金字塔Mask(对应于z坐标)分别拟合三维空间中的两个平面。所有四个平面与零平面的相交线都是Refine之后的边界。例如,为了对对齐框的右边界进行Refine。将需要拟合的平面当做ax+by+c− z=0,使用最小二乘法,则该问题等于最小化方程(3),具体的计算和最终Refine之后的结果如式子(4~5)所示。同理可获得其他三条Refine之后的边界,从而获取Refine之后的对其边界框。
(b)表格结构重建流程:基于精确对齐的边界框,表格结构重建流程旨在获得最终的表格结构,包括三个步骤:单元格匹配、空单元格搜索和空单元格合并,如图3所示。单元格匹配过程简单鲁棒,将连接关系分为水平和垂直,如果两个对齐框在x/y坐标上有足够的重叠,就在垂直/水平方向上匹配它们。在获得对齐框关系后,将它们视为图节点,连接关系视为边,同一行/列中的所有节点构成一个完整的子图,采用最大团搜索算法来查找图的所有最大团。以行搜索为例,属于同一行的每个节点都将位于同一个群组中。对于跨越多行的单元格,相应的节点将在不同的组中多次出现。通过平均y坐标对这些团进行排序后,可以很容易地用其行索引标记每个节点。这样就可以很容易地找到与空单元格相对应的空缺位置。这些位置属于最小级别的空单元格(占用1行1列)。为了合理合并这些空单元格,首先根据每行每列的宽度和高度给单个空单元格指定一个Bbox。由于全局分割任务学习到的视觉线索,可以根据分割结果设计简单的合并策略。通过计算每两个相邻空单元的间隔区域中预测为1的像素比率,如图3所示的红色区域。如果比率大于预设阈值,则将合并这两个单元格。该方法直接采用全局分割提供的原始视觉线索,并使用像素投票获得更可靠的结果。
三、主要实验结果及可视化效果
作者在三个公开的表格识别数据集上进行了实验和性能对比,包括:ICDAR 2013[12],SciTSR[2]和PubTabNet[7]。实验环境:8×32 GB-Tesla-V100 GPUs。表1是本文方法与其他方法在ICDAR 2013和SciTSR数据集上的性能对比,评测指标为:Precision,Recall和F1-Score,可以看到本文的LGPMA方法在两个数据集上的性能都优于现有的方法。表2是本文与其他方法在PubTabNet数据集上的性能对比,评测指标为:TEDS[7],可以看到本文方法比现有SOTA方法高出1.6%。
表2 本文与其他方法在PubTabNet数据集上的对比
图4展示了不同数据集上的一些可视化结果,其中绿色框是预测的非空单元格Bbox,蓝色框是经过重建流程得到的空单元格的Bbox。可以看到,LGPMA模型可以预测单元格的准确边界,即使是那些跨多行/列的单元格。图5展示了一个经过对齐框Refine模块之后成功预测的例子,其中(a)是最开始预测出来的对齐框,可以发现有些框没有足够的宽度,可能会导致错误的匹配结果。但是经过LPMA和GPMA的融合Refine,可以发现在(e)中,大多数框都能够比较好的对齐,这样才能够更准确的进行空单元格恢复以及结构重建。
图4 不同数据集上的可视化结果
图5 经过对齐框refine模块之后成功预测的例子
作者PubTabNet数据集上随机选取60000和1000张图片,分别作为训练集和验证集进行消融实验。第一个消融实验是为了验证本文设计的模块的有效性,实验结果如表3所示,评测指标为:结构TEDS,文本区域的检测结果以及对齐框的检测结果,其中检测指标的IoU为0.7并且评测的时候忽略空单元格。从结果可以看出,加上LPMA和GPMA模块都能提高对齐框的检测指标以及表格结构TEDS指标。为了验证提出的表格重建流程的有效性,作者对比了不同的空单元格合并策略,如表4所示,实验结果表明,无论是否使用检测的Bbox还是GT框,所提出的表格结构重建流程都能比其他策略更有效。
表3 提出的不同模块对对齐框检测性能的影响
表4 不同空单元格合并策略的消融实验
四、总结及讨论
五、相关资源
论文地址:https://arxiv.org/pdf/2105.06224.pdf
开源代码:https://github.com/hikopensource/DAVAR-Lab-OCR/tree/main/demo/text_layout/VSR
项目地址:https://github.com/hikopensource/DAVAR-Lab-OCR
参考文献
[1]Schreiber, S., Agne, S., Wolf, I., Dengel, A., Ahmed, S.: Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In: ICDAR. pp. 1162–1167 (2017)
[2]Siddiqui, S.A., Fateh, I.A., Rizvi, S.T.R., Dengel, A., Ahmed, S.: Deeptabstr: Deep learning based table structure recognition. In: ICDAR. pp. 1403–1409 (2019)
[3]Siddiqui, S.A., Khan, P.I., Dengel, A., Ahmed, S.: Rethinking semantic segmentation for table structure recognition in documents. In: ICDAR. pp. 1397–1402 (2019)
[4]Tensmeyer, C., Morariu, V.I., Price, B.L., Cohen, S., Martinez, T.R.: Deep splitting and merging for table structure decomposition. In: ICDAR. pp. 114–121 (2019)
[5]Paliwal, S.S., D, V., Rahul, R., Sharma, M., Vig, L.: Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images. In: ICDAR. pp. 128–133 (2019)
[6]Li, M., Cui, L., Huang, S., Wei, F., Zhou, M., Li, Z.: Tablebank: Table benchmark for image-based table detection and recognition. In: LREC. pp. 1918–1925 (2020)
[7]Zhong, X., ShafieiBavani, E., Jimeno-Yepes, A.: Image-based table recognition: Data, model, and evaluation. In: ECCV. vol. 12366, pp. 564–580 (2020)
[8]Chi, Z., Huang, H., Xu, H., Yu, H., Yin, W., Mao, X.: Complicated table structure recognition. CoRR abs/1908.04729 (2019)
[9]Li, Y., Huang, Z., Yan, J., Zhou, Y., Ye, F., Liu, X.: GFTE: graph-based financial table extraction. In: ICPR Workshops. vol. 12662, pp. 644–658 (2020)
[10]Qasim, S.R., Mahmood, H., Shafait, F.: Rethinking table recognition using graph neural networks. In: ICDAR. pp. 142–147 (2019)
[11]Raja, S., Mondal, A., Jawahar, C.V.: Table structure recognition using top-down and bottom-up cues. In: ECCV. Lecture Notes in Computer Science, vol. 12373, pp. 70–86 (2020)
[12]Göbel, M., Hassan, T., Oro, E., & Orsi, G.: ICDAR 2013 table competition. In 2013 12th International Conference on Document Analysis and Recognition (pp. 1449-1453). IEEE.
原文作者: Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu
撰稿:陈邦栋
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测
论文推荐|[ICCV 2021] 面向表格结构识别的表格图重构网络(有源码)
论文推荐|[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器
论文推荐|[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割
论文推荐|[ICCV 2021] Handwriting Transformer
论文推荐|[ACM MM2021]尝试理解交通标志
论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: