ICDAR 2019表格识别论文与竞赛综述(下)
(...续前)
c) 表格识别数据集
在表格识别领域,数据集规模一直是一个有待解决的问题。此前在表格识别或版面分析领域中,规模较大的数据集包括Marmot和ICDAR2017 POD竞赛数据集,也仅仅包含数千张文档页面图像而已,这对于数据驱动的深度学习方法来说是不够的,导致训练出的模型并没有有足够说服力的泛化能力和鲁棒性。所以在最近的工作中,也有不少学者针对表格识别领域发布了一些数据集,此次ICDAR2019会议中也不例外。
图18 TABLE2LATEX-450K数据集[6]中表格-Latex代码示例
在《Challenges in End-to-end Neural Scientific Table Recognition》[6]一文中,作者通过提取arXiv文章的Latex源码中的表格部分,得到了一个规模较大的表格结构识别数据集:TABLE2LATEX-450K,数据集地址为:https://github.com/bloomberg/TABLE2LATEX。该数据集包含约46.6万个表格-Latex代码对样例,样例如图18所示,从文档层面分为了训练集(约44.7万)、验证集(约0.9万)和测试集(约0.9万),因为同一个文档中的表格往往趋于相似的样式,这样分割数据集可以保证各个数据集中样式的多样性。所以,这个数据集实际上将表格结构识别任务作为了一个图像到文本(Image2Text)的转化任务。作者提供了一个基线模型,基于一个公式到Latex的转换模型IM2TEX,该模型分为编码器和解码器两个部分,编码器使用CNN提取了图像特征后,再使用双向LSTM重编码特征图的每一行;解码器部分则通过带注意力机制的LSTM模型来生成Latex符号序列,得到表格对应的Latex源码。作者使用了两种评价标准来评测出基线模型效果,分别是BLEU值和精确匹配率,前者从自然语言的角度来评价源码的精确性,后者则是从宏观的角度来看与Ground Truth完全一致的表格识别结果有多少,最终它们分别为40.33和32.40%,我们可以看出两个性能指标上都还有比较大的提升空间。这个数据集的规模已足以支撑更多的深度学习方法应用到表格结构识别任务上。
《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》[11]一文中,作者通过抽取EnronCorpus,得到了一个包含1165份文件的数据集。该数据将表格的非空单元格标注为表格头、数据和注释等,同时注明了表格边界。对于不含表格的文件,使用了例如:模板、表单、报表等类别进行标注。文章详细阐述了标注方法并对标注结果进行了分析和讨论。作者还公开了数据和标注工具,网址是:https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/。数据集的标注分为两类,一类是含表格的文件,重点对非空单元格进行标注,标注的标签有Data、Header、Derived、GroupHeader、Title、Note和Other,同时还包含了每个单元格的位置信息。对于不含表格的文件,重点对文件属性进行了标注,分别是Form/Template、Report/Balance、Chart、List、NoHeader和Other。一个标注表格样例如图19所示。在标注数据集之前,为保证数据分布的平衡,作者先对Enron Corpus进行了筛选,删除了部分名称相近的文件和大于5MB的文件。由于选择了多个人员进行标注,为保证标注的一致性,作者对不同个人标注的结果进行了对比验证,分析结果显示,不同个人对Data标签的标注相同比例可以达到0.98的效果。本数据集除了可以服务于电子表格的结构识别研究外,也适用于电子表格研究的其他领域。
在ICDAR2019会议中,也有很多单位举办了各种与文档识别相关的比赛,其中也包括表格识别相关的比赛。由北京大学王选计算机研究所、方正数字出版技术国家重点实验室、法国Naver Lab Europe、奥地利Computer Vision Lab、德国Archiv des Bistums Passau共同举办的ICDAR2019表格检测与识别比赛(ICDAR2019 Competition on Table Detection and Recognition, cTDaR)[26]正是这样一个面向表格检测与识别任务的比赛,比赛官方网站为http://sac.founderit.com/。
在cTDaR中,主办方一共设置了两个任务,分别是文档图像中的表格检测与表格结构识别,两个任务的输入都只包含图像数据,不包含其他类型的数据。其中,在第二个任务中,又分为两种类型的子任务,一种的输入是表格区域图像,参赛者可以从表格结构识别这一步直接做起,而另一种则是提供整个文档页面图像,参赛者需要将表格检测和结构识别任务同时解决。两个任务的目标与常规的表格检测与结构识别任务目标一致。数据集方面,该比赛提供的数据集中同时包含了两种数据,分别是现代的电子文档页面图像和历史手写文档页面图像,共超过2500张,以考验参赛者使用方法的可靠性和鲁棒性。
对于结果性能评测,表格检测的评测方法就是在不同IoU阈值(0.6、0.7、0.8、0.9)下得到表格区域匹配的准确率、召回率和F1值,考虑到IoU阈值越高任务越有难度,并且实用性越高,主办方最终按照IoU值加权平均的F1值进行队伍排名。而对于表格结构识别任务来说,比赛参考了ICDAR2013表格竞赛中表格结构识别任务的评测方法,也就是对单元格的邻接关系的匹配准确率、召回率和F1值进行考量。与ICDAR2013表格竞赛中使用单元格内容识别单元格的方法不同,该比赛中不考虑单元格内容,而是使用单元格内容的紧致区域在不同IoU阈值(0.6、0.7、0.8、0.9)下的匹配作为识别单元格的方法,如果参赛者预测的单元格区域和Ground Truth中某个单元格区域的IoU超过一定阈值,则认为参赛者找到了这个单元格。之后,再根据匹配上的单元格生成单元格间的关系,以此作为评测对象。这种方法省略了属于OCR的内容识别部分,让参赛者更专注于表格单元格物理位置识别与逻辑结构的提取任务上。
最终,该比赛共有来自世界各地的11支队伍提交了有效结果,其中表格检测任务中全部队伍都提交了有效结果,表格结构识别任务中仅有2支队伍提交了有效结果。
在表格检测任务中,来自CCi Intelligence Co., Ltd.的Table Radar团队取得了最好的结果,最终的加权平均F1值达到了94.23%,并且在IoU阈值由低变高时,他们的方法效果性能损失幅度相对最小,说明他们的方法有较强的鲁棒性和可靠性。根据该队的方法描述,他们先使用一个分类器将整个数据集的现代电子文档和历史手写文档分开,然后使用两个独立的Faster R-CNN模型进行训练。最后再使用若干简单的后处理(合并重叠过大的区域、根据表格线条扩张表格区域等)以得到最终的检测结果。
在表格结构识别任务中,来自中国科学院自动化所模式识别国家实验室的NLPR PAL团队提交了更好的比赛结果。对于第一个子任务,他们的方法的加权平均F1值为48.46%,而对于第二个子任务,加权平均F1值为45.35%。该队也是先通过启发式方法将现代电子文档和历史手写文档分开,然后再进行表格结构识别。对于历史手写文档,他们先使用全卷积网络FCN提取出表格中的引导线条和接合点,并通过接合信息来修复那些断裂的线条,修复完成后,使用连通域分析方法来提取单元格区域,之后根据单元格的竖直和水平邻居查找确定单元格范围并构建单元格邻接图,最终据此输出单元格邻接关系。对于现代电子文档,则直接将表格文本行区域视为单元格,然后用和历史手写文档相同的方法分析出单元格邻接关系。
从比赛结果可以看到,高精度(高IoU阈值)的表格区域检测任务仍然还有性能提升的余地,并且深度学习方法在该任务上相对来说有比较好的表现;而表格结构识别任务仍然有相当大的性能提升空间,又因为该任务本身的特殊性与独特性,它非常值得研究者们进一步挖掘针对此任务有效的深度学习方法。此外,对于表格结构识别任务的研究来说,包含大量的标注数据的可靠数据集也是目前特别需要的。
虽然世界各地的研究者们在表格识别问题上已经进行了数十年的研究,但是到目前为止,这个领域依然面临着众多挑战,我们对此简要分析,列举如下:
复杂的版面样式。直观上来看,表格就是一个简单的二维数据结构,但是由于文档类型、数据类型、文档作者偏好等要素的多样性以及本质上完全自由的排版规则,文档版面样式,包括表格样式也趋向于多样性和复杂性,提出一种方法将所有种类的版面样式全部考虑进去是极其困难的,所以这也更加要求研究者提出的方法或模型具有识别其中关键信息与过滤无用信息的能力、强大的鲁棒性与泛化能力。
针对表格独有特征的处理。深度学习方法被越来越多地应用到表格识别领域,但实际上在一部分数据集或者任务上,深度学习方法并没有比传统的基于规则的方法有明显的性能优势,其中的一大原因就是大部分工作几乎就是直接将基于自然图像的深度学习方法迁移到文档图像上,并没有针对文档页面对象(如表格等)独有的特征做出相应的调整。虽然有图神经网络等方法相对贴合文档中各对象的组织方式,但目前的工作中尚没有针对文档图像和文档对象特点做出有效的调整。如何针对文档对象,尤其是表格对象独有的特征进行处理,是未来研究有待思考和研究的一个问题。
更有效的表格结构识别方法。从本次ICDAR2019会议的论文和比赛,以及之前的一些工作来看,表格结构识别任务仍然有相当大的提升空间,无论是在性能上还是在方法与模型上都是如此。在未来的研究工作中,我们还可以从各个角度探索表格结构识别的方法,因为它与自然图像的识别任务没有太大相似度,是文档识别领域的一个特色任务,所以目前已有的大部分针对自然图像的方法并不能直接在表格结构识别领域展现出可观的结果,需要更多地挖掘与探究有针对性的识别方法。近些年来已有这种趋势,产生了一些创新的表格结构识别模型和方法上,也取得了不错的效果,但仍然有很大的提升空间。
一个针对表格结构识别的更为合理有效的评测方法。在以前的工作中,有使用单元格邻接关系匹配、单元格种类查找准确率等基于元素匹配的评测方法,也有使用表格的HTML、Latex源码作为Ground Truth,然后从自然语言角度计算BLEU值的评测方法。从应用的角度来看,使用源码作为表格结构识别的结果具有很强的应用性;但从问题定义的角度来看,源码实际上包含了表格逻辑结构外很多额外的、不重要的信息,如表格线条、单元格具体内容等,而又有可能丢失一些有用的信息,如各单元格在文档中的位置等。因为表格结构识别的最终目的其实是得到整个表格的单元格之间的逻辑结构,表格线条的分布和有无实际上与此无关,而单元格的具体内容是什么则属于其他类型的任务(如OCR等),可以在知道单元格位置的情况下作为后处理进行提取。所以,在未来的研究工作中,我们还需要探索一种更有效的、更能直观反映人类直觉的并且能够被研究者们所承认的表格结构识别评测方法。
表格识别作为文档识别的一个子领域,包含表格检测与表格结构识别两个子任务,已经被研究者广泛关注,取得了诸多研究成果与进步。表格识别也是文档分析与识别国际会议ICDAR的一个重要主题。本课题组回顾与总结了ICDAR2019会议中有关表格识别的论文,对他们的方法与实验结果做了一个整理和概要,以帮助研究者们了解这个领域的最新进展。同时,我们对该会议中的表格检测与识别比赛做了一个简要的介绍与回顾,分析了当前业界和学术界的常用方法。最后,依据当前的研究进展情况,我们指出了一些依旧存在的问题和挑战,为研究者们提供了一些未来可能的研究方向。值得说明的是,限于水平和篇幅,有些论文可能会有遗漏和分析错误,还请批评指正。(本文通讯作者:高良才,Email: gaoliangcai@pku.edu.cn , 北京大学王选计算机研究所版面理解课题组)[1] L.Melinda and C. Bhagvati, "Parameter-free table detection method," in the 15th IAPR International Conference onDocument Analysis and Recognition, 2019.[2] J.-L. Meunier and H. Déjean,"Table Rows Segmentation," in the15th IAPR International Conference on Document Analysis and Recognition,2019.[3] N. Sun, Y. Zhu, and X. Hu,"Faster R-CNN Based Table Detection Combining Corner Locating," in the 15th IAPR International Conference on Document Analysis and Recognition, 2019.[4] W. Xue, Q. Li, and D. Tao,"ReS2TIM: Reconstruct Syntactic Structures from Table Images," in the 15th IAPR International Conference onDocument Analysis and Recognition, 2019.[5] S. R. Qasim, H. Mahmood, and F.Shafait, "Rethinking Table Recognition using Graph Neural Networks,"in the 15th IAPR International Conferenceon Document Analysis and Recognition, 2019.[6] Y. Deng, D. Rosenberg, and G. Mann,"Challenges in end-to-end neural scientific table recognition," in the 15th IAPR International Conference on Document Analysis and Recognition, 2019.[7] Y. Li, Q. Yan, Y. Huang, L. Gao, andZ. Tang, "A GAN-based Feature Generator for Table Detection," in the 15th IAPR International Conference onDocument Analysis and Recognition, 2019.[8] E. Koci, M. Thiele, O. Romero, and W.Lehner, "A Genetic-based Search for Adaptive Table Recognition in Spreadsheets," in the 15th IAPR International Conference on Document Analysis and Recognition, 2019.[9] S. A. Khan, S. M. D. Khalid, M. A.Shahzad, and F. Shafait, "Table Structure Extraction with Bi-directional Gated Recurrent Unit Networks," in the15th IAPR International Conference on Document Analysis and Recognition,2019.[10] C. Tensmeyer, V. I. Morariu, B. Price,S. Cohen, and T. Martinez, "Deep Splitting and Merging for Table Structure Decomposition," in the 15th IAPR International Conference on Document Analysis and Recognition, 2019.[11] E. Koci, M. Thiele, J. Rehak, O.Romero, and W. Lehner, "DECO: A Dataset of Annotated Spreadsheets forLayout and Table Recognition," in the15th IAPR International Conference on Document Analysis and Recognition,2019.[12] P. Riba, A. Dutta, L. Goldmann, A.Forn´es, O. Ramos, and J. Llad´os, "Table Detection in Invoice Documents by Graph Neural Networks," in the15th IAPR International Conference on Document Analysis and Recognition,2019.[13] S. Paliwal, V. D, R. Rahul, M. Sharma,and L. Vig, "TableNet: Deep Learning model for end-to-end Table detectionand Tabular data extraction from Scanned Document Images," in the 15th IAPR International Conference on Document Analysis and Recognition, 2019.[14] S. A. Siddiqui, P. I. Khan, A. Dengel,and S. Ahmed, "Rethinking Semantic Segmentation for Table Structure Recognition in Documents," in the15th IAPR International Conference on Document Analysis and Recognition,2019.[15] S. A. Siddiqui, I. A. Fateh, S. T. R.Rizvi, A. Dengel, and S. Ahmed, "DeepTabStR: Deep Learning based TableStructure Recognition," in the 15th IAPRInternational Conference on Document Analysis and Recognition, 2019.[16] T. Kieninger and A. Dengel, "Apaper-to-HTML table converting system," in Proceedings of document analysis systems (DAS), 1998, vol. 98.[17] T. Kieninger and A. Dengel,"Applying the T-RECS table recognition system to the business letter domain," in Proceedings of SixthInternational Conference on Document Analysis and Recognition, 2001, pp.518-522: IEEE.[18] B. Yildiz, K. Kaiser, and S. Miksch,"pdf2table: A method to extract table information from pdf files," in IICAI, 2005, pp. 1773-1785.[19] T. Hassan and R. Baumgartner,"Table recognition and understanding from pdf files," in Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), 2007, vol. 2, pp. 1143-1147: IEEE.[20] J. Fang, L. Gao, K. Bai, R. Qiu, X.Tao, and Z. Tang, "A table detection method for multipage pdf documents via visual seperators and tabular structures," in 2011 International Conference on Document Analysis and Recognition,2011, pp. 779-783: IEEE.[21] X. Chen, L. Chiticariu, M. Danilevsky,A. Evfimievski, and P. Sen, "A Rectangle Mining Method for Understandingthe Semantics of Financial Tables," in 201714th IAPR International Conference on Document Analysis and Recognition (ICDAR),2017, vol. 1, pp. 268-273: IEEE.[22] E. Koci, M. Thiele, W. Lehner, and O.Romero, "Table recognition in spreadsheets via a graph representation," in 2018 13th IAPR International Workshop on Document Analysis Systems (DAS), 2018, pp.139-144: IEEE.[23] M. Göbel, T. Hassan, E. Oro, and G.Orsi, "ICDAR 2013 table competition," in 2013 12th International Conference on Document Analysis and Recognition,2013, pp. 1449-1453: IEEE.[24] L. Gao, X. Yi, Z. Jiang, L. Hao, and Z.Tang, "Icdar2017 competition on page object detection," in 2017 14th IAPR International Conference onDocument Analysis and Recognition (ICDAR), 2017, vol. 1, pp. 1417-1422:IEEE.[25] Y. Huang et al., "A YOLO-based Table Detection Method," in the 15th IAPR International Conference on Document Analysis and Recognition, 2019.[26] L. Gao et al., "ICDAR 2019 Competition on Table Detection and Recognition (cTDaR)," in the 15thIAPR International Conference on Document Analysis and Recognition, 2019.
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。
(扫描识别如上二维码加关注)