[论文推荐|AAAI 2021]面向真实场景的视觉文档信息抽取:新数据集和新解决方案
一、研究背景
近年来,可视信息抽取技术受到越发广泛的关注。其在如文档理解、信息检索和智能教育等诸多时下热门的任务场景中得到广泛应用。现有的可视信息抽取方法主要分为两个独立的阶段:1)文本检测与识别;2)信息抽取。前者用来得到图片中所包含的全部文本的位置与内容,而后者在前者提供的结果上,进一步提取出特定类别的关键信息。然而,现存方法的局限性主要在于:1)尽管文本检测与识别模型已经学习到有效的特征表示,但在信息抽取部分,这些特征被直接丢弃,而又从OCR结果中重新生成。这导致了计算资源的浪费,并且被丢弃的特征可能比重新学习到的更有效;2)模块间的独立性导致他们的训练过程没有交互,这一方面限制了信息抽取模块所能获得的有用信息量,另一方面也使得文本检测与识别模块无法根据最终目标进行自适应的优化。
二、数据集(EPHOIE)简述
本文提出了一个称为EPHOIE(Examination Paper Head dataset for OCR and Information Extraction)的新数据集基准,是第一个同时兼顾OCR与VIE任务的中文数据集,旨在进一步推动该领域的发展。它同时囊括手写体和印刷体字符,共包含1494张图像,且被划分为1183张图片的训练集和311张图片的测试集。数据集中所有的图片都是从真实的考试试卷中收集扫描得到的不同学校、不同板式的试卷头信息。一些图片如图1所示。
图1 EPHOIE数据集中的一些图像展示
表1 EPHOIE与SROIE数据集的对比
文中将EPHOIE数据集与目前应用最广泛的SROIE数据集进行了比较,结果如表1所示。
图2 EPHOIE数据集标注格式
三、方法(VIES)简述
图3 本文方法整体框架图
本文提出的方法的总体框架如图3所示。它由一个共享主干网络和三个特定的子任务分支——文本检测、识别和信息抽取分支组成。给定一张文档图像,文本检测与识别分支不仅负责定位并识别图中包含的所有文本,同时还通过文中提出的视觉与语义协作机制(Vision And Semantics Coordination Mechanism,VCM and SCM)为后续网络提供丰富的视觉和语义特征。信息提取分支中提出的自适应特征融合模块(Adaptive Feature Fusion Module,AFFM)收集多模态的特征表示,并利用这些特征自适应地生成不同细粒度的融合信息。接下来将对各个子分支进行详细介绍。
1)文本检测分支
给定输入图像,本文首先使用共享主干网络提取高级特征表示X。然后,检测分支采用类似Mask R-CNN[2]的结构将X作为输入,并输出检测框B、置信度C以及为任意四边形框准备的掩码M:
此处,该工作提出了视觉协作机制(VCM),以此将丰富的视觉特征从检测分支送至信息抽取分支,同时也相对的提供更多有效监督信息以帮助检测分支的优化过程。VCM如下述公式及图4所示:
图4 视觉协作机制(VCM)
对于视觉富文档图像,视觉特征中集成了关键的视觉线索,例如形状,字体和颜色等等。信息抽取分支的梯度也可以帮助检测分支学习更泛化的有效表示。
2)文本识别分支
该工作采用了类似传统基于注意力机制的文本识别网络结构,并提出了语义协作机制(SCM)以建立识别分支与信息抽取分支间的双向语义信息流。本文将识别分支中的循环神经网络隐状态S作为每个字符的高级语义表示:
同时,该工作还进一步生成段级别语义特征来融合更全局的信息。它采用1维CNN网络通过字符语义嵌入得到文本段的整体语义表达,其过程如下述公式及图5所示:
图5 语义协作机制(SCM)
通过这种方式,识别分支所提取的字符级和片段级语义信息可以直接向后传递,而信息抽取分支所包含的更高级语义约束也可以反过来指导识别分支的训练过程。
3)信息抽取分支
在信息抽取模块,该工作首先通过检测到的文本框提取空间位置特征:
值得注意的是,本文根据识别出的字符串的长度将整个片段级别文本框沿最长边均匀地划分为多个单字符框,并以此利用上述提到的计算公式,可分别得到字符级别和片段级别的视觉和位置特征。
在得到来自多源的多细粒度特征表示后,本文提出自适应特征融合模块(AFFM)对信息执行进一步增强。AFFM由多头自注意力模块和线性变换层组成:
最后,本文将字符级和片段级融合特征拼接在一起,送入最后的序列标注模型。本文采用经典的双向长短时记忆网络(BiLSTM)与条件随机场层(CRF layer)结构,对识别模块得到的结果进行分类。
四、主要实验结果及可视化效果
表2 端到端联合优化策略消融实验结果
本文首先探究了其提出的端到端联合优化方式的有效性,实验结果如表2所示。端到端方法使模型在各子任务上的表现都有显著的提升。
表3 VCM与SCM结构消融实验结果
接着,该工作对比了VCM和SCM不同建模方式的区别,实验结果如表3所示。本文最终选用的方式可以充分地发挥端到端优化的效果。
表4 不同来源特征消融实验结果
最后,该工作同样探究了不同来源特征的影响,实验结果如表4所示。信息的模态多样性可以为模型效果带来进一步的提升。
表5 EPHOIE数据集实验结果
表6 SROIE数据集实验结果
表5和表6展示了部分当下最先进方法在EPHOIE数据集和SROIE数据集上的结果。可以看到,本文提出的VIES取得了最高的指标。
图6 EPHOIE数据集端到端结果的部分可视化
五、总结及讨论
六、相关资源
参考文献
撰稿:汪嘉鹏编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们:D