论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
一、研究背景
文档版面分析任务通常是指分析文档的版面结构,并划分为不同的版面区域(如标题、文本、图片、表格等类别),方便后续版面复原,篇章分析,结构化信息提取等任务。本文简要介绍海康威视和浙大发表在ICDAR 2021 (Oral) 的文档版面分析方法VSR。该方法获得了ICDAR 2021 Scientific Literature Parsing版面分析任务的冠军[1]。与单一使用NLP-based的序列标注方法或CV-based的检测分割方法不同,该方法结合文档图像的视觉(Vision)信息,PDF解析得到的文本语义(Semantic)信息,以及版面区域布局关系(Relation)等多模态信息进行版面分析。代码即将开源。
二、VSR原理简述
VSR方法基于Mask R-CNN [2]框架。首先使用双流网络分别提取图像视觉和文本语义特征(下图左边绿、蓝部分),然后经过多尺度自适应聚合模块(下图中间橙色部分)进行特征融合,后续利用Mask R-CNN检测分割得到各个版面区域,最后使用基于Attention的GNN [3]来Refine得到最终结果(下图右半部分所示)。整个方法端到端优化,简洁有效。
图2. VSR方法的整体架构
视觉分支(Visual Stream):
文档图像经过ResNet系列主干网络得到各stage输出的多尺度特征。
语义分支(Semantic Stream):
多尺度自适应融合模块( Multi-scale Adaptive Aggregation):
在Mask R-CNN输出各个Component Candidates结果后,每个Component Candidate的多模态特征和空间位置信息作为GNN的顶点特征。所有的顶点构建成全连通图,利用基于Attention的GNN [3]建模学习顶点的Relation,然后利用GNN Refined的特征进行回归和分类,得到最终的结果。详细过程可阅读原文。
图3. 关系模块
三、主要实验结果及可视化效果
VSR在三个数据集Article Regions、PubLayNet、DocBank都表现出优异的性能,另外在今年ICDAR-2021 Task A任务取得冠军[1]。消融实验也验证了视觉、语义、关系各模块在性能上有效地相互促进。
Table 8. ICDAR-2021 Task A Results
四、总结及讨论
五、相关资源
VSR论文地址:
会议版本:
https://link.springer.com/content/pdf/10.1007%2F978-3-030-86549-8_8.pdf
arXiv版本:
https://arxiv.org/pdf/2105.06220.pdfVSR开源网站:
https://github.com/hikopensource/DAVAR-Lab-OCR海康威视DAVAR-Lab:
https://davar-lab.github.io/competition/icdar2021slp-a.html其他博客对该文解读:
https://bbs.huaweicloud.com/blogs/281178
参考文献
原文作者: Peng Zhang, Can Li, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu, and Fei Wu
撰稿:伍思航
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架
论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)
年度报告 | 自然场景文本检测与识别的深度学习方法【中国图象图形学报综述专刊】
论文推荐|[IJCAI 2021] MatchVIE: 一个基于命名实体匹配相关性的视觉信息抽取学习框架
论文推荐|[CVPR 2021] MOST:具有定位细化功能的多向场景文本检测器
论文推荐|[IJCAI 2021]TCPN: 一个基于序列的弱监督视觉信息抽取学习框架
论文推荐|[CVPR 2021] 基于基元表征学习的场景文字识别
论文推荐| [CVPR2021] Semantic-Aware Video Text Detection
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: