[CVPR2022] 端到端的场景文字检测与版面分析统一框架
本文简要介绍谷歌团队在CVPR2022上录用论文“Towards End-to-End Unified Scene Text Detection and Layout Analysis”的主要工作。该论文提出一个基于Object Query建模的端到端网络,可以同时进行场景文字检测和版面分析任务,并且提出了一个具有层次化标注的数据集HierText,数据集已开源。
一、研究背景
文本检测和版面分析是计算机视觉中两个重要的任务。但是在现有的工作中这两者通常是分开进行的。文本检测通常关注于单词级别的检测,并且大多应用于场景文本;而版面分析关注点往往在于文本的几何结构,并且大多应用于电子文档。这两者看似分离但是却又有紧密的联系。本文发现,使用一个端到端的网络同时进行这两个任务不仅可以简化模型,更能分别提升模型在这两个任务上的性能。
二、网络简述
图3 网络整体框架图
图3是这篇文章提出的Unified Detector的整体结构,原理和DETR[1]类似。本文网络由一个共用的Backbone和两个分支组成。Backbone负责从图像中提取特征以及学习一系列的Object Queries。检测分支采用分割的方法进行文本检测任务,版面分析分支则通过计算不同Queries间的相似度来进行几何版面分析任务。
Backbone采用的是图像分割领域中的Max-DeepLab[2]。Max-Deeplab由CNN和Dual-Path Transformer[2]组成。CNN从图形中提取到特征后,Dual-path Transformer就可以通过交叉注意力机制让可学习的Object Queries和图像特征进行信息交互,从而使得到的每个Encoded Queries都能感知到整张图片的像素信息,从而用以进行后续的检测和版面分析任务。
检测分支类似于分割版本的DETR,将Backbone输出的图像特征和Encoded Queries分别送入两个卷积层和两个全连接层进一步提取特征,分别记为f, g,采用Self Attention的计算方法得到mask预测输出
由于网络输出的Mask是无序的,为了让预测和标注进行匹配,采用DETR中的相似策略,使用匈牙利算法[4]来寻找最佳匹配路径,使得预测和标注间的相似度最大。
三、HierText数据集简介
本文数据集最大的特点就是提供了层次化(Hierarchical)的标注, 包括单词级别,文本行级别,段落级别的标注。检测框采用多边形标注,支持曲形文本。同时有文本标注,也可用于文本识别任务。本文数据集另一特点就是文本实例密集,单图平均由103个文本实例,并且分布均匀。
表1 HierText数据集简介
四、实验结果
首先本文在HierText数据集上进行了测试,采用的是图像分割中用到的Panoptic Quality (PQ)[5]评估准则,其本质是F1 Score和Average IoU的乘积。
由于这是一个全新的任务,所以学界还没有可以对比的方法,所以本文就和现有的版面分析引擎和使用不同版面分析分支的网络结构进行对比。如表2所示,本文的方法可以取得较好的效果。
表2 对比实验
同时本文还在场景文字检测上进行了测试。首先将版面分析分支移除,然后在ICADR17 MLT,Total-Text,CTW1500,MSRA-TD500的训练集总和上进行训练,效果表3所示,本文的方法也能取得较好的效果。
表3 场景文字检测实验
五、总结及讨论
六、相关资源
论文地址: https://arxiv.org/abs/2203.15143
数据集地址:https://github.com/google-research-datasets/hiertext
参考文献
[1] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020.
[2] Huiyu Wang, Yukun Zhu, Hartwig Adam, Alan Yuille, and Liang-Chieh Chen. Max-deeplab: End-to-end panoptic segmentation with mask transformers. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5463–5474, 2021.
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017.
[4] Harold W Kuhn. The hungarian method for the assignment problem. Naval research logistics quarterly, 2(1-2):83–97, 1955.
[5] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Dollar. Panoptic segmentation. In ´ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019. 4.
原文作者:Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhias Fujii, Michalis Raptis
撰稿:蒋 擎
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[AAAI 2022] BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)
[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer
[CVPR 2022] TATT:用于场景文本图像超分辨率的文本注意力网络
[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成
[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法(有源码)
[CVPR 2022] SimAN: 基于生成式模型的文本图像自监督表征学习
[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)
[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型
[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)
[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法
[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: