查看原文
其他

[CVPR2022] 端到端的场景文字检测与版面分析统一框架

​蒋擎​ CSIG文档图像分析与识别专委会 2022-07-31

本文简要介绍谷歌团队在CVPR2022上录用论文“Towards End-to-End Unified Scene Text Detection and Layout Analysis”的主要工作。该论文提出一个基于Object Query建模的端到端网络,可以同时进行场景文字检测和版面分析任务,并且提出了一个具有层次化标注的数据集HierText,数据集已开源。 

图1 HierText数据集样例

一、研究背景



文本检测和版面分析是计算机视觉中两个重要的任务。但是在现有的工作中这两者通常是分开进行的。文本检测通常关注于单词级别的检测,并且大多应用于场景文本;而版面分析关注点往往在于文本的几何结构,并且大多应用于电子文档。这两者看似分离但是却又有紧密的联系。本文发现,使用一个端到端的网络同时进行这两个任务不仅可以简化模型,更能分别提升模型在这两个任务上的性能。 

图2 一个端到端网络同时进行两项任务

二、网络简述



 

图3 网络整体框架图

图3是这篇文章提出的Unified Detector的整体结构,原理和DETR[1]类似。本文网络由一个共用的Backbone和两个分支组成。Backbone负责从图像中提取特征以及学习一系列的Object Queries。检测分支采用分割的方法进行文本检测任务,版面分析分支则通过计算不同Queries间的相似度来进行几何版面分析任务。

Backbone采用的是图像分割领域中的Max-DeepLab[2]。Max-Deeplab由CNN和Dual-Path Transformer[2]组成。CNN从图形中提取到特征后,Dual-path Transformer就可以通过交叉注意力机制让可学习的Object Queries和图像特征进行信息交互,从而使得到的每个Encoded Queries都能感知到整张图片的像素信息,从而用以进行后续的检测和版面分析任务。

检测分支类似于分割版本的DETR,将Backbone输出的图像特征和Encoded Queries分别送入两个卷积层和两个全连接层进一步提取特征,分别记为f, g,采用Self Attention的计算方法得到mask预测输出同时还会将Encoded Queries送入一个分类分支得到每张Mask的置信度。在网络推理的时候,使用一个置信度阈值过滤掉低置信度的Mask后,将剩余Mask沿着通道维度进行拼接并求取Argmax后即得到最终预测。

版面分析分支使用Encoded Queries来计算相似度。首先将Encoded Queries送入Text Clustering Head中提取特征,该结构是三层MHSA[3],目的是使用自注意力机制来让Queries互相学习。之后对输出的Queries互相计算内积,得到相矩阵。在推理的时候将相似度大于阈值的归为同一个文本簇。 

由于网络输出的Mask是无序的,为了让预测和标注进行匹配,采用DETR中的相似策略,使用匈牙利算法[4]来寻找最佳匹配路径,使得预测和标注间的相似度最大。

三、HierText数据集简介



本文数据集最大的特点就是提供了层次化(Hierarchical)的标注, 包括单词级别,文本行级别,段落级别的标注。检测框采用多边形标注,支持曲形文本。同时有文本标注,也可用于文本识别任务。本文数据集另一特点就是文本实例密集,单图平均由103个文本实例,并且分布均匀。 

表1 HierText数据集简介

 

图4 HierText文本空间分布

四、实验结果



首先本文在HierText数据集上进行了测试,采用的是图像分割中用到的Panoptic Quality (PQ)[5]评估准则,其本质是F1 Score和Average IoU的乘积。 

由于这是一个全新的任务,所以学界还没有可以对比的方法,所以本文就和现有的版面分析引擎和使用不同版面分析分支的网络结构进行对比。如表2所示,本文的方法可以取得较好的效果。 

表2 对比实验

同时本文还在场景文字检测上进行了测试。首先将版面分析分支移除,然后在ICADR17 MLT,Total-Text,CTW1500,MSRA-TD500的训练集总和上进行训练,效果表3所示,本文的方法也能取得较好的效果。

表3 场景文字检测实验

五、总结及讨论



本文提出了一种基于Object Queries的端到端网络,可以同时进行场景文字检测和版面分析。同时本文还开源了一个具有层次化标注的数据集HierText,可用于自然场景下的文字检测,文字识别,版面分析这三个任务。

六、相关资源



  • 论文地址: https://arxiv.org/abs/2203.15143

  • 数据集地址:https://github.com/google-research-datasets/hiertext

参考文献



[1] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020.

[2] Huiyu Wang, Yukun Zhu, Hartwig Adam, Alan Yuille, and Liang-Chieh Chen. Max-deeplab: End-to-end panoptic segmentation with mask transformers. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5463–5474, 2021.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017.

[4] Harold W Kuhn. The hungarian method for the assignment problem. Naval research logistics quarterly, 2(1-2):83–97, 1955.

[5] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Dollar. Panoptic segmentation. In ´ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019. 4.



原文作者:Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhias Fujii, Michalis Raptis


撰稿:蒋 擎

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾





欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存