论文推荐|[CVPR 2021] MOST:具有定位细化功能的多向场景文本检测器
本文简要介绍CVPR 2021论文“MOST: A Multi-Oriented Scene Text Detector with Localization Refinement”的主要工作。该论文针对场景文本中的极端纵横比和不同尺度的文本实例提出了一种新的场景文本检测算法,显著提升了文本定位的质量。将文中提出的方法和场景文本检测器EAST[1]相结合,可以保持快速运行的同时在各种数据集上达到SOTA或者相当的效果。
一、研究背景
近年来,场景文本阅读已经成为计算机视觉领域中一个活跃的研究课题。场景文本阅读在很多应用场景有重要的价值,例如视频索引、招牌阅读和即时翻译这些应用都需要从自然图像中自动提取文本信息。在深度神经网络和大量的数据驱动下,场景文本阅读在过去几年有了很大的进展,然而现有的算法在处理极端宽高比和不同尺度的文本实例时效果仍然有待提高。从图一的(b)中可以发现,EAST对长文本检测的效果不太理想。
图1 (a)(b):EAST检测结果 ;(c)(d):MOST检测结果。
二、方法原理简述
图2 网络整体框架
图2是文章提出的MOST的整体框架,它以特征金字塔结构[3]的ResNet-50[4]为骨干网络,包含文本/非文本分类器、位置感知图预测头、定位分支和位置感知非最大抑制(PA-NMS)模块。其中定位分支包含一个粗糙定位器、一个文本特征对齐模块(TFAM)和一个精细定位器。骨干网络的输出维度是
文本/非文本分类器将骨干网络的输出通过3*3卷积把通道数降至64,然后使用1*1卷积得到通道数为1的得分图,输出维度是
位置感知图预测头的网络结构和文本/非文本分类器类似,只是输出维度不一样,位置感知图预测头的输出为
定位分支由粗糙定位器、文本特征对齐模块(TFAM)和精细定位器组成。首先,利用粗糙定位器预测出粗糙的结果;然后TFAM在粗检测的基础上动态调整文本特征的感受野,生成对齐特征,并将对齐特征输入细化的定位头,预测最终的检测结果。
粗糙定位器和精细定位器有相同的结构,3*3卷积把通道数降到64,再用1*1卷积得到
文本特征对齐模块(TFAM)的示意图如图3所示。首先,利用粗检测结果生成采样点;然后将采样点应用于可变形卷积算子[2],得到对齐特征进行精细定位。
x表示输入特征图,w为可形变卷积权值,
图3 TFAM示意图 (a) 基于特征的采样 (b)基于粗检测框的采样
(a) (b)中紫色点表示规则采样格点,黄色点表示变形采样点。额外的偏移量(∆pn)用浅绿色箭头表示
位置感知非最大抑制(PA-NMS)相对于EAST中的NMS使用文本非文本得分作为NMS的权重,文中采用位置感知图得分作为PA-NMS的权重。可以用下面的公式表示:
m表示合并方框,
此外,为了平衡不同尺度的文本实例,文中提出了Instance-wise IoU损失函数。
主要实验结果及可视化结果:
图4 在4个数据集上的结果图
上面行是Base Line结果,下面行是MOST结果
表1 采样方法消融实验 FB:基于特征采样 LB:基于粗定位采样 CB:混合两种方法
表2 三种策略的消融实验
表3 在IC15上使用IOU@0.5指标的结果
表4 在IC15和MSRA-TD500上使用IOU@0.7指标的结果
表5 在MSRA-TD500上使用IOU@0.5指标的结果
表6 MLT17测试集结果
表7 MTWI测试集结果
三、总结及讨论
四、相关资源
参考文献
[1] Zhou X, Yao C, Wen H, et al. East: an efficient and accurate scene text detector[C]. Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017: 5551-5560.
[2] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]. Proceedings of the IEEE international conference on computer vision. 2017: 764-773.
[3] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. CVPR. 2016: 770-778.
[5] Nayef N, Yin F, Bizid I, et al. Icdar2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt[C]. 2017 14th ICDAR. IEEE, 2017, 1: 1454-1459.
[6] He M, Liu Y, Yang Z, et al. ICPR2018 contest on robust reading for multi-type web images[C]. 2018 24th ICPR. IEEE, 2018: 7-12.
[7] Karatzas D, Gomez-Bigorda L, Nicolaou A, et al. ICDAR 2015 competition on robust reading[C]. 2015 13th ICDAR. IEEE, 2015: 1156-1160.
[8] Yao C, Bai X, Liu W, et al. Detecting texts of arbitrary orientations in natural images[C]. 2012 CVPR. IEEE, 2012: 1083-1090.
原文作者:Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[IJCAI 2021]TCPN: 一个基于序列的弱监督视觉信息抽取学习框架
论文推荐|[CVPR 2021] 基于基元表征学习的场景文字识别
论文推荐| [CVPR2021] Semantic-Aware Video Text Detection
论文推荐| [ACL 2021] LayoutLMv2:视觉富文档理解的多模态预训练(有源码)
论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: