论文推荐| [CVPR2019 Oral]一种基于RNN自适应文字区域表示的自然场景图像中任意形状文字检测方法
本文简要介绍CVPR2019录用的Oral论文“Arbitrary Shape Scene Text Detection with Adaptive TextRegion Representation”的主要工作。该论文主要针对自然场景图像中任意形状的文字检测问题,提出了一种基于RNN的自适应文字区域表示的方法。
在计算机视觉领域,场景文字检测是一个重要的研究方向。近些年来,由于深度学习的发展,场景文字检测的研究重点从水平行,逐渐过渡到多方向文本[1][2][3][4],进而到任意形状的文字检测[5][6]。
图1是这篇文章提出的基于自适应文字区域表示(Adaptive Text Region Representation)的文字检测方法的整体结构。该方法基于FasterR-CNN[1],在其基础上增加了一个基于RNN的自适应文字区域表示的分支,可以用来检测任意形状的文字区域。SE-VGG16[2]是该方法的主干网络,使用region proposal network(RPN)得到候选文字区域,然后对候选文字区域进行分类、回归,并使用新的分支进行文字区域表示,得到最终的文字区域检测结果。其中,自适应文字区域表示是这篇文章的主要贡献。
之前的场景文字检测方法都使用固定数量的点构成的多边形包围框来表示文字区域,例如水平文字区域使用2个点(左上点和右下点)构成的矩形框,倾斜文字区域使用4个点构成的四边形框,而对于弯曲文字CTW1500使用14点构成的包围框来表示。然而,对于大多数场景文字区域而言,例如水平和倾斜文字,使用14个点是不必要的;而对于一些复杂的弯曲文字区域,14点可能不能很好的表示它们。所以,本文提出使用自适应数量的点构成的包围框来进行文字区域表示。考虑到文字区域具有近似对称的上边界和下边界,本文提出使用来自上下两个边界的点对来进行文字区域表示,如图2所示。
表1在CTW1500数据集上的结果对比
从表1到表5的结果来看,本文提出的方法所提方案在CTW1500,TotalText,ICDAR2013,MSRA-TD500上取得了state-of-the-art的结果,在ICDAR2015上也取得了相当不错的结果。这说明该方法不仅可以处理弯曲文字,而且对水平文字、倾斜文字、长文字行都有很好的表现。图4给出了一下可视化结果例图。
Arbitrary Shape Scene Text Detection with Adaptive Text RegionRepresentation论文地址:https://arxiv.org/pdf/1905.05980.pdf
R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection 论文地址:https://arxiv.org/abs/1706.09579.pdf
R2CNN第三方开源实现https://github.com/yangxue0827/R2CNN_FPN_Tensorflow
[1] Yuliang Liu and Lianwen Jin. Deep matching prior network: Toward tighter multi-oriented text detection. In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pages 3454–3461.2017.
[2] Wenhao He, Xu-Yao Zhang, Fei Yin, and Cheng-Lin Liu.Deep direct regression for multi-oriented scene text detection. In IEEE International Conference on Computer Vision(ICCV), pages 745–753, 2017.
[3] Minghui Liao, Baoguang Shi, and Xiang Bai. Textboxes++:A single-shot oriented scene text detector. IEEE Transactions on Image Processing, 27(8):3676–3690, 2018.
[4] Pengyuan Lyu, Cong Yao, Wenhao Wu, Shuicheng Yan, andXiang Bai. Multi-oriented scene text detection via cornerlocalization and region. In IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pages 7553–7563, 2018.
[5] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, andSheng Zhang. Curved scene text detection via transverseand longitudinal sequence connection. Pattern Recognition,90(6):337–345, 2018.
[6] Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, andXiang Bai. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In European Conference on Computer Vision(ECCV), pages 71–88, 2018.
[7] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] Jie Hu, Li Shen, Gang Sun. Squeeze-and-Excitation Networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 7132-7141.
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的论文图文介绍材料到:xuegao@scut.edu.cn
(扫描识别如上二维码加关注)