查看原文
其他

论文推荐| [CVPR2019 Oral]一种基于RNN自适应文字区域表示的自然场景图像中任意形状文字检测方法

王晓冰/映映/振波 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍CVPR2019录用的Oral论文“Arbitrary Shape Scene Text Detection with Adaptive TextRegion Representation”的主要工作。该论文主要针对自然场景图像中任意形状的文字检测问题,提出了一种基于RNN的自适应文字区域表示的方法。 


一、研究背景

在计算机视觉领域,场景文字检测是一个重要的研究方向。近些年来,由于深度学习的发展,场景文字检测的研究重点从水平行,逐渐过渡到多方向文本[1][2][3][4],进而到任意形状的文字检测[5][6]。


二、方法原来简述

图1基于自适应文字区域表示的文字检测方法流程图 

图1是这篇文章提出的基于自适应文字区域表示(Adaptive Text Region Representation)的文字检测方法的整体结构。该方法基于FasterR-CNN[1],在其基础上增加了一个基于RNN的自适应文字区域表示的分支,可以用来检测任意形状的文字区域。SE-VGG16[2]是该方法的主干网络,使用region proposal network(RPN)得到候选文字区域,然后对候选文字区域进行分类、回归,并使用新的分支进行文字区域表示,得到最终的文字区域检测结果。其中,自适应文字区域表示是这篇文章的主要贡献。

之前的场景文字检测方法都使用固定数量的点构成的多边形包围框来表示文字区域,例如水平文字区域使用2个点(左上点和右下点)构成的矩形框,倾斜文字区域使用4个点构成的四边形框,而对于弯曲文字CTW1500使用14点构成的包围框来表示。然而,对于大多数场景文字区域而言,例如水平和倾斜文字,使用14个点是不必要的;而对于一些复杂的弯曲文字区域,14点可能不能很好的表示它们。所以,本文提出使用自适应数量的点构成的包围框来进行文字区域表示。考虑到文字区域具有近似对称的上边界和下边界,本文提出使用来自上下两个边界的点对来进行文字区域表示,如图2所示。


2自适应文字区域表示的例图
 
为了实现自适应文字区域表示,本文使用了RNN网络中的LSTM来进行自适应文字区域表示中的点对的学习。在通过RPN获得候选文字区域后,对每个候选文字区域进行ROI pooling得到每个候选文字区域的特征,然后将这些特征输入LSTM得到预测的用于文字区域表示的点对,如图3所示。同时,由于不同的文字区域表示所使用的点对的数量不同,该LSTM中加入了一个停止标签,用来判断应该何时停止预测。

图3用于学习自适应文字区域表示的LSTM 

三、主要实验结果及可视化效果

1CTW1500数据集上的结果对比

2TotalText数据集上的结果对比

3ICDAR2013数据集上的结果对比

4ICDAR2015数据集上的结果对比

5在MSRA-TD500数据集上的结果对比

从表1到表5的结果来看,本文提出的方法所提方案在CTW1500TotalTextICDAR2013MSRA-TD500上取得了state-of-the-art的结果,在ICDAR2015上也取得了相当不错的结果。这说明该方法不仅可以处理弯曲文字,而且对水平文字、倾斜文字、长文字行都有很好的表现。图4给出了一下可视化结果例图。


图4 文字检测结果例图 

四、总结及讨论
本文提出的基于自适应文字区域表示的文字检测方法是通过在Faster R-CNN基础上增加一个基于RNN的文字区域表示分支实现的该方法实现简单而且在多个数据集上进行测试得到了非常好的结果 

五、相关资源
  • Arbitrary Shape Scene Text Detection with Adaptive Text RegionRepresentation论文地址:https://arxiv.org/pdf/1905.05980.pdf

  • R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection 论文地址:https://arxiv.org/abs/1706.09579.pdf

  • R2CNN第三方开源实现https://github.com/yangxue0827/R2CNN_FPN_Tensorflow


参考文献

[1] Yuliang Liu and Lianwen Jin. Deep matching prior network: Toward tighter multi-oriented text detection. In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pages 3454–3461.2017.

[2] Wenhao He, Xu-Yao Zhang, Fei Yin, and Cheng-Lin Liu.Deep direct regression for multi-oriented scene text detection. In IEEE International Conference on Computer Vision(ICCV), pages 745–753, 2017.

[3] Minghui Liao, Baoguang Shi, and Xiang Bai. Textboxes++:A single-shot oriented scene text detector. IEEE Transactions on Image Processing, 27(8):3676–3690, 2018.

[4] Pengyuan Lyu, Cong Yao, Wenhao Wu, Shuicheng Yan, andXiang Bai. Multi-oriented scene text detection via cornerlocalization and region. In IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pages 7553–7563, 2018.

[5]  Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, andSheng Zhang. Curved scene text detection via transverseand longitudinal sequence connection. Pattern Recognition,90(6):337–345, 2018.

[6]  Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, andXiang Bai. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In European Conference on Computer Vision(ECCV), pages 71–88, 2018.

[7]  Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[8] Jie Hu, Li Shen, Gang Sun. Squeeze-and-Excitation Networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 7132-7141.




原论文作者:Xiaobing Wang,Yingying Jiang, Zhenbo Luo, Cheng-Lin Liu, Hyunsoo Choi, Sungjin Kim

撰稿:王晓冰,姜映映,罗振波
编排:高  学 
审校:殷  飞 
发布:金连文 

免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。



▼往期精彩回顾▼CAAI AIDL 演讲实录丨金连文:“场景文字检测与识别:现状及展望”[IJCAI 2019] BDN:一种利用顺序无关定位盒分解的任意方向场景文本检测方法(有源码)[TPAMI 2019] Mask TextSpotter:An End-to-End Trainable Neural Network[CVPR 2019] Character region awareness for Text Detection (有源码)[Github] 史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)[Github] 史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)[Github] 史上最全端到端场景文本检测识别资源合集(14篇重要论文 + 5个开源代码 + 49个实验结果 + 222个统计信息)[AAAI 2019] DeRPN: 一种基于维度分解的候选区域提取网络(有源码[ECML 2018] PAL:结合注意力和对抗机制的手写数学公式识别[PR 2019] MORAN:一种基于像素级不规则文本纠正的识别新方法(有源码[CVPR 2018] FOTS:Fast Oriented Text Spotting with a Unified Network


征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的论文图文介绍材料到:xuegao@scut.edu.cn



(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存