查看原文
其他

【每周CV论文】深度学习文本检测与识别入门必读文章

言有三 有三AI 2021-07-09

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。


文本检测和识别是计算机视觉的一个非常重要的应用,今天给大家推荐初入该领域可以读的文章。


作者&编辑 | 言有三

1 CTPN

文本与一般的目标有区别,比如没有精确而闭合的边缘,单个字符目标窄,但是整体文本串又较长。针对这个特点,研究者提出CTPN框架(Connectionist Text Proposal Network),通过检测行方向上宽度固定的文本提高定位精度,然后对相邻行进行合并来获取检测结果。


文章引用量:300+

推荐指数:✦✦✦✦✧

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]    . european conference on computer vision, 2016: 56-72.

2 TextBoxes

针对文本行一般比较长的特点,TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变,本质上依旧是使用SSD框架进行检测。


文章引用量:150+

推荐指数:✦✦✦✦✧

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

与大部分目标检测问题的一个显著不同就是,文本往往是有倾斜方向的,因此检测结果框如果没有方向就不够精确,R2CNN框架即Rotational Region CNN,就是将最后的检测box定义为一个带方向的box,另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。


文章引用量:150+

推荐指数:✦✦✦✦✧

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一个基于DenseBox的旋转文本检测框架,不过与R2CNN的不同之处在于,它不是在最终box回归的时候输出旋转框,而是使用了多个通道来预测旋转信息,比如4个通道预测边界距离,一个通道预测旋转角度。


文章引用量:300+

推荐指数:✦✦✦✦✦

[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一个基于Faster RCNN框架的旋转文本检测框架,与R2CNN和EAST不同的是,它采用了带方向的Region Proposal和RoI Pooling,因此本身就可以输出带方向的目标框。


文章引用量:200+

推荐指数:✦✦✦✦✧

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6 SegLink

文本有的时候非常的长,anchor box不一定能够很好覆盖,SegLink基于SSD目标检测方法进行改进。首先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样做的好处是可以检测任意长度的文本行。


文章引用量:150+

推荐指数:✦✦✦✦✧

[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7  CRNN

CRNN是一个端到端的文本识别框架,它输入整段的文本图片。CRNN使用CNN进行特征提取,RNN进行隐藏状态和空间特征建模,CTC用于对RNN的结果进行整合改进。


文章引用量:600+

推荐指数:✦✦✦✦✦

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 综述

最后,如果你想快速了解整个领域的发展现状,可以阅读相关的综述文章[8-9]。

[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.

[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

总结


本次我们介绍了初学文本检测和识别值得读的文章,另外当前文本检测和识别的研究难点在于任意形状文本检测,多语言文本识别,端到端检测与识别等方向,读者可以继续关注。

有三AI知识星球

知识星球是有三AI的付费内容社区,里面包括各领域的模型学习,数据集下载,公众号的付费图文原稿,技术总结PPT和视频,知识问答,书籍下载,项目推荐,线下活动等资源,了解详细请阅读以下文章:


【杂谈】有三AI知识星球一周年了!为什么公众号+星球才是完整的?

【杂谈】万万没想到,有三还有个保密的‘朋友圈’,那里面都在弄啥!


转载文章请后台联系

侵权必究

往期精选



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存