【每周CV论文】深度学习文本检测与识别入门必读文章

查看原文

其他

【每周CV论文】深度学习文本检测与识别入门必读文章

Original 言有三有三AI 2021-07-09

收录于话题

#CV论文推荐

25个

欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

文本检测和识别是计算机视觉的一个非常重要的应用，今天给大家推荐初入该领域可以读的文章。

作者&编辑 | 言有三

1 CTPN

文本与一般的目标有区别，比如没有精确而闭合的边缘，单个字符目标窄，但是整体文本串又较长。针对这个特点，研究者提出CTPN框架(Connectionist Text Proposal Network)，通过检测行方向上宽度固定的文本提高定位精度，然后对相邻行进行合并来获取检测结果。

文章引用量：300+

推荐指数：✦✦✦✦✧

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C] . european conference on computer vision, 2016: 56-72.

2 TextBoxes

针对文本行一般比较长的特点，TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变，本质上依旧是使用SSD框架进行检测。

文章引用量：150+

推荐指数：✦✦✦✦✧

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

与大部分目标检测问题的一个显著不同就是，文本往往是有倾斜方向的，因此检测结果框如果没有方向就不够精确，R2CNN框架即Rotational Region CNN，就是将最后的检测box定义为一个带方向的box，另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。

文章引用量：150+

推荐指数：✦✦✦✦✧

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一个基于DenseBox的旋转文本检测框架，不过与R2CNN的不同之处在于，它不是在最终box回归的时候输出旋转框，而是使用了多个通道来预测旋转信息，比如4个通道预测边界距离，一个通道预测旋转角度。

文章引用量：300+

推荐指数：✦✦✦✦✦

[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一个基于Faster RCNN框架的旋转文本检测框架，与R2CNN和EAST不同的是，它采用了带方向的Region Proposal和RoI Pooling，因此本身就可以输出带方向的目标框。

文章引用量：200+

推荐指数：✦✦✦✦✧

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6 SegLink

文本有的时候非常的长，anchor box不一定能够很好覆盖，SegLink基于SSD目标检测方法进行改进。首先检测局部片段，然后通过规则将所有的片段进行连接，得到最终的文本行，这样做的好处是可以检测任意长度的文本行。

文章引用量：150+

推荐指数：✦✦✦✦✧

[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7 CRNN

CRNN是一个端到端的文本识别框架，它输入整段的文本图片。CRNN使用CNN进行特征提取，RNN进行隐藏状态和空间特征建模，CTC用于对RNN的结果进行整合改进。

文章引用量：600+

推荐指数：✦✦✦✦✦

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 综述

最后，如果你想快速了解整个领域的发展现状，可以阅读相关的综述文章[8-9]。

[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.

[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

总结

本次我们介绍了初学文本检测和识别值得读的文章，另外当前文本检测和识别的研究难点在于任意形状文本检测，多语言文本识别，端到端检测与识别等方向，读者可以继续关注。

有三AI知识星球

知识星球是有三AI的付费内容社区，里面包括各领域的模型学习，数据集下载，公众号的付费图文原稿，技术总结PPT和视频，知识问答，书籍下载，项目推荐，线下活动等资源，了解详细请阅读以下文章：

【杂谈】有三AI知识星球一周年了！为什么公众号+星球才是完整的？

【杂谈】万万没想到，有三还有个保密的‘朋友圈’，那里面都在弄啥！

转载文章请后台联系

侵权必究

往期精选

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……