论文推荐|[ECCV 2020] 文本检测识别中的字符区域注意力机制(有源码)
本文简要介绍ECCV 2020录用论文“Character Region Attention For Text Spotting”的主要工作。该工作基于CVPR 2019录用论文“Character Region Awareness For Text Detection”,进一步提出了一个用于端到端文本检测和识别的模型,命名为CRAFTS。
现有场景文本检测与识别方法在处理水平文本上已经可以达到很好的效果,但是弯曲文本的处理仍然是一个挑战。传统的场景文本检测与识别模型通常需要复杂的后处理技术来进行弯曲文本的检测,以及多方向编码或者纠正模块来提升弯曲文本的识别。本文提出了一种端到端文本检测识别的方法:CRAFTS。该方法可以检测和识别任意形状的文本。同时,方法在检测器的单字空间信息和识别器的纠正与识别部分之间建立了更加紧密的互补关系。实验证明该方法在IC13,IC15,IC19-MLT和TotalText数据集上都达到了State-of-the-art的效果。
图1是CRAFTS方法的整体结构,由三个阶段组成,分别为检测阶段、共享阶段和识别阶段。检测阶段输入一张图片,得到多方向的文本框。共享阶段通过纠正模块对RoI Pooling后的特征进行纠正,纠正后的特征拼接在一起得到Character Attended Feature。识别阶段中,通过基于Attention的解码器进行文本的识别。
下面将一一介绍各个阶段:
(1)检测阶段:采用了CRAFT检测器[2]。原始的CRAFT检测器输出字符中心概率和他们之间的连接。作者认为CRAFT检测器的字符中心信息有利于识别器中的Attention模块,因而二者同样都是需要定位字符的中心位置。CRAFTS中的检测阶段相对于CRAFT进行了以下三点修改:①将主干网络从VGG-16替换为ResNet50;②采用二值中心线来连接字符区域,用于更好地处理垂直文本;③增加了角度预测。通过增加两个通道来预测角度,两个通道分别负责角度的正弦和余弦值。GT的生成如下面两个式子所示。
损失函数的计算如下式所示:
检测阶段的总损失为字符区域损失、连接损失和角度损失的加权和:
图2展示了主干网络和检测部分的结构。
前向推理时,基于字符区域图和字符连接图,通过Connected Components Labeling (CCL)连接属于一行的字符。框通过包含这些字符的最小面积矩形生成。同时还预测了框的角度,角度的计算如下式:
(2)共享阶段:共享阶段分为文本矫正模块和字符区域注意力模块(CRA)。文本矫正模块采用了Iterative-TPS[3],并且通过最终的控制点生成文本行的框。CRA将纠正后的字符分数图和特征表示拼接在一起,使得识别的Loss可以回传,也使得识别器可以更好的关注到各个字符的位置。Iterative TPS的效果如图3所示。
(3)识别阶段:识别阶段采用如表1所示的特征提取模块以及一个基于注意力的识别器。图4展示了有无CRA时的效果,可以看到CRA使得识别器的注意力机制更加鲁棒。
本文提出了一种将检测和识别模块紧密耦合的端到端的单流程的模型。共享阶段借助字符区域图和字符连接图,提升了纠正器对倾斜文本的纠正效果。其中,字符区域注意力模块使得识别器能够更好地关注每一个字符。同时,识别的损失可以回传到检测阶段,使得检测器的字符定位能力得到提升。文本纠正模块迭代地对文本进行纠正,并输出文本定位结果,免除了复杂的后处理过程。
CRAFTS论文地址:https://arxiv.org/pdf/2007.09629.pdf
CRAFT论文地址: https://arxiv.org/pdf/1904.01941.pdf
CRAFT代码地址:https://github.com/clovaai/CRAFT-pytorch
[1] Baek, Youngmin, et al."Character Region Attention For Text Spotting." European Conference on Computer Vision. 2020.
[2] Baek, Youngmin, et al."Character region awareness for text detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[3] Zhan, Fangneng, and Shijian Lu."Esir: End-to-end scene text recognition via iterative image rectification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
原文作者:Youngmin Baek, Seung Shin, Jeonghun Baek, Sungrae Park, Junyeop Lee, DaehyunNam, Hwalsuk Lee
审校:连宙辉
发布:金连文
论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别 论文推荐|[IEEE TIP 2020]EraseNet:端到端的真实场景文本擦除方法 演讲录播 | 文本检测与识别再思考【CSIG-DIAR 2020学术年会系列报道6】 演讲录播 | 通用文档理解预训练模型【CSIG-DIAR 2020学术年会系列报道5】 演讲录播 | 基于编码-解码模型的数学公式识别研究【CSIG-DIAR 2020学术年会系列报道4】 论文推荐|[ICFHR 2020] 基于风格GAN联机手写样本合成数据增广的手写OCR性能改进方法 演讲录播 | 文字图像图形生成技术研究进展【CSIG-DIAR 2020学术年会系列报道3】 论文推荐|[SIGGRAPH 2020] Attribute2Font:从属性创建所需的字体 演讲录播 | 2020年场景文字那些事【CSIG-DIAR 2020学术年会系列报道2】 演讲录播| 手写及场景文字分析与识别的一些新尝试【CSIG-DIAR 2020学术年会系列报道1】
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)