查看原文
其他

论文推荐|[ECCV 2020] 文本检测识别中的字符区域注意力机制(有源码)

彭德智 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV 2020录用论文“Character Region Attention For Text Spotting”的主要工作。该工作基于CVPR 2019录用论文“Character Region Awareness For Text Detection”,进一步提出了一个用于端到端文本检测和识别的模型,命名为CRAFTS。


一、研究背景

现有场景文本检测与识别方法在处理水平文本上已经可以达到很好的效果,但是弯曲文本的处理仍然是一个挑战。传统的场景文本检测与识别模型通常需要复杂的后处理技术来进行弯曲文本的检测,以及多方向编码或者纠正模块来提升弯曲文本的识别。本文提出了一种端到端文本检测识别的方法:CRAFTS。该方法可以检测和识别任意形状的文本。同时,方法在检测器的单字空间信息和识别器的纠正与识别部分之间建立了更加紧密的互补关系。实验证明该方法在IC13,IC15,IC19-MLT和TotalText数据集上都达到了State-of-the-art的效果。

 
二、CRAFTS原理简述


图1 CRAFTS方法的整体结构
 

图1是CRAFTS方法的整体结构,由三个阶段组成,分别为检测阶段、共享阶段和识别阶段。检测阶段输入一张图片,得到多方向的文本框。共享阶段通过纠正模块对RoI Pooling后的特征进行纠正,纠正后的特征拼接在一起得到Character Attended Feature。识别阶段中,通过基于Attention的解码器进行文本的识别。

下面将一一介绍各个阶段:

(1)检测阶段:采用了CRAFT检测器[2]。原始的CRAFT检测器输出字符中心概率和他们之间的连接。作者认为CRAFT检测器的字符中心信息有利于识别器中的Attention模块,因而二者同样都是需要定位字符的中心位置。CRAFTS中的检测阶段相对于CRAFT进行了以下三点修改:①将主干网络从VGG-16替换为ResNet50;②采用二值中心线来连接字符区域,用于更好地处理垂直文本;③增加了角度预测。通过增加两个通道来预测角度,两个通道分别负责角度的正弦和余弦值。GT的生成如下面两个式子所示。

损失函数的计算如下式所示:

检测阶段的总损失为字符区域损失、连接损失和角度损失的加权和:

图2展示了主干网络和检测部分的结构。


图2 主干网络和检测部分的结构

前向推理时,基于字符区域图和字符连接图,通过Connected Components Labeling (CCL)连接属于一行的字符。框通过包含这些字符的最小面积矩形生成。同时还预测了框的角度,角度的计算如下式:

(2)共享阶段:共享阶段分为文本矫正模块和字符区域注意力模块(CRA)。文本矫正模块采用了Iterative-TPS[3],并且通过最终的控制点生成文本行的框。CRA将纠正后的字符分数图和特征表示拼接在一起,使得识别的Loss可以回传,也使得识别器可以更好的关注到各个字符的位置。Iterative TPS的效果如图3所示。


图3 Iterative TPS效果图

(3)识别阶段:识别阶段采用如表1所示的特征提取模块以及一个基于注意力的识别器。图4展示了有无CRA时的效果,可以看到CRA使得识别器的注意力机制更加鲁棒。

 
表1 识别阶段的特征提取模块

 

图4 CRA模块的有效性验证

三、主要实验结果及可视化效果


表2 水平拉丁文本数据集的测试结果

 
表3 TotalText数据集测试结果

 
表4 IC19-MLT数据集测试结果

 
表5 CRA的消融实验

 

图5 TotalText数据集可视化结果
 

图6 IC19-MLT数据集的可视化结果
 

图7 IC15数据集上的错误样本

四、总结及讨论

本文提出了一种将检测和识别模块紧密耦合的端到端的单流程的模型。共享阶段借助字符区域图和字符连接图,提升了纠正器对倾斜文本的纠正效果。其中,字符区域注意力模块使得识别器能够更好地关注每一个字符。同时,识别的损失可以回传到检测阶段,使得检测器的字符定位能力得到提升。文本纠正模块迭代地对文本进行纠正,并输出文本定位结果,免除了复杂的后处理过程。

 
五、相关资源
  • CRAFTS论文地址:https://arxiv.org/pdf/2007.09629.pdf

  • CRAFT论文地址: https://arxiv.org/pdf/1904.01941.pdf

  • CRAFT代码地址:https://github.com/clovaai/CRAFT-pytorch

 
参考文献

[1] Baek, Youngmin, et al."Character Region Attention For Text Spotting." European Conference on Computer Vision. 2020.

[2] Baek, Youngmin, et al."Character region awareness for text detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[3] Zhan, Fangneng, and Shijian Lu."Esir: End-to-end scene text recognition via iterative image rectification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. 



原文作者:Youngmin Baek, Seung Shin, Jeonghun Baek, Sungrae Park, Junyeop Lee, DaehyunNam, Hwalsuk Lee


撰稿:彭德智
编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存