查看原文
其他

论文推荐|Mask TextSpotter:An End-to-End Trainable Neural Network

张家鑫 CSIG文档图像分析与识别专委会 2022-07-11

 

 

本文介绍2019年8月TPAMI录用论文“MaskTextSpotter: An End-to-End TrainableNeural Network for Spotting TextwithArbitrary Shapes”的主要工作。该论文为2018年ECCV同名文章[1]的升级版,主要解决自然场景图像中端到端文本检测和识别问题。
 
一、研究背景


随着对于场景理解的需求不断增加,场景文本的检测和识别受到广泛的关注。近几年来,国内外学者通常将场景文本检测(scene text detection)和场景文本识别(scene text recognition)作为两个子方向来研究并取得了突破性的进展。当然,也有许多学者提出了检测和识别协同工作的端到端训练模型,并提出“识别精度依赖于检测精度,并反作用于检测精度的提升”的观点。

 
二、Mask TextSpotter原理简述


Fig1. Overall architecture
 

Fig 1是Mask TextSpotter的整体网络结构。Mask TextSpotter基于MaskR-CNN[2],在MaskBranch增加了CharacterSegmentation和Spatial Attentional Module两个heads并进行适当改进而来。Mask TextSpotte以Feature Pyramid Network(FPN)[3]作为主干网络,使用region proposal network(RPN)和Fast-RCNN[4]回归出检测框。

在Mask branch中,作者借用语义分割思想,分别分割出任意形状的文本区域和精准的字符区域,并且保留了充分的二维文本特征,在二维特征基础上进行序列识别,最终的识别结果是由字符分割识别和序列识别集成的。可以发现,相比于Mask TextSpotter-会议版本,本文基本保持了相同的检测逻辑,其主要创新点在于识别器分支。

Fig2. Architecture of thestandalone recognition model
 
Fig 2为本文识别器的主要结构。在Mask branch中,通过语义分割的方式得到精准的字符区域并用character maps表示,而后使用一种pixel voting algorithm来求得预测结果以及得分。在Mask branch的Spatial Attentional Module(SAM)支路,直接使用了二维attention的方式输出预测结果以及得分,由于在编码部分没有使用循环卷积网络,因此网络对位置信息不够敏感,于是作为SAM在解码之前加入了Transformer[5]中提及的Position Embedding。在Mask branch中作者分别从Character Segmentation部分和Spatial Attentional Module(SAM)部分得到了输出和得分,最终将选择二者得分高的作为预测结果。

 Fig3. Illustration of the pixelvoting algorithm
 
在Character Segmentation部分所使用的pixel voting algorithm如Fig 3所示。将值域在0到1之间的character maps做二值化,论文中阈值设为0.75,然后与特征图相与并计算每一个特征图中高亮区域的平均值,均值得分最高的为预测类别。
 
 
三、实验结果及可视化效果

 

TABLE 1. The detection results on ICDAR2013 and ICDAR2015.


TABLE 2. Detection and end-to-end results on COCO-Text.AP is short for averageprecision.


TABLE 3. Results on Total-Text.


TABLE 4. Ablation experimental results.“(a)”means withoutcharacter-level annotations from the real images;“(b)”means without weighted edit distance.∆means the variationcompared to the original version.


TABLE 5. Scene text recognition results. “50”, “1k”, “Full” arelexicons. “0” means no lexicon. “90k” and“ST” are the Synth90k and theSynthText datasets, respectively. “Private” means private training data.

 

Fig4. Results of Mask TextSpotter

Fig5. Visualization results of the character segmentationmaps and the spatial attention weights

 

从TABLE 1-3可以看出,文章所提方案在ICDAR2013、ICDAR2015、COCO-Text以及Total-Text上取得了state-of-the-art的结果,特别是端到端比之前的对比算法性能提升明显(例如在ICDAR 2015上提升了10.5%)。

TABLE 4验证了所提方案对于字符级别监督以及编辑距离的敏感程度,也展示了相对于会议版本的性能提升。TABLE 5可以看到,该方案在识别榜上取得了比较大突破,在CUTE80上最为明显。Fig 4是任意形状文本检测的可视化。Fig 5是character segmentation和spatial attention的可视化。(更详细内容请参考原文,链接附后)。

 
四、总结及讨论
  • MaskTextSpotter-ECCV版在MaskR-CNN的基础上把原本的Text/Non Text二分类改进为多分类(eg 37类,含字母数字及背景),再加上适当后处理(PixelVoting等)变成了一个简单、有效的端到端方案。由于是在字符级上进行分割及识别,因此可以对任意不规则形状文本(例如曲线文本)进行端到端识别。但此方法的一个局限性是需要字符级的标注来进行训练。

  • MaskTextSpotter-TPAMI相比MaskTextSpotter-ECCV而言,在Mask branch中增加了Spatial AttentionalModule(SAM)支路,不在需要字符级标注,可直接预测文本行识别结果,为原本语义不够强、位置信息不够明确的识别器提升了性能,并且SAM的加入可以减少网络对于字符级别监督信息的依赖。

  • MaskTextSpotter使用了语义分割的方法来做文本检测,有利于检测识别任意方向任意形状的文本。

 
五、相关资源


  • Mask TextSpotter-TPAMI论文地址:https://arxiv.org/pdf/1908.08207.pdf
  • Mask TextSpotter-ECCV论文地址:https://arxiv.org/pdf/1807.02242.pdf
  • Mask R-CNN论文地址:https://arxiv.org/pdf/1703.06870.pdf
  • Feature Pyramid Network论文地址:https://arxiv.org/pdf/1612.03144.pdf
  • Fast R-CNN论文地址:https://arxiv.org/pdf/1504.08083.pdf
  • Tansformer论文地址:https://arxiv.org/pdf/1706.03762.pdf
 
参考文献

[1] Lyu P, Liao M, Yao C, et al. Masktextspotter: An end-to-end trainable neural network forspotting text witharbitrary shapes[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 67-83.

[2] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedingsof the IEEE international conference on computer vision. 2017: 2961-2969.

[3] Lin T Y, Dollár P, Girshick R, et al. Feature pyramidnetworks for object detection[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. 2017: 2117-2125.

[4] Girshick R. Fast r-cnn[C]//Proceedings of the IEEEinternational conference on computer vision. 2015: 1440-1448.

[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all youneed[C]//Advances in neural information processing systems. 2017: 5998-6008. 



论文原作者:   Minghui Liao*, PengyuanLyu*, Minghang He, Cong Yao, Wenhao Wu, Xiang Bai

撰稿:张家鑫
编排:高  学 
审校:殷  飞 
发布:金连文 


免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

 

征稿启事:本公众号将不定期推选一些文档图像分析与识别的论文进行介绍,欢迎自荐或推荐此领域最新论文成果给本公众号审阅编排后发布。请发Word版的论文图文介绍材料到:xuegao@scut.edu.cn



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存