[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别(有源码)
一、研究背景
二、方法简述
图1是文章提出的网络的整体框架,包括4个部分:1. 主干网络;2. 检测器;3. 识别转换机制;4.识别器。
主干网络:以往的主干网(例如ResNet)卷积核通常在固定大小下运行(例如3×3),这导致连接远程功能的效率较低,并且图片中文本之间和像素之间的相互建模欠缺。对于文本定位,建模不同文本之间的关系是至关重要的,因为来自同一图像的场景文本具有很强的相似性,比如它们的背景和文本风格。而Transformer可以很好的学习到文本实例之间、像素之间丰富的交互。考虑到全局建模能力和计算效率,所以本文基于Swin-Transformer进一步提出了Dilated Swin-Transformer主干网,如图2所示。Dilated Swin-Transformer由两个空洞卷积、一个普通卷积组成,它把卷积和Transofmer结合起来,将卷积的特性引入到Swin-Transformer中。
图2 本文提出的Dilated Swin-Transformer的详细结构
检测器:本文基于Sparse R-CNN[1]和ISTR[2],使用了基于查询的检测方法来检测文本。此方法将检测视为一个集预测问题,并且通常都是多阶段的,与以前的方法一样该检测器的设计为有六个查询阶段。使用了一组可学习的建议框,可以替代来自RPN的大量候选方案,一组可学习的建议特征,表示对象的高级语义向量。使用具有动态磁头的Transformer编码器,后面的检测阶段可以访问到存储在可学习的建议特征中的前阶段检测的信息。通过多个阶段的细化,该检测器可以应用于任何形状大小的文本。
第k阶段检测器的体系结构如图3所示。
图3 检测器在第k个阶段的说明
识别转换机制:为了更好地协调检测和识别,本文提出了一种识别转换机制。结构如图4所示。该识别转换机制由Transformer编码器和四种上采样结构组成。它的输入是检测特征
利用掩码{M1、M2、M3}和输入特征{a1、a2、a3},我们进一步在下面的操作下有效地集成了这些特性。
r3是最后要送去识别器的特征。通过这样的设计,识别损失Lreg的梯度可以反向传播到检测特征上,识别转换机制能够让识别监督隐式地参与到检测的任务中,并把识别的信息回传到检测器,使得检测器的性能得到提升。由于标注的文本曲线是不够紧密的,导致检测器生成的掩膜也是不够紧密的,使用识别的损失监督检测的特征进而生成的更适合于识别任务的掩膜,可以帮助识别器更容易集中于文本区域。
建议特征通过检测监督和识别监督的联合优化,可以更好地对文本的高级语义信息进行编码,从而提升整个网络的性能。所提出的识别转换机制极大的增加检测和识别之间的协调和互动。
图4 识别转换机制的模型结构
三、主要实验结果及可视化效果
图5 六个数据集上的可视化结果
图6 与其他方法可视化对比
四、总结及讨论
五、相关资源
论文地址:https://arxiv.org/pdf/2203.10209.pdf
代码地址: https://github.com/mxin262/SwinTextSpotter
参考文献
[1]Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14454-14463..
[2]Hu J, Cao L, Lu Y, et al. Istr: End-to-end instance segmentation with transformers[J]. arXiv preprint arXiv:2105.00637, 2021.
[3]Yang J, Li C, Zhang P, et al. Focal self-attention for local-global interactions in vision transformers[J]. arXiv preprint arXiv:2107.00641, 2021.
[4]Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 706-722.
原文作者:Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin,
Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
撰稿:黄明鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ACM MM 2021]显示、阅读和推理:基于灵活上下文聚合器的表格结构识别
[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法
论文推荐|[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)
[TNNLS 2022] SLOGAN——多样化手写体图像生成
[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
[ACM MM 2021] PIMNet:一种用于场景文本识别的并行、迭代和模仿网络(有源码)
[AAAI 2022]基于上下文的对比学习场景文本识别
[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: