CVPR 2022 | SwinTextSpotter:基于文本检测与识别更好协同的场景文本识别
The following article is from CSIG文档图像分析与识别专委会 Author 黄明鑫
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
转载自:CSIG文档图像分析与识别专委会
一、研究背景
二、方法简述
图1是文章提出的网络的整体框架,包括4个部分:1. 主干网络;2. 检测器;3. 识别转换机制;4.识别器。
主干网络:以往的主干网(例如ResNet)卷积核通常在固定大小下运行(例如3×3),这导致连接远程功能的效率较低,并且图片中文本之间和像素之间的相互建模欠缺。对于文本定位,建模不同文本之间的关系是至关重要的,因为来自同一图像的场景文本具有很强的相似性,比如它们的背景和文本风格。而Transformer可以很好的学习到文本实例之间、像素之间丰富的交互。考虑到全局建模能力和计算效率,所以本文基于Swin-Transformer进一步提出了Dilated Swin-Transformer主干网,如图2所示。Dilated Swin-Transformer由两个空洞卷积、一个普通卷积组成,它把卷积和Transofmer结合起来,将卷积的特性引入到Swin-Transformer中。
图2 本文提出的Dilated Swin-Transformer的详细结构
检测器:本文基于Sparse R-CNN[1]和ISTR[2],使用了基于查询的检测方法来检测文本。此方法将检测视为一个集预测问题,并且通常都是多阶段的,与以前的方法一样该检测器的设计为有六个查询阶段。使用了一组可学习的建议框,可以替代来自RPN的大量候选方案,一组可学习的建议特征,表示对象的高级语义向量。使用具有动态磁头的Transformer编码器,后面的检测阶段可以访问到存储在可学习的建议特征中的前阶段检测的信息。通过多个阶段的细化,该检测器可以应用于任何形状大小的文本。
第k阶段检测器的体系结构如图3所示。
图3 检测器在第k个阶段的说明
识别转换机制:为了更好地协调检测和识别,本文提出了一种识别转换机制。结构如图4所示。该识别转换机制由Transformer编码器和四种上采样结构组成。它的输入是检测特征
利用掩码{M1、M2、M3}和输入特征{a1、a2、a3},我们进一步在下面的操作下有效地集成了这些特性。
r3是最后要送去识别器的特征。通过这样的设计,识别损失Lreg的梯度可以反向传播到检测特征上,识别转换机制能够让识别监督隐式地参与到检测的任务中,并把识别的信息回传到检测器,使得检测器的性能得到提升。由于标注的文本曲线是不够紧密的,导致检测器生成的掩膜也是不够紧密的,使用识别的损失监督检测的特征进而生成的更适合于识别任务的掩膜,可以帮助识别器更容易集中于文本区域。
建议特征通过检测监督和识别监督的联合优化,可以更好地对文本的高级语义信息进行编码,从而提升整个网络的性能。所提出的识别转换机制极大的增加检测和识别之间的协调和互动。
图4 识别转换机制的模型结构
三、主要实验结果及可视化效果
图5 六个数据集上的可视化结果
图6 与其他方法可视化对比
四、总结及讨论
五、相关资源
论文地址:https://arxiv.org/abs/2203.10209
代码地址: https://github.com/mxin262/SwinTextSpotter
参考文献
[1]Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14454-14463..
[2]Hu J, Cao L, Lu Y, et al. Istr: End-to-end instance segmentation with transformers[J]. arXiv preprint arXiv:2105.00637, 2021.
[3]Yang J, Li C, Zhang P, et al. Focal self-attention for local-global interactions in vision transformers[J]. arXiv preprint arXiv:2107.00641, 2021.
[4]Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 706-722.
原文作者:Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin,
Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
撰稿:黄明鑫 编排:高学
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看