CVPR 2022 | SwinTextSpotter：基于文本检测与识别更好协同的场景文本识别

CVer 2022-07-15

The following article is from CSIG文档图像分析与识别专委会 Author 黄明鑫

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：CSIG文档图像分析与识别专委会

本文简要介绍CVPR 2022录用的论文“SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition”的主要工作。该论文提出了一种基于Transformer的用于任意形状端到端场景文字识别的方法，该方法提出了一种新的识别转换机制，通过识别损失来明确地引导文本定位，让检测器和识别器更紧密的耦合在一起进行联合优化。模型代码已开源，下载地址见文末。

一、研究背景

场景文本端到端检测识别定位旨在检测和识别自然图像中的整个单词或句子，由于其在自动驾驶、智能导航和关键实体识别方面的广泛应用，引起了人们的广泛关注。近年来场景文本端到端检测识别取得了很大的进展。但是这些方法仍然存在两个主要的局限性。第一，同一张图中不同的文本缺少交互，导致检测器很容易被背景噪声误导，同一图像中文本之间的交互作用是消除背景噪声影响的关键因素，因为同一单词的不同字符可能包含很强的相似性，如背景和文本风格等。第二，目前的方法中，通过共享主干，检测和识别之间的交互是不够的，识别的信息不能回传到检测器，而识别器也没有很有效地利用检测特征。

二、方法简述

图1 网络整体框架。灰色箭头表示从图像中提取的特征。绿色箭头和橙色箭头分别表示检测阶段和识别阶段

图1是文章提出的网络的整体框架，包括4个部分：1. 主干网络；2. 检测器；3. 识别转换机制；4.识别器。

主干网络：以往的主干网（例如ResNet）卷积核通常在固定大小下运行（例如3×3），这导致连接远程功能的效率较低，并且图片中文本之间和像素之间的相互建模欠缺。对于文本定位，建模不同文本之间的关系是至关重要的，因为来自同一图像的场景文本具有很强的相似性，比如它们的背景和文本风格。而Transformer可以很好的学习到文本实例之间、像素之间丰富的交互。考虑到全局建模能力和计算效率，所以本文基于Swin-Transformer进一步提出了Dilated Swin-Transformer主干网，如图2所示。Dilated Swin-Transformer由两个空洞卷积、一个普通卷积组成，它把卷积和Transofmer结合起来，将卷积的特性引入到Swin-Transformer中。

图2 本文提出的Dilated Swin-Transformer的详细结构

检测器：本文基于Sparse R-CNN[1]和ISTR[2]，使用了基于查询的检测方法来检测文本。此方法将检测视为一个集预测问题，并且通常都是多阶段的，与以前的方法一样该检测器的设计为有六个查询阶段。使用了一组可学习的建议框，可以替代来自RPN的大量候选方案，一组可学习的建议特征，表示对象的高级语义向量。使用具有动态磁头的Transformer编码器，后面的检测阶段可以访问到存储在可学习的建议特征中的前阶段检测的信息。通过多个阶段的细化，该检测器可以应用于任何形状大小的文本。

第k阶段检测器的体系结构如图3所示。表示了k-1阶段的建议特征，在k阶段，前一阶段产生的建议特征，被输入一个多头自注意模块中来建模这些不同文本之间的关系，然后生成两组卷积参数。前面各阶段的检测信息被嵌入到两个卷积中。然后这两个生成的卷积核，会用来作用于RoI特征中，对RoI特征进行编码。RoI特征是利用上一阶段的检测结果提取的。经过卷积作用后的输出特征被输入到一个线性投影层，以产生下一阶段的建议特征。随后被输入预测头以生成。当k=1时，是随机初始化的参数，这是第一阶段的输入。在训练过程中，通过反向传播进行更新，这些参数会逐渐学习到文本高级语义特征的归纳偏差。最后优化时使用匈牙利算法来对预测和GT来进行匹配，再进行优化。

图3 检测器在第k个阶段的说明

识别转换机制：为了更好地协调检测和识别，本文提出了一种识别转换机制。结构如图4所示。该识别转换机制由Transformer编码器和四种上采样结构组成。它的输入是检测特征和三个降采样特征{a1、a2、a3}。检测特征是由检测器中最后一个阶段的建议特征和识别阶段中最终的特征图a3在动态头Transofmer编码器中进行融合后得来的。该检测特征包含了前面所有检测阶段的信息。检测特征被发送到Transformer编码器TrE()中使之前检测阶段的信息进一步与a3融合。然后通过一系列上采样操作Eu()和Sigmoid函数φ()，生成文本区域的三个掩码{M1、M2、M3}。具体如下公式所示：

利用掩码{M1、M2、M3}和输入特征{a1、a2、a3}，我们进一步在下面的操作下有效地集成了这些特性。

r3是最后要送去识别器的特征。通过这样的设计，识别损失Lreg的梯度可以反向传播到检测特征上，识别转换机制能够让识别监督隐式地参与到检测的任务中，并把识别的信息回传到检测器，使得检测器的性能得到提升。由于标注的文本曲线是不够紧密的，导致检测器生成的掩膜也是不够紧密的，使用识别的损失监督检测的特征进而生成的更适合于识别任务的掩膜，可以帮助识别器更容易集中于文本区域。

建议特征通过检测监督和识别监督的联合优化，可以更好地对文本的高级语义信息进行编码，从而提升整个网络的性能。所提出的识别转换机制极大的增加检测和识别之间的协调和互动。

图4 识别转换机制的模型结构

识别器：在经过了识别转换机制以后，有效地抑制了背景噪声，从而对文本区域进行更精确的边界，这使得网络可以仅仅使用一个简单的识别网络来获得可靠的识别结果，而无需文本矫正模块和额外的字符分割模块。我们采用了两级自注意机制[3]作为编码器，而解码器使用了MaskTextSpotter v2[4]中的SAM。

三、主要实验结果及可视化效果

图5 六个数据集上的可视化结果

图6 与其他方法可视化对比

表1 在RoIC13上的端到端识别结果

表2 在IC15上的端到端识别结果

表3 在ReCTS上的端到端检测识别结果

表4 在VinText上的端到端识别结果

表5 在TotalText上的端到端检测识别结果

表6 在SCUT-CTW1500上的端到端检测识别结果

表7 Total-Text上的消融实验。使用预训练的模型进行实验

四、总结及讨论

本文提出了一种基于Transformer的用于任意形状端到端检测识别的方法，该方法的核心思想是将识别信息回传给检测器，并且检测器的信息也共享给识别器，因此它将检测和识别紧密结合进行联合优化，而不是只在主干中共享信息。得益于这样的设计，本文的方法可以在没有矫正模块和字符级分割模块的情况下对弯曲文本也能保持很好的识别能力。实验表明，该方法能够在任意形状文本和不同语言文本的场景文本端到端检测识别上获得优越的性能。

五、相关资源

论文地址：https://arxiv.org/abs/2203.10209
代码地址: https://github.com/mxin262/SwinTextSpotter

参考文献

[1]Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14454-14463..

[2]Hu J, Cao L, Lu Y, et al. Istr: End-to-end instance segmentation with transformers[J]. arXiv preprint arXiv:2105.00637, 2021.

[3]Yang J, Li C, Zhang P, et al. Focal self-attention for local-global interactions in vision transformers[J]. arXiv preprint arXiv:2107.00641, 2021.

[4]Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 706-722.

原文作者:Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin,

Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin

撰稿：黄明鑫编排：高学

审校：连宙辉发布：金连文

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

CVPR 2022 | SwinTextSpotter：基于文本检测与识别更好协同的场景文本识别

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

CVPR 2022 | SwinTextSpotter：基于文本检测与识别更好协同的场景文本识别

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡