[ACM MM 2022] SPTS: Single-Point Text Spotting（已开源）

Original 彭德智 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍ACM MM 2022录用论文“SPTS: Single-Point Text Spotting”的主要工作。该工作针对场景文本端到端检测和识别问题，提出了SPTS方法，证明了单点标注也能成功训练一个端到端检测识别器。该方法的优势在于：（1）极大地降低了标注成本，仅需要单点的文本位置标注，甚至无需文本位置标注信息；（2）首次将端到端文本检测和识别任务建模为序列预测问题，采用基于Transformer的序列预测模型将文本检测和识别真正融为一体，同时避免了复杂的RoI采样和后处理等操作。

一、背景

近年来，无论是针对水平文本、多方向文本还是任意形状文本，现有的场景文本检测和识别方法都取得了长足的进步。但是大多数方法仍然依赖于成本高昂的文本行、单词甚至字符级的边界框标注。同时，现有方法通常采用检测模块和识别模块共享主干网络特征的结构，利用特别设计的RoI采样策略建立两个模块间的联系，造成检测和识别间的交互融合不充分。针对上述问题，本文提出了一种基于单点标注和序列预测的端到端文本检测和识别方法。该方法仅需标注单点的文本位置信息，甚至无需标注文本位置信息，极大地降低了数据标注成本（图1展示了各类标注所需的时间成本）。此外，该方法首次将端到端文本检测和识别建模为序列预测问题，采用简洁有效的CNN+Transformer的结构，将文本检测和识别融为一体，无需复杂的RoI采样和后处理等操作。实验证明该方法在ICDAR2013、SCUT-CTW1500和Total-Text数据集上可以达到State-of-the-art的端到端识别效果。

图1 各类标注所需的时间成本

二、方法

2.1 算法框架

图2 SPTS方法的整体结构

图2为SPTS方法的整体结构图。该方法首先通过卷积神经网络（CNN）和Transformer编码器提取输入图像的高维特征，再通过Transformer解码器自回归地将特征转换为一条序列。通过对这条序列进行解码，可以得到图片中文本的位置和内容信息，如图2右侧的可视化图像所示。该方法受到Pix2Seq[1]方法的启发，但不同之处在于：（1）该方法采用单点来指示文本的位置而非边界框坐标，极大地降低了标注成本；（2）该方法可以识别不定长的文本字符串内容，而非单符号的物体类别。

2.2 序列构建

图3 用于端到端场景文本检测识别的序列构建方法

通过序列预测的方法解决端到端场景文本检测识别问题的关键在于如何通过离散符号组成的序列来表示文本的位置和内容信息。SPTS所采用的序列构建方法如图3所示：

（1）针对原始标注中采用连续数值表示的单点坐标，将其量化为范围内的整数。

（2）针对文本标注，由于其原本就是由字符类别组成，所以可以很自然地转换为离散的序列。但是由于文本长度多变，该方法通过在文本序列的尾部增加<PAD>符号或对较长的文本序列进行截断以达到长度的归一化。

（3）每一个文本实例的序列由对应的坐标序列和文本序列组成。

（4）最终构建的序列由序列开始符号<SOS>、多个文本实例序列和序列结束符号<EOS>前后拼接而成，其中多个文本实例间为乱序排列。

2.3 模型训练

图4 解码器的输入和输出序列示意图

图4展示了Transformer解码器在训练过程中的输入和输出序列及依赖关系。训练过程中采用最大化似然函数，如下式所示。

2.4 模型推理

推理过程中，针对输入的场景文本图像，模型自回归地预测出所需的序列。根据图3对序列进行解码后，即可得到图像中所包含文本的位置和内容信息。此外，该方法对每个文本所对应的符号的预测概率进行平均，得到该文本的置信度，用于对结果进行进一步的过滤。

三、实验

3.1 基于点标注的测试指标

图5 基于点标注的测试指标示意图

现有的方法通常采用基于边界框的测试指标。首先通过边界框之间的IoU对预测框和标注框进行匹配。如果预测框的识别结果和与之匹配的标注框的文本标注完全相同，则将其视为正确的预测结果。SPTS方法仅采用单点标注来表示文本位置，无法直接采用传统的基于边界框的测试指标。因此，文章中提出一种基于单点标注的指标测试方法，如图5所示。该测试方法中采用预测点和标注点之间的欧氏距离来匹配文本实例，并比较预测文本和标注文本是否完全相同以筛选出正确的预测结果。文章中将传统的基于边界框的测试指标和新型的基于单点的测试指标进行了比较，如表1所示。可以看出，两种测试指标得到的数值十分接近，证明了所提出的基于单点的测试指标的有效性。

表1 基于边界框和基于单点的测试指标的比较

3.2 主要实验结果

该方法在四个广泛使用的场景文本数据集上进行实验，分别为ICDAR2013（水平文本），ICDAR2015（多方向文本）以及Total-Text和SCUT-CTW1500（任意形状文本）。实验结果如下。

表2 SPTS与现有方法在ICDAR2013数据集上的指标对比

表3 SPTS与现有方法在ICDAR2015数据集上的指标对比

表4 SPTS与现有方法在Total-Text数据集上的指标对比

表5 SPTS与现有方法在SCUT-CTW1500数据集上的指标对比

从上面的表格中可以看出，SPTS仅依靠单点标注在ICDAR2013、Total-Text和SCUT-CTW1500数据集上取得了State-of-the-art的端到端识别效果。由于SPTS不依靠RoI采样等操作，直接从低分辨率的高维特征中预测最终的序列，所以该方法对小文本的检测识别能力较差。因此，SPTS方法在ICDAR2015数据集上与现有的最先进的方法相比仍然有一定差距。

SPTS的在各个数据集上的可视化结果如图6所示。

图6 SPTS的可视化结果。图片从上到下分别选自Total-Text、SCUT-CTW1500、ICDAR2013和ICDAR2015数据集。

3.3 仅需文本标注的端到端识别

表6 仅需文本标注的端到端识别（NPTS）与SPTS的指标比较

SPTS方法抛弃了传统的边界框标注，仅需单点标注即可达到State-of-the-art的端到端识别效果。文章中进一步探讨了仅标注文本、无需任何位置信息标注的端到端识别模型（NPTS）。相比于SPTS，NPTS在序列构建过程中删除了单点坐标，仅保留了文本信息。表6中列出了NPTS与SPTS在多个数据集上的指标比较。可以看出，NPTS在无需任何文本位置标注的情况下，虽然指标上与SPTS有一定差距，但是仍有较强的识别能力。NPTS的部分可视化结果如图7所示。

图7 NPTS的可视化结果

四、总结及讨论

本文提出了Single-Point Text Spotting (SPTS)方法。该方法仅需单点的文本位置标注（甚至无需文本位置标注），采用简洁有效的CNN+Transformer结构，通过序列预测的方式完成场景文本端到端检测识别任务，将文本检测和识别真正融为一体。但是，该方法仍然有一些缺点，例如前向速度慢、小文本处理效果差等，仍有进一步的探索空间。

五、相关资源

SPTS论文地址：https://arxiv.org/abs/2112.07917
SPTS代码地址：https://github.com/shannanyinxiang/SPTS

参考文献

[1]Ting Chen, et al. “Pix2Seq: A Language Modeling Framework for Object Detection.” Proceedings of International Conference on Learning Representations. 2022.

[2]Dezhi Peng, et al. “SPTS: Single-Point Text Spotting.” Proceedings of the 30th ACM international conference on Multimedia. 2022.

原文作者:Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Jing Li, Shenggao Zhu, Dahua Lin, Chunhua Shen, Xiang Bai, and Lianwen Jin.

撰稿：彭德智

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫码关注，获取最新OCR资讯

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

[ACM MM 2022] SPTS: Single-Point Text Spotting（已开源）

论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正

ECCV 2022 Oral | 理解艺术字：用于场景文字识别的角点引导Transformer

ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型（有源码）

[ECCV 2022] 具有计数感知的手写数学公式识别算法（有源码）

[CVPR 2022]针对场景文本检测的视觉语言模型预训练

[CVPR 2022] 内容感知的文字标志图像生成方法

[IEEE TIFS 2022] 深度软动态时间规整：用于联机签名认证的局部表征学习新方法（有源码）

基于概率分布图的任意形状文本实例分割和检测方法（有源码）

[IJCAI 2022] 平面几何图例解析（有源码和数据集）

论文推荐|[CVPR 2022]通过权重平衡的长尾识别（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

生成图片，分享到微信朋友圈

[ACM MM 2022] SPTS: Single-Point Text Spotting（已开源）

您可能也对以下帖子感兴趣