论文推荐| [ICCV 2019] 针对不规则场景文字识别的对称约束矫正网络

Original 王天玮 CSIG文档图像分析与识别专委会 2022-07-11

一、研究背景

场景文字识别是计算机视觉领域一项基础技术，用于将场景中的文本数字化，在自动驾驶、智慧物流、图像搜索、智慧城市等诸多领域有重要的应用价值。场景文本经常遇到弯曲问题，这给识别带来了难度。

近些年来，有许多用于识别弯曲文本的工作，如AON[2]提取多方向序列特征；ASTER[3]先将弯曲文本进行矫正后进行识别。ASTER所使用的矫正网络依赖于弱监督学习学出的控制点，理想状态下，控制点可以平滑地分布于文本区域上下边缘。然而因缺乏先验约束，在面对高度弯曲的文本时，基于弱监督的网络很难准确预测出控制点。

为了解决这种情况，本文作者提出了一种对称约束矫正网络（ScRN）[1]，该网络用文本中心线和一些几何属性进行约束，可以产生更加准确的控制点，进而提高对弯曲文本的识别精度。

Fig.1. Comparison between ASTER and ScRN(proposed in this paper),shown in (a) and (b) respectively.

一、方法概述

Fig.2. Pipeline of the proposed method.

网络主要由三个部分组成：主干网络、矫正网络（ScRN）、识别网络，整个网络可以端对端训练。主干网络采用了基于ResNet-50的FPN，生成共享特征图。矫正网络接收共享特征图为输入，输出像素级别文本几何属性预测，并利用TPS[4]对共享特征图进行矫正。最后，识别网络对矫正后的特征图进行进一步特征提取和识别。

二、矫正模块的设计

1. 文本几何属性定义

Fig.3. Illustration of the text representation.

一段文本可以看作一串有顺序的字符序列：，m为字符数，每一个字符有一个四边形边框。因此，可以构建一个中心点序列：，其中是中心点，和分别是的左、右边缘中心点。按序列顺序连接，将得到文本中心线（TCL）。

每一个文本中心点有一组几何属性为尺度（字符高度一半），为字符朝向（上边缘到下边缘中心点连线的方向），为文本走向（到的切线方向）。对于TCL上非C中的点，其几何属性值由相邻两个C中点属性插值得到。

2. 几何属性定义预测

矫正模块用一个轻量的两层卷积预测器预测文本属性，该预测器输出为：。其中表示该像素位于TCL上的概率，为文本尺度，用于预测和的正弦余弦值：

之后，TCL得分图、和可用于提取中心点序列C，详细过程见文献[5]。

3. 弯曲文本的矫正

Fig.4. The rectification process. Note that,for all figures in this paper,we use the input image to illustrate these points and rectified results, but the rectification is actually operated on the shared feature maps.

ScRN利用TPS进行特征图层面矫正。计算基准点的具体步骤为：

（1）等间距从C中采样出

个点，记为

。

（2）对每一个

，按

距离沿文本朝向取两个点，其坐标计算如下：

得到基准点后即可计算TPS变换矩阵，进而进行双线性插值采样，得到纠正后特征图。需要注意的是：（a）尽管TPS允许变长输入，但为了Batch-wise训练，基准点数目预先设定并固定。（b）计算基准点时采用字符朝向而非文本朝向，因为字符朝向更加准确（如下图）。

Fig.5. Control points and rectification results using the character orientation(Left) and normal direction of text orientation(Right).

三、识别模块

识别模块先用一个浅层CNN对纠正后的特征图进行进一步下采样，之后用基于Attention的Decoder进行解码。识别损失函数为：

四、模型训练

模型训练损失函数由两部分组成：

其中，第一部分

是几何属性预测损失，组成如下：

其中

为交叉熵损失，其余几个为SmoothedL1损失：

训练中，均为1。

模型训练分两步进行：第一步中，共享特征图使用Groundtruth的几何属性标注进行矫正，没有几何属性标注的数据则不矫正直接进行识别。第二步中，用预测出的几何属性进行矫正，所有数据均矫正后再识别。

五、实验结果

1. 对比其他矫正网络

作者对比了ScRN和基于STN的矫正网络，该对比设置如下：

Baseline：同样Backbone，无文本矫正器。
STN_baseline：用STN代替提出的矫正器。
STN_supervision：在STN_baseline基础上，加入了额外监督。
ScRN*：在原图而非特征图上进行纠正，因此需要两个不共享参数的Backbone Network。

TABLE 1 Recognition accuracy of different variants.

从实验结果可以看出，引入矫正器的方法在不规则数据集（IC15、SVTP、CUTE）上好于Baseline，而ScRN又好于STN。原图级别矫正效果最好，但需要更多的计算量和空间消耗。

2. 效果增益是否来自矫正

作者同样分析了ScRN相对Baseline的效果增益来自额外的监督还是矫正。Multi-loss指加入监督而不进行矫正。从实验结果可以看出矫正模块有效性。

TABLE 2 Recognition accuracy to explore the effect of rectification module.All models are trained on SynthText only.

3. 与其他方法对比

TABLE 3 Results across a number of methods and datasets. "50","1k","Full" are lexicons."0" means no lexicon.

与其他SOTA方法对比，ScRN在不规则文本数据集上ScRN取得了最好的效果，在规则数据集上取得了最好或相当的效果。下面是文章中给出的一些可视化结果。

Fig.6. Selected results from SVTP and CUTE80,which suffer from severe distortion. For every three rows,the first row shows the input image with evenly sampled center points (visualized as red points) and green control points. The second row shows the rectified images. The last row is the recognition results.

4. 本文方法的局限性

Fig.7. Some bad cases produced by our recognition system. The meanings of these elements are the same as Fig.6. Incorrectly recognized characters are in red.

作者发现，在末端字符几乎水平且接近图片边缘时，矫正性能会受到影响。高度模糊样本同样会对识别产生影响。

参考文献

[1] M.K.Yang, et al., Symmetry-constrained Rectification Network for Scene TextRecognition, ICCV 2019.

[2] Z.Cheng et al. Aon: Towards arbitrarily-oriented text recognition. CVPR 2018.

[3] B.G.Shi et al. Aster: an attentional scene text recognizer with flexible rectification. TPAMI 2018.

[4] F.L. Bookstein. Principal warps: Thin-plate splines and the decomposition ofdeformations. TPAMI 1989.

[5] S.Longet al. TextSnake: A flexible representation for detecting text of arbitrary shapes. ECCV 2018.

原文作者：Mingkun Yang, Yushuo Guan, Minghui Liao, XinHe,KaiguiBian, Song Bai, Cong Yao and Xiang Bai

撰稿：王天玮

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩回顾

▼

征稿启事：本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

事关收入，赶紧确认！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

论文推荐| [ICCV 2019] 针对不规则场景文字识别的对称约束矫正网络

您可能也对以下帖子感兴趣

事 关 收 入 ，赶 紧 确 认 ！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

生成图片，分享到微信朋友圈

论文推荐| [ICCV 2019] 针对不规则场景文字识别的对称约束矫正网络

您可能也对以下帖子感兴趣

事关收入，赶紧确认！！！