论文推荐|[AAAI 2020] GTC: CTC引导训练实现有效准确的场景文本识别

Original 彭德智 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2020论文“GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition”的主要工作。该工作针对场景文本识别，将CTC[1]和Attention结合起来，提出了GTC（Guided Training of CTC）。同时，该工作还提出了一种图卷积网络（GCN）来学习特征的局部相关性。实验证明，该方法能有效提升CTC的识别性能，不仅达到了State-of-the-art的效果，而且相对基于Attention的方法有6倍的加速。

图1 不同方法在准确率和速度指标上的对比

一、研究背景

CTC（Connectionist Temporal Classification）和Attention是序列识别模型中主要使用的两种技术。基于CTC的方法由于采用了并行的解码方式，速度较快，但是CTC损失函数的机制不利于特征对齐和特征表示。基于Attention的方法则可以得到更好的对齐和特征表示，但是由于其非并行的解码方式，这类方法速度较慢。此外，CTC解码允许字符的重复，因此作者认为相邻时间点的特征存在联系。对于以上问题，作者提出GTC方法，通过Attention指导CTC模型的训练，并通过GCN建模特征序列的局部联系。

二、GTC原理简述

图2 GTC方法的整体结构

图2是GTC方法的整体结构，由四个部分组成，分别为STN、特征提取、Attentional Guidance和GCN+CTC解码器。网络在训练过程中，CTC Loss仅用于更新GCN+CTC解码器部分，CE loss用于更新STN、特征提取和Attentional Guidance部分。

（1）STN（Spatial Transformer Network）：许多自然场景中的文本是弯曲的，而且有多种视角。STN将复杂多变的文本图像变换为较为规则的图像，使得识别模型更加鲁棒和精确。该方法采用了与文献[2]相同的STN结构。该模块是可微的，因此整个模型可以端到端地进行训练。

（2）特征提取：该方法采用ResNet50[3]作为主干网络。为了得到更加精确的特征，该方法将原始的残差块中步长为2的卷积改为步长为1，添加了两个最大池化层做下采样。主干网络的结构如图3所示：

图3 主干网络结构

（3）Attentional Guidance：Attention机制可以得到输出的依赖关系，在每一个时间点关注对应的字符区域。该方法采用了文献[2][4][5]中的Attention解码器，通过循环神经网络，由主干网络ResNet的输出得到长度为T的目标序列。

（4）GCN+CTC解码器：CRNN[6]中，BiLSTM用于从两个方向提取序列特征，但是它缺少了对局部区域的关注。该方法在BiLSTM前加入了一个特别的GCN层。在GCN层中，结合相似度邻接矩阵和距离矩阵来描述空间上下文的关联。

为主干网络ResNet提取的特征。邻接矩阵

计算两两特征之间的相似度如下，其中

为

的线性变换。

距离矩阵

使得GCN关注相邻特征的相似度。距离矩阵的定义如下：

其中

。整个GCN+CTC的过程可由如下数学公式描述：

三、主要实验结果及可视化效果

表1 公共数据集上的识别率

表2 GTC 和 Guided Training of Attention比较

图4 不同方法准确率与速度的比较

图5 原始图像与修正后图像的对比

图6 距离矩阵、相似矩阵以及两者按元素相乘结果可视化

本文在规则文本数据集（IIIT5K、IC03、IC13、SVT）、不规则文本数据集（IC15、SVT-P、CUTE80）上进行了实验，如表1所示，取得了State-of-the-art的识别效果。同时，本文做了Ablation Study，比较了Attention指导CTC训练和CTC指导Attention训练，实验结果如表2所示，结果证明了CTC并不是一个有效的指导。图4为文中方法与CTC、1D Attention、2D Attention的速度和准确率的比较，可见，该方法同时在准确率和速度上取得了较好的效果。图5比较了不同方法中STN的结果，证明了Attention机制对空间信息更敏感。图6的可视化结果证明了GCN建立起了特征的局部联系，关注局部相似的特征。

四、总结及讨论

CTC解码中，相同的识别结果在增加了空类别后，可以对应许多不同的识别路径，这就导致了一定的模糊性和随机性，不利于特征的提取和特征的对齐。而Attention则在每一个时间步关注相应字符的区域进行解码，对特征的提取和对齐更加有利。但是Attention的速度较CTC慢了数倍，因此该方法取长补短，将Attention和CTC结合起来，在训练中通过Attention来指导特征提取，在前向过程中舍弃Attention部分，采用GCN+CTC的解码。实验证明，该方法不仅达到了State-of-the-art的识别效果，而且速度相对基于Attention的方法得到了大幅提升。

五、相关资源

GTC论文地址：https://arxiv.org/pdf/2002.01276.pdf
STN论文地址：https://arxiv.org/pdf/1603.03915.pdf
CRNN论文地址：https://arxiv.org/pdf/1507.05717.pdf

参考文献

[1] Graves, Alex, et al."Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. 2006.

[2] Shi, Baoguang, et al. "Robust scene text recognition with automatic rectification." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[3] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[4] Cheng, Zhanzhan, et al. "Focusing attention: Towards accurate text recognition in natural images." Proceedings of the IEEE international conference on computer vision. 2017.

[5] Zhan, Fangneng, and Lu，Shijian."Esir: End-to-end scene text recognition via iterative image rectification."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019.

[6] Shi, Baoguang, Bai，Xiang, and Yao，Cong. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEE transactions on pattern analysis and machine intelligence 39.11 (2016):2298-2304.

原文作者：Wenyang Hu, Xiaocong Cai, Jun Hou, Shuai Yi, Zhiping Lin

撰稿：彭德智

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

事关收入，赶紧确认！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

论文推荐|[AAAI 2020] GTC: CTC引导训练实现有效准确的场景文本识别

您可能也对以下帖子感兴趣

事 关 收 入 ，赶 紧 确 认 ！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

生成图片，分享到微信朋友圈

论文推荐|[AAAI 2020] GTC: CTC引导训练实现有效准确的场景文本识别

您可能也对以下帖子感兴趣

事关收入，赶紧确认！！！