本文简要介绍AAAI 2020论文“GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition”的主要工作。该工作针对场景文本识别,将CTC[1]和Attention结合起来,提出了GTC(Guided Training of CTC)。同时,该工作还提出了一种图卷积网络(GCN)来学习特征的局部相关性。实验证明,该方法能有效提升CTC的识别性能,不仅达到了State-of-the-art的效果,而且相对基于Attention的方法有6倍的加速。
CTC(Connectionist Temporal Classification)和Attention是序列识别模型中主要使用的两种技术。基于CTC的方法由于采用了并行的解码方式,速度较快,但是CTC损失函数的机制不利于特征对齐和特征表示。基于Attention的方法则可以得到更好的对齐和特征表示,但是由于其非并行的解码方式,这类方法速度较慢。此外,CTC解码允许字符的重复,因此作者认为相邻时间点的特征存在联系。对于以上问题,作者提出GTC方法,通过Attention指导CTC模型的训练,并通过GCN建模特征序列的局部联系。
图2是GTC方法的整体结构,由四个部分组成,分别为STN、特征提取、Attentional Guidance和GCN+CTC解码器。网络在训练过程中,CTC Loss仅用于更新GCN+CTC解码器部分,CE loss用于更新STN、特征提取和Attentional Guidance部分。 (1)STN(Spatial Transformer Network):许多自然场景中的文本是弯曲的,而且有多种视角。STN将复杂多变的文本图像变换为较为规则的图像,使得识别模型更加鲁棒和精确。该方法采用了与文献[2]相同的STN结构。该模块是可微的,因此整个模型可以端到端地进行训练。(2)特征提取:该方法采用ResNet50[3]作为主干网络。为了得到更加精确的特征,该方法将原始的残差块中步长为2的卷积改为步长为1,添加了两个最大池化层做下采样。主干网络的结构如图3所示:
(3)Attentional Guidance:Attention机制可以得到输出的依赖关系,在每一个时间点关注对应的字符区域。该方法采用了文献[2][4][5]中的Attention解码器,通过循环神经网络,由主干网络ResNet的输出得到长度为T的目标序列。(4)GCN+CTC解码器:CRNN[6]中,BiLSTM用于从两个方向提取序列特征,但是它缺少了对局部区域的关注。该方法在BiLSTM前加入了一个特别的GCN层。在GCN层中,结合相似度邻接矩阵和距离矩阵来描述空间上下文的关联。为主干网络ResNet提取的特征。邻接矩阵计算两两特征之间的相似度如下,其中为的线性变换。
距离矩阵使得GCN关注相邻特征的相似度。距离矩阵的定义如下:
其中。整个GCN+CTC的过程可由如下数学公式描述:
表2 GTC 和 Guided Training of Attention比较
图6 距离矩阵、相似矩阵以及两者按元素相乘结果可视化本文在规则文本数据集(IIIT5K、IC03、IC13、SVT)、不规则文本数据集(IC15、SVT-P、CUTE80)上进行了实验,如表1所示,取得了State-of-the-art的识别效果。同时,本文做了Ablation Study,比较了Attention指导CTC训练和CTC指导Attention训练,实验结果如表2所示,结果证明了CTC并不是一个有效的指导。图4为文中方法与CTC、1D Attention、2D Attention的速度和准确率的比较,可见,该方法同时在准确率和速度上取得了较好的效果。图5比较了不同方法中STN的结果,证明了Attention机制对空间信息更敏感。图6的可视化结果证明了GCN建立起了特征的局部联系,关注局部相似的特征。CTC解码中,相同的识别结果在增加了空类别后,可以对应许多不同的识别路径,这就导致了一定的模糊性和随机性,不利于特征的提取和特征的对齐。而Attention则在每一个时间步关注相应字符的区域进行解码,对特征的提取和对齐更加有利。但是Attention的速度较CTC慢了数倍,因此该方法取长补短,将Attention和CTC结合起来,在训练中通过Attention来指导特征提取,在前向过程中舍弃Attention部分,采用GCN+CTC的解码。实验证明,该方法不仅达到了State-of-the-art的识别效果,而且速度相对基于Attention的方法得到了大幅提升。GTC论文地址:https://arxiv.org/pdf/2002.01276.pdf
STN论文地址:https://arxiv.org/pdf/1603.03915.pdf
CRNN论文地址:https://arxiv.org/pdf/1507.05717.pdf
[1] Graves, Alex, et al."Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. 2006.
[2] Shi, Baoguang, et al. "Robust scene text recognition with automatic rectification." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[3] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[4] Cheng, Zhanzhan, et al. "Focusing attention: Towards accurate text recognition in natural images." Proceedings of the IEEE international conference on computer vision. 2017.
[5] Zhan, Fangneng, and Lu,Shijian."Esir: End-to-end scene text recognition via iterative image rectification."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019.
[6] Shi, Baoguang, Bai,Xiang, and Yao,Cong. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEE transactions on pattern analysis and machine intelligence 39.11 (2016):2298-2304.
原文作者:Wenyang Hu, Xiaocong Cai, Jun Hou, Shuai Yi, Zhiping Lin
编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。
(扫描识别如上二维码加关注)