查看原文
其他

论文推荐|[ECCV 2020] RobustScanner:动态增强位置信息实现可靠文本识别

廖倩颖 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV 2020录用论文“RobustScanner:Dynamically Enhancing Positional Clues for Robust Text Recognition”的主要工作。该工作通过给基于注意力机制的文本识别网络增强位置信息来克服注意力漂移带来的负面影响,提升网络的鲁棒性。


一、研究背景

基于注意力机制的编码-解码器在自然场景文本识别中取得了很好的效果。但是,这个方法严重依赖于上下文信息,出现了注意力漂移的问题,即无法关注到正确的位置上,这会降低识别的性能,尤其是对于缺少上下文信息的随机字符序列,如图 1所示。本文作者研究发现,解码时需要用到上下文信息和位置信息,但随着解码时间步的增加,相邻时间步之间的查询(Query)向量越来越相似(如图2所示),而位置信息逐渐被淹没。为此,本文作者设计了一个位置增强分支,并将其和注意力模块的输出动态融合,在一定程度上增强了识别系统的鲁棒性。

 

图 1 a基于注意力机制的Encoder-decoder的解码示意图b错误识别样本
 

图 2 平均相似矩阵的可视化。x轴和y轴表示序列的位置索引(分别表示两个长度一样的文本序列),而颜色表示平均相似度。(a)中l = 5,而(b)中 l = 11。


二、原理简述

如下图所示,本文提出的RobustScanner由一个编码器和一个解码器组成。在编码器中,采用31层的ResNet作为主干,如[1]所述。解码器由混合分支(Hybrid Branch)、位置增强分支(Position Enhancement Branch)、动态融合模块(Dynamically-fusing Module)和预测模块(Prediction Module)组成。

 

图 3 RobustScanner结构示意图

a) 混合分支(Hybrid Branch)

混合分支同时包含上下文信息和位置信息。它由两层LSTM和一个注意力模块组成。LSTM将先前预测的字符及其隐藏变量作为输入,并生成查询向量。然后,查询向量被送到注意力模块,估计得到向量,用于后续预测字符。

b) 位置增强分支(Position Enhancement Branch)

位置增强分支由位置嵌入层、位置感知模块和注意力模块组成。

位置嵌入层对解码时间步长进行编码。在每个时间步t,它输入一个One-hot向量并输出一个特定的位置嵌入向量注意,在不同的解码序列中,每个时间步的嵌入向量都是一样的。

位置感知模块用来捕获全局信息,它能给编码器的输出特征图赋予感知位置的能力。结构如图4(a)所示。本文使用两层LSTM和两个3×3的卷积层,来生成Key向量,具体公式如下方所示,

其中,分别表示第一、二个LSTM的隐藏层向量;是由组成;是3×3卷积操作、RELU激活函数和3×3卷积操作的叠加。

最后,该分支的注意力模块输出向量.

图 4 位置感知模块(a)和动态融合模块(b)示意图

c) 动态融合模块(Dynamically-fusing Module)

动态融合模块如图4(b)所示,作者将每个时间步t的混合分支输出和位置增强分支输出进行动态融合。文设计了一个门控机制来增强或抑制相应的特征。如下方公式所示,

其中,分别是两个线性变换;表示逐元素对应相乘;动态模块的输出,用于预测字符。


三、 与SOTA方法的比较及交融实验

表 1 与SOTA方法的比较 


其中,MJ表示MJSynth合成数据集[2],ST表示SynthText合成数据集[3],而R表示真实数据集。从表中可以看出,RobustScanner在四个数据集上优于SAR。特别是在具有挑战性的不规则文本数据集CUTE 80上,它获得了92.4%的准确率,明显高于SAR。但是,在SVT和SVTP两个街景数据集上的性能比SAR差,作者认为,这两个数据集分辨率低且具有一定程度的失真,所以识别时上下文信息比位置信息更重要。


表 2 不同方法在RandText数据集上的识别性能 


本文旨在改善基于注意力机制的识别器对无语义信息图像的识别性能。因此,作者在随机文本数据集RandText上评估了该方法的鲁棒性。从表2可以看出,本文方法明显优于其他方法。其中,RandText数据集是作者自己合成的随机文本图像,也就是说字符序列没有上下文语义。


表 3 RobustScanner中每个分支的效果。HB和PEB分别表示混合分支(Hybrid Branch)和位置增强分支(Position Enhancement Branch) 


从表3可以看出,对于前六种场景文本数据集来说,没有混合分支会降低识别性能,因为这些数据集都具有丰富的语义信息,但是对于无语义信息的RandText却相反。同时,对于大部分数据集,没有位置增强分支会降低识别性能,尤其是对于RandText数据集。


表 4 位置感知模块的效果以及和其他位置编码方式的对比 


从表4可以看出,本文提出的位置感知模块确实能够改善识别性能,同时,优于Sine&Cosine这种位置编码方式。


表 5 动态融合模块和其他融合方式的比较 


从表5可以看出,动态融合方法相比于另外两种融合方法能带来更高的识别准确率。


表 6 不同方法在车牌识别中的识别性能比较 

 

图 5 RobustScanner和SAR在车牌识别任务中的可视化结果

从表 6可以看出,本文的方法大幅领先于其他的方法。注意,所有模型均只在MJSynth和SynthText合成数据集上训练。


四、总结

本文首次研究了基于注意力机制的编码解码过程,并发现LSTM的查询特征向量不仅编码上下文信息,还编码位置信息,而且上下文信息在后续解码步骤中逐步占领主导地位,这可能导致对缺乏上下文语义信息图像识别错误。为了解决该问题,本文提出了RobustScanner识别器,引入了位置增强分支和动态融合模块。并且在具有上下文语义信息的数据集和随机字符序列数据集RandText上验证了该方法的鲁棒性。

 
参考文献
[1] Li, H., Wang, P., Shen, C., Zhang, G.: Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition. AAAI (2019)
[2] Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Synthetic data and artificial neural networks for natural scene text recognition. arXiv preprint arXiv:1406.2227 (2014)
[3] Gupta, A., Vedaldi, A., Zisserman, A.: Synthetic data for text localisation in natural images. In: CVPR (2016)


原文作者:Xiaoyu Yue, Zhanghui Kuang,Chenhao Lin, Hongbin Sun, and Wayne Zhang


撰稿:廖倩颖
编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存