论文推荐|[ECCV 2020] RobustScanner:动态增强位置信息实现可靠文本识别
本文简要介绍ECCV 2020录用论文“RobustScanner:Dynamically Enhancing Positional Clues for Robust Text Recognition”的主要工作。该工作通过给基于注意力机制的文本识别网络增强位置信息来克服注意力漂移带来的负面影响,提升网络的鲁棒性。
基于注意力机制的编码-解码器在自然场景文本识别中取得了很好的效果。但是,这个方法严重依赖于上下文信息,出现了注意力漂移的问题,即无法关注到正确的位置上,这会降低识别的性能,尤其是对于缺少上下文信息的随机字符序列,如图 1所示。本文作者研究发现,解码时需要用到上下文信息和位置信息,但随着解码时间步的增加,相邻时间步之间的查询(Query)向量越来越相似(如图2所示),而位置信息逐渐被淹没。为此,本文作者设计了一个位置增强分支,并将其和注意力模块的输出动态融合,在一定程度上增强了识别系统的鲁棒性。
如下图所示,本文提出的RobustScanner由一个编码器和一个解码器组成。在编码器中,采用31层的ResNet作为主干,如[1]所述。解码器由混合分支(Hybrid Branch)、位置增强分支(Position Enhancement Branch)、动态融合模块(Dynamically-fusing Module)和预测模块(Prediction Module)组成。
a) 混合分支(Hybrid Branch)
混合分支同时包含上下文信息和位置信息。它由两层LSTM和一个注意力模块组成。LSTM将先前预测的字符及其隐藏变量作为输入,并生成查询向量
b) 位置增强分支(Position Enhancement Branch)
位置增强分支由位置嵌入层、位置感知模块和注意力模块组成。
位置嵌入层对解码时间步长进行编码。在每个时间步t,它输入一个One-hot向量并输出一个特定的位置嵌入向量
位置感知模块用来捕获全局信息,它能给编码器的输出特征图赋予感知位置的能力。结构如图4(a)所示。本文使用两层LSTM和两个3×3的卷积层,来生成Key向量
其中,
c) 动态融合模块(Dynamically-fusing Module)
动态融合模块如图4(b)所示,作者将每个时间步t的混合分支输出
其中,
其中,MJ表示MJSynth合成数据集[2],ST表示SynthText合成数据集[3],而R表示真实数据集。从表中可以看出,RobustScanner在四个数据集上优于SAR。特别是在具有挑战性的不规则文本数据集CUTE 80上,它获得了92.4%的准确率,明显高于SAR。但是,在SVT和SVTP两个街景数据集上的性能比SAR差,作者认为,这两个数据集分辨率低且具有一定程度的失真,所以识别时上下文信息比位置信息更重要。
本文旨在改善基于注意力机制的识别器对无语义信息图像的识别性能。因此,作者在随机文本数据集RandText上评估了该方法的鲁棒性。从表2可以看出,本文方法明显优于其他方法。其中,RandText数据集是作者自己合成的随机文本图像,也就是说字符序列没有上下文语义。
从表3可以看出,对于前六种场景文本数据集来说,没有混合分支会降低识别性能,因为这些数据集都具有丰富的语义信息,但是对于无语义信息的RandText却相反。同时,对于大部分数据集,没有位置增强分支会降低识别性能,尤其是对于RandText数据集。
从表4可以看出,本文提出的位置感知模块确实能够改善识别性能,同时,优于Sine&Cosine这种位置编码方式。
从表5可以看出,动态融合方法相比于另外两种融合方法能带来更高的识别准确率。
从表 6可以看出,本文的方法大幅领先于其他的方法。注意,所有模型均只在MJSynth和SynthText合成数据集上训练。
本文首次研究了基于注意力机制的编码解码过程,并发现LSTM的查询特征向量不仅编码上下文信息,还编码位置信息,而且上下文信息在后续解码步骤中逐步占领主导地位,这可能导致对缺乏上下文语义信息图像识别错误。为了解决该问题,本文提出了RobustScanner识别器,引入了位置增强分支和动态融合模块。并且在具有上下文语义信息的数据集和随机字符序列数据集RandText上验证了该方法的鲁棒性。
原文作者:Xiaoyu Yue, Zhanghui Kuang,Chenhao Lin, Hongbin Sun, and Wayne Zhang
审校:殷 飞
发布:金连文
论文推荐|[ECCV 2020] 文本检测识别中的字符区域注意力机制(有源码) 论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别 论文推荐|[IEEE TIP 2020]EraseNet:端到端的真实场景文本擦除方法 演讲录播 | 文本检测与识别再思考【CSIG-DIAR 2020学术年会系列报道6】 演讲录播 | 通用文档理解预训练模型【CSIG-DIAR 2020学术年会系列报道5】 演讲录播 | 基于编码-解码模型的数学公式识别研究【CSIG-DIAR 2020学术年会系列报道4】 论文推荐|[ICFHR 2020] 基于风格GAN联机手写样本合成数据增广的手写OCR性能改进方法
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)