论文推荐 [SCIS 2020]面向场景文本识别的带聚焦注意力机制的convLSTM
本文简要介绍Sience China Information Science 2020 论文“FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition”的主要工作。该论文针对传统全连接式LSTM(FC-LSTM)无法充分利用二维文本图像空间信息的缺点,提出了一种基于ConvLSTM的自然场景文本识别算法,实验证明该算法在常规文本数据集IIIT5K上,高噪声低分辨率文本数据集SVT和弯曲文本数据集CUTE上都取得了SOTA的性能。
在深度学习时代,受语音识别和机器翻译的影响,文本识别被广泛当作序列-序列预测问题进行研究,其中,LSTM在现有文本识别算法中扮演着帧级编码、帧级识别以及与注意力机制结合进行序列解码等举足轻重的角色。然而,LSTM是为处理时序信号提出的模型,它以一维向量作为输入和输出,所以并不能直接应用在二维图像上。为了适应LSTM,现有算法提出了两种解决方案,一是利用池化操作(Pooling),将特征图的高度降为1;二是利用平展操作(Flatten),对像素重新排列(列主导),将二维特征图强行转换为一维特征向量(Figure 2)。这种任务适应模型的做法导致二维图像的空间/结构信息和像素空间相关性信息被破坏,严重影响了已有算法的识别性能。针对上述问题,也有研究者提出了LSTM-free的算法,但是这些算法要么需要复杂和后处理操作,要么效率和性能低于基于LSTM的识别器。
为了解决上述问题,本文中作者将文本识别当作时空预测问题(Spatiotemporal), 即将空间信号映射到时序信号,提出了基于ConvLSTM的文本识别模型FACLSTM,该模型将LSTM适应于文本识别任务(模型适应任务),取得了优于其他基于FC-LSTM模型的性能。如Figure 3所示,ConvLSTM以二维特征图作为输入和输出,所有输入-状态和状态-状态的转化均是在二维空间上进行,有效地保留了二维图像的空间信息。此外,针对注意力漂移问题,作者设计了Focused Attention 模块,通过预测字符中心掩码的办法,帮助基于注意力机制的序列解码模块准确预测注意力位置。
FACLSTM的模型结构如下图所示,该模型是一个典型的编码-解码结构,以嵌入Deformable Convolution的VGG作为Backbone, 设计了两个解码分支,一个是常规地进行特征检测的分支,另一个是用于检测字符中心掩码的分支。注意,在其他现有文本识别模型中,注意力加强模块通常嵌入在Encoder中,模块提取的特征图通过在Decoder阶段与特征图进行Element-wise Add达到增强注意力的效果,而本文中,作者认为在更高层的Decoder阶段嵌入加强注意力模块更有效,且通过实验证明,Concat比Element-wise Add效果更好,即后续的序列解码模块更倾向于从生特征图中学习知识,而不是Fusion之后的特征图。
本文中,作者仅用SynthText数据集进行训练,在IIIT5K, SVT和CUTE上分别进行了测试,注意,CUTE是弯曲文本数据集,空间信息对这类文本的识别尤其重要。
训练集对文本识别模型的性能影响很大,作为对比,我们列出了ICCV2019唯一一个文本识别算法(Symmetry-constrained Rectification Network for Scene Text Recognition)在只使用SynthText 时的性能,可以看出,在三个数据集上FACLSTM的性能都远远超过了该算法。
此外,本文作者还给出了Attention和字符中心预测的可视化结果,可以看出,二维Attention的覆盖范围比传统的一维Attention的覆盖范围更广,且预测更精确。
原文作者:Qingqing Wang, Ye Huang, Wenjing Jia, Xiangjian He, Michael Blumenstein,
Shujing Lyu & Yue Lu
编排:高 学
审校:连宙辉
发布:金连文
(扫描识别如上二维码加关注)