论文介绍|面向场景文本识别的带聚焦注意力机制的convLSTM
The following article is from CSIG文档图像分析与识别专委会 Author 王晴晴
论文信息:
FACLSTM: ConvLSTM with focused attention for scene text recognition
Qingqing WANG1,2, Ye HUANG2, Wenjing JIA2, Xiangjian HE2, Michael BLUMENSTEIN2, Shujing LYU1 & Yue LU1,3*
1 Shanghai Key Laboratory of Multidimensional Information Processing, East China Normal University, Shanghai 200241, China;
2 Faculty of Engineering and Information Technology, University of Technology Sydney, Sydney 2007, Australia;
3 Shanghai Institute of Intelligent Science and Technology, Tongji University, Shanghai 200092, China
Sci China Inf Sci, 2020, 63(2): 120103
此外,包括文本识别在内的很多计算机视觉任务通常将注意力机制作为常用技术手段,在该机制的加持下,性能都取得了很大的提升。但是注意力机制存在“注意力漂移”的问题 (Attention Drift),即模型不能将当前时刻的注意力与对应特征图位置进行对齐。
为了解决上述问题,本文中作者将文本识别当作时空预测问题(Spatiotemporal), 即将空间信号映射到时序信号,提出了基于ConvLSTM的文本识别模型FACLSTM,该模型将LSTM适应于文本识别任务(模型适应任务),取得了优于其他基于FC-LSTM模型的性能。如Figure 3所示,ConvLSTM以二维特征图作为输入和输出,所有输入-状态和状态-状态的转化均是在二维空间上进行,有效地保留了二维图像的空间信息。此外,针对注意力漂移问题,作者设计了Focused Attention 模块,通过预测字符中心掩码的办法,帮助基于注意力机制的序列解码模块准确预测注意力位置。
在序列解码阶段,作者设计了一个Attention-equipped 的ConvLSTM模型来提取一些列的特征图,并用一个全连接和一个Softmax将这些特征图映射为各个Time Step的字符输出。为了将Attention 机制和谐地嵌入到ConvLSTM中,作者对ConvLSTM模型进行了改进,使用卷积操作计算二维Attention输出,结构和对应公式如Figure 5, Eq. 3 和Eq. 4.
本文提出了一种基于ConvLSTM的文本识别算法,实验结果证明,利用ConvLSTM从 Spatiotemporal预测的角度对文本进行识别性能优于利用FC-LSTM从序列-序列预测角度对文本进行识别,尤其是对于挑战较大的弯曲文本。