论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
一、研究背景
现有的场景文本识别方法,大多将文本行识别问题视为字符的分类预测问题,然而对于遮挡以及噪声退化严重的字符,仅通过视觉特征很难准确识别。文本图片包括两方面的信息,视觉特征以及语言信息,受NLP相关方法的启发[1][2],近来的文本识别方法开始探究如何通过语言信息来帮助识别[3,4,5,6],其中两阶段的方法(如图1左上所示)得到了比较多的应用。具体来说,先视觉再语言的两阶段方法,其中视觉模型仅关注视觉特征,语言模型学习预测字符之间的关系。
然而上述的方法存在两个缺点,(1)带来额外的计算开销。单独引入语言模型会带来额外的计算量。(2)如何有效的融合两个模型的预测结果。上面两个问题主要源于视觉模型缺少语言能力,受此启发,论文提出使用视觉模型做为基础网络,在训练阶段预测被遮挡的字符,训练视觉模型主动学习视觉上下文中的语言信息。在测试阶段,当存在视觉信息遮挡、噪声大的问题时,视觉模型自适应地考虑视觉空间中的语言信息以进行特征增强,如图1所示。
图1. yi'you已有方法和本文方法的对比
二、 方法原理简述
如图2所示,Vision-LAN模型包括三部分,特征提取网络,掩码语言感知模块(Masked Language Aware Module)和视觉推理模块(Visual Reasoning Module)。训练阶段,通过特征提取网络得到视觉特征,接着MLM模块输入视觉特征以及字符索引,通过弱监督的方法在对应字符索引的位置生成掩码Mask。该模块主要用来模拟视觉信息字符遮挡的情况。VRM模块输入带遮挡的文本图片,通过在视觉空间捕获长距离的信息,预测对应的文本行识别内容。
在测试阶段,移除MLM模块,只使用VRM模块用于文本识别。由于无需额外的语言模型即可获取语言信息和视觉特征,Vision-LAN 可以零计算成本即获得语言信息。
同时,论文中提出一个新的带遮挡数据集(Occlusion Scene Text),用来评价对于带字符遮挡的文本行图片识别性能。
掩码语言感知模块
如图3所示,为了引导掩码模块的学习,设计了两个额外的分支。第一个分支,将特征图和对应的字符mask相乘,得到遮挡字符的特征图;第二个分支,将特征图和1-mask相乘,得到未被遮挡的字符特征图。通过这两个分支使用交叉熵监督训练,使得mask区域只遮挡第i个字符的位置,而不交叠到其它的字符区域。MLM 模块自动生成准确的字符掩码图,而无需额外的注释,具有更大的实际应用价值。
视觉推理模块
如图4所示,视觉推理模块(VRM)通过一个结构同时建模视觉信息和语言信息,通过使用视觉上下文中的字符信息,进而从被遮挡的特征中预测出字符。VRM模块包括视觉语义推理(VSR)和并行预测层(PP)。不同于工作[3]使用Transformer单元进行纯语言建模,VRM中的Transformer单元用于序列建模,不会受单词长度影响。并行预测层用于同时预测文本行内的字符。
三、 主要实验结果
作者通过消融实验验证各个模块的有效性,同时对各个模型的Transformer单元设计进行了对比实验,最后对七个基准数据集以及 OST 数据集进行大量实验,证明了方法的有效性和效率。其中可视化结果对模型学习到的特征进行了更可靠的说明。
表1 验证在MLM模块一个训练批次的遮挡比例影响
表2 验证弱监督两个分支的必要性
图8 模型的可视化识别结果,第一行识别结果为不带MLM模块的识别结果
四、总结及讨论
五、相关资源
参考文献
[1]. Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421, 2015.
[2]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
[3]. Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, and Errui Ding. Towards accurate scene text recognition with semantic reasoning networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12113–12122, 2020.
[4]. Xiaoyu Yue, Zhanghui Kuang, Chenhao Lin, Hongbin Sun, and Wayne Zhang. Robustscanner: Dynamically enhancing positional clues for robust text recognition. eccv, 2020.
[5]. Fangneng Zhan and Shijian Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2059–2068, 2019.
[6]. Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, and Weiping Wang. Seed: Semantics enhanced encoder-decoder framework for scene text recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13528–13537, 2020.
原文作者: Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu and Yongdong Zhang
撰稿:马伟洪
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架
论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)
年度报告 | 自然场景文本检测与识别的深度学习方法【中国图象图形学报综述专刊
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: