论文推荐|[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

Original 马伟洪 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICCV2021 录用论文 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network。有别于以往的分步两阶段工作需要先进行视觉预测再利用语言模型纠正的策略，该工作提出了视觉语言网络 Vision-LAN，直接赋予视觉模型语言能力，将视觉和语言模型当作一个整体。由于语言信息是和视觉特征一同获取的，不需要额外的语言模型，Vision-LAN显著提高39%的前向速度，并且能够自适应考虑语言信息来增强视觉特征，进而达到更高的识别准确率。

一、研究背景

现有的场景文本识别方法，大多将文本行识别问题视为字符的分类预测问题，然而对于遮挡以及噪声退化严重的字符，仅通过视觉特征很难准确识别。文本图片包括两方面的信息，视觉特征以及语言信息，受NLP相关方法的启发[1][2]，近来的文本识别方法开始探究如何通过语言信息来帮助识别[3,4,5,6]，其中两阶段的方法（如图1左上所示）得到了比较多的应用。具体来说，先视觉再语言的两阶段方法，其中视觉模型仅关注视觉特征，语言模型学习预测字符之间的关系。

然而上述的方法存在两个缺点，（1）带来额外的计算开销。单独引入语言模型会带来额外的计算量。（2）如何有效的融合两个模型的预测结果。上面两个问题主要源于视觉模型缺少语言能力，受此启发，论文提出使用视觉模型做为基础网络，在训练阶段预测被遮挡的字符，训练视觉模型主动学习视觉上下文中的语言信息。在测试阶段，当存在视觉信息遮挡、噪声大的问题时，视觉模型自适应地考虑视觉空间中的语言信息以进行特征增强，如图1所示。

图1. yi'you已有方法和本文方法的对比

二、方法原理简述

如图2所示，Vision-LAN模型包括三部分，特征提取网络，掩码语言感知模块（Masked Language Aware Module）和视觉推理模块（Visual Reasoning Module）。训练阶段，通过特征提取网络得到视觉特征，接着MLM模块输入视觉特征以及字符索引，通过弱监督的方法在对应字符索引的位置生成掩码Mask。该模块主要用来模拟视觉信息字符遮挡的情况。VRM模块输入带遮挡的文本图片，通过在视觉空间捕获长距离的信息，预测对应的文本行识别内容。

在测试阶段，移除MLM模块，只使用VRM模块用于文本识别。由于无需额外的语言模型即可获取语言信息和视觉特征，Vision-LAN 可以零计算成本即获得语言信息。

同时，论文中提出一个新的带遮挡数据集（Occlusion Scene Text），用来评价对于带字符遮挡的文本行图片识别性能。

图2. 模型框架介绍

掩码语言感知模块

如图3所示，为了引导掩码模块的学习，设计了两个额外的分支。第一个分支，将特征图和对应的字符mask相乘，得到遮挡字符的特征图；第二个分支，将特征图和1-mask相乘，得到未被遮挡的字符特征图。通过这两个分支使用交叉熵监督训练，使得mask区域只遮挡第i个字符的位置，而不交叠到其它的字符区域。MLM 模块自动生成准确的字符掩码图，而无需额外的注释，具有更大的实际应用价值。

图3. 掩码语言感知模块（MLM）

视觉推理模块

如图4所示，视觉推理模块（VRM）通过一个结构同时建模视觉信息和语言信息，通过使用视觉上下文中的字符信息，进而从被遮挡的特征中预测出字符。VRM模块包括视觉语义推理（VSR）和并行预测层（PP）。不同于工作[3]使用Transformer单元进行纯语言建模，VRM中的Transformer单元用于序列建模，不会受单词长度影响。并行预测层用于同时预测文本行内的字符。

图4. 视觉推理模块（VRM）

模型最终训练的损失包括三部分，MLM模块的Mask识别损失，以及非Mask区域的识别损失，以及VRM模块的识别损失。其中MLM模块的加权比例为0.5。

三、主要实验结果

作者通过消融实验验证各个模块的有效性，同时对各个模型的Transformer单元设计进行了对比实验，最后对七个基准数据集以及 OST 数据集进行大量实验，证明了方法的有效性和效率。其中可视化结果对模型学习到的特征进行了更可靠的说明。

表1 验证在MLM模块一个训练批次的遮挡比例影响

表2 验证弱监督两个分支的必要性

表3 对比MLM模块和其它遮挡策略的影响

表4 对比VRM模块中Transformer单元个数的影响

表5 模型在各大场景文本数据集下的识别性能

图6 论文提出的OST数据集样例

表六模型在OST数据集上的性能对比

图7 MLM模块生成的字符Mask定位可视化效果

图8 模型的可视化识别结果，第一行识别结果为不带MLM模块的识别结果

四、总结及讨论

作为第一个带有语言能力的视觉模型工作，本文提出了一种简洁有效的场景文本识别框架。Vision-LAN实现了从两步识别到一步识别（从二到一）的转变，在一个统一的结构中自适应地考虑视觉和语言信息，无需额外的语言模型。相比于之前的语言模型，VisionLAN在保持高效的同时展现出更强的语言能力。此外，提出了一个新的遮挡场景文本数据集，评估在缺少字符视觉线索的情况下的性能。对七个基准数据集以及 OST 数据集进行大量实验，证明了方法的有效性和效率。

五、相关资源

论文地址：https://arxiv.org/abs/2108.09661

参考文献

[1]. Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421, 2015.

[2]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

[3]. Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, and Errui Ding. Towards accurate scene text recognition with semantic reasoning networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12113–12122, 2020.

[4]. Xiaoyu Yue, Zhanghui Kuang, Chenhao Lin, Hongbin Sun, and Wayne Zhang. Robustscanner: Dynamically enhancing positional clues for robust text recognition. eccv, 2020.

[5]. Fangneng Zhan and Shijian Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2059–2068, 2019.

[6]. Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, and Weiping Wang. Seed: Semantics enhanced encoder-decoder framework for scene text recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13528–13537, 2020.

原文作者: Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu and Yongdong Zhang

撰稿：马伟洪

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐|[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

论文推荐|[ICDAR2021 BestPaper] ViBERTgrid：一种用于文档关键信息提取的联合训练多模态二维文档表示

论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络

论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络

论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移

论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架（有源码）

论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击

论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络

论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架

论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)

年度报告 | 自然场景文本检测与识别的深度学习方法【中国图象图形学报综述专刊

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐|[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

您可能也对以下帖子感兴趣