[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法（有源码）

Original 李海洋 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍今年发表在CVPR 2022的论文“Open-Set Text Recognition via Character-Context Decoupling”的主要工作。论文针对现有方法从训练集中学到的上下文信息会干扰新字符的识别的问题，将视觉特征信息和上下文信息解耦并分别建模，提出DTA和DCA模块分别学习时序信息和语言信息。作者通过定性和定量的实验，在Open-set, Zero-shot和Close-set设定下验证了该方法识别新字符的有效性。论文相关代码已开源，下载链接见文末。

一、研究背景

文本识别作为OCR的一项重要研究方向得到了广泛的研究和关注。但现有识别方法在识别新字符的时候，需要重新收集数据训练模型。这种做法费时费力且非常不灵活。近年来，关于开放集(Open-Set)识别问题相关研究不断涌现[1,2]。但现有方法可能会错误地识别新字符以适应模型从训练集中学到的字符上下文关系，如图1所示。于是本文提出将视觉信息和上下文信息解耦，避免上下文信息干扰新字符的识别。

图1 识别效果对比

二、方法原理简述

图2 模型结构图

图2是模型的整体结构图，其分为视觉分支和上下文分支。视觉模块用DSBN-ResNet45从文本图片中提取视觉特征和字符图片的Embedding(Ev)做注意力操作后得到原型Wv，和时序化的视觉特征序列送入开放集识别器得到视觉模型的识别结果。DTA模块从视觉特征图中提取时序信息并得到时序视觉特征序列。DCA模型对语言模型建模，将视觉模型的输出结果送入4层Transformer得到输出结果。视觉模型的输出概率与语言模型的输出概率相乘后得到结合后的识别结果y。

开放集识别器t时间步对应的字符概率如下，的L2范数与和对应的原型的余弦相似度的最大值相乘得到预测概率。

图3 DTA模块结构

DTA模块复制预测文本长度和从视觉特征中提取时序信息。它的输入是ResNet45的中间层特征，分辨率从高到低分别是。输入特征通过FPN，将每一个分辨率层的输出全局平均化后拼接在一起经过一个MLP预测文本长度。最后一层得到列长为T的注意力矩阵与高层特征图Fh相乘后得到T*C的时序化视觉特征序列。该模块的输入不回传梯度，目的是只让视觉模型学习视觉信息。DCA模块只在训练和Close-set测试情况下使用。整个模型的损失函数如下：

三、主要实验结果及可视化效果

本文在Open-set, Zero-shot和Close-set设定下验证了该方法的有效性。首先是Open-set上的实验。训练数据为ART, RCTW, LSVT, CTW, MLT等公开的数据中收集得来的中文文本图片，测试数据为MLT中的日文文本图片。表1实验说明本文的方法与OSOCR[2]对比，在字符精度和整行识别率上都取得明显提升。证明该放法识别新字符的有效性。

表1 Open-set上的识别表现

图4 Open-set可视化结果

图5为两个模块的消融实验，DTA和DCA模块分别给基线模型带来了2.63和2.52的整行识别率提升。对比基线模型，将视觉和上下文分别建模，能够让很多识别错的新字符都识别正确。

图5 open-set消融实验

图6 Open-set消融实验可视化结果

下面是Zero-shot的实验，可以看到本文的方法都明显好于其它方法。

表2 Zero-shot上的识别表现

图7 Zero-shot可视化结果

最后是常规的识别实验，实验结果表明与其它Close-set的SOTA方法还是有不小的差距。因为它的视觉和语言模型完全解耦，效果上不如其它不解耦的方法也是比较自然。

表3 Close-set上的识别表现

表4 Close-set词典约束下的识别表现

四、总结及讨论

本文为了解决从训练集中学到的上下文信息会干扰新字符的识别的问题，将视觉特征信息和上下文信息解耦并分别建模。提出DTA和DCA模块分别学习时序信息和语言信息，在Open-set和Zero-shot上的实验都说明了该方法识别新字符的有效性。
但是该方法也存在以下问题，它假设视觉特征提取模块能对新语言提取通用视觉表征；在Open-set识别场景下，抛弃了语言信息；在Clost-set识别效果并不算太好。

五、相关资源

论文地址：https://arxiv.org/pdf/2204.05535.pdf
代码地址：https://github.com/lancercat/vsdf

参考文献

[1]Lyu P, Yuhao Huang, Lianwen Jin, and Dezhi Peng. Zero-shot Chinese text recognition via matching class embedding. In ICDAR, volume 12823, pages 127–141, 2021.

[2]Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, JieBo Hou, and Xu-Cheng Yin. Towards open-set text recognition via label-to-prototype learning. CoRR, abs/2203.05179v1, 2021.z

原文作者:Chang Liu, Chun Yang*, Xu-Cheng Yin*

撰稿：李海洋

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫描二维码，关注我们:

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法（有源码）

[CVPR 2022]SimAN: 基于生成式模型的文本图像自监督表征学习

[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理（有源码）

[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型

[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法（有源码）

[CVPR 2022] 特征采样与分组：基于Transformer的场景文字检测方法

[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别（有源码）

[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别（有源码）

[ACM MM 2021]显示、阅读和推理：基于灵活上下文聚合器的表格结构识别

[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法

[ICDAR 2021] 基于预测控制点的文档图像矫正（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

生成图片，分享到微信朋友圈

[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法（有源码）

您可能也对以下帖子感兴趣