查看原文
其他

论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器

马继钊 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICCV2021录用论文《Towards the Unseen: Iterative Text Recognition by Distilling from Errors》。该论文提出了一种迭代训练的单词文本识别框架。该框架利用上次迭代的字符序列预测知识来增强主干网络,在一系列公开数据集上取得了优于现有方法的识别率,并在训练和测试集标签字符序列互斥的分离设置下提供了最好的性能,展示了在未见过的单词上的泛化能力。 

图1 现有识别模型在标签互斥的分离实验设置下表现出的性能退化 

一、研究背景



文本识别是计算机视觉领域研究最广泛的课题之一。随着深度学习技术的发展,现有方法的识别精度较传统方法已经有了明显提高。因此,研究的焦点已经转移到更实际的“in-the-wild”设置,试图实现识别技术应用的普遍性。然而,一个实际的问题仍然阻碍着识别模型的实际部署——现有识别方法对于未训练过的单词图像识别性能较差。如图1所示,在训练集和测试集标签互斥的分离设置下,ASTER在各个数据集上的识别性能均有较大程度的退化。
这篇文章重点关注尚未被充分研究的未见(或罕见)单词识别问题,即测试集中的单词类别在训练集中没有(或极少)出现。与传统的零样本识别问题不同,这里的单个字符是在训练集中出现过的,而字符序列的组合方式是训练过程中未出现的,这使得这项任务具有挑战性。

本文提出了一个带有反馈机制的迭代框架来解决这个问题,它提取上一次迭代的错误预测知识来增强主干网络。该框架以一个跨模态的自动变分编码器(VAE)作为反馈模块,并用文本误差分布数据进行训练。该模块将离散的预测字符空间转换为连续的仿射变换参数空间,用于在下一次迭代时调节视觉特征映射。在一系列公共数据集上的实验表明,在传统的实验设置下,该系统的性能优于现有的技术水平。最重要的是,在训练集和测试集标签互斥的分离设置下,该框架提供了最好的性能,从而展示了对未见文字的泛化能力,如图1所示。 

二、方法原理简述



如图2所示,该文模型主要由文本识别网络和反馈模块组成: 

图2  本文模型整体结构及训练和测试过程 

(1)文本识别网络T该网络由一个STN网络进行图像矫正,并由CNN网络进行特征提取,在这里CNN网络被分为两部分,两部分网络之间是一个仿射变换层,以接受反馈模块提供的调制信息,调制方式如下所示:             

接下来由一个双向的LSTM网络来捕获两个方向的长距离依赖,最后由一个带有注意力机制的RNN解码器进行解码,输出预测序列;文本识别网络是使用交叉熵损失进行优化的,如下所示:
(2)反馈网络F,该模块由一个跨模态的自动变分编码器构成,它的目标是从离散字符预测空间Y到变换参数空间P建模一个条件分布。该模块首先由一个共享的Embedding将预测字符序列和标签字符序列映射为嵌入表示。接下来有两个独立的分支,先验网络和后验网络分别估计先验分布和后验分布的参数:从两组参数所构建的高斯分布中分别构建隐向量,并计算两个隐向量的KL散度,以监督预测序列的分布向标签序列的分布靠近,蒸馏错误预测知识。和隐向量Z被一起输入卷积解码器来获取仿射变换参数,在下一次迭代中调制识别主干网络。
反馈网络是使用合成数据进行预训练的,合成数据是由一系列SOTA场景文本识别模型对标签所对应图片进行识别所得到的预测序列。在预训练时,和隐向量Z被输入一个辅助网络,得到重建序列对和标签Y计算交叉熵损失,和隐向量之间的KL散度联合监督预训练过程,如下所示:
在正式训练过程中,真实数据和合成数据被交替使用,其损失函数如下所示:
其中作者施加了一个单调递减的约束
这使得与当前迭代相关的损失值小于之前的迭代,从而使模型收敛到更高的精度。

在测试时,辅助网络后验网络未被使用。

三、主要实验结果及可视化结果



表1 对训练集中未出现单词的无约束单词识别率,t=0表示没有反馈
如表1所示,作者在一系列SOTA前馈文本识别框架上整合了本文提出的迭代设计,并对不同的迭代次数进行了对比实验,其中各个数据集测试集的单词是训练集中未出现的。可以看到,作者所提出的框架在训练-测试集标签互斥的情况下,为当前的SOTA模型带来了单词识别率上的提升,并且在迭代次数为2时效果最佳。

表2 在常规实验设置下的实验结果

表2为常规设置下的实验结果,即测试集和训练集没有被设置为标签互斥。可以看到,在常规设置下,作者提出的迭代框架也提升了SOTA模型的单词识别率。

图3 可视化结果

四、总结和讨论



本文提出了一种新颖的迭代文本识别方法。利用条件变分自动编码器(CVAE)作为反馈模块,将预测字符序列的知识从之前的迭代传递到主干识别网络中,改进后续的预测。我们的反馈网络学习使用与候选词密切相关的多个字符序列中的错误分布。在各种STR和HTR数据集上的实验表明,本文的方法在传统实验设置上优于其他网络,在更实际应用场景上(训练-测试集标签互斥)更是如此。 

五、相关资源




论文地址:https://arxiv.org/abs/2107.12081 

参考文献



[1] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification.IEEE T-PAMI, 2018.

[2] Hui Li, Peng Wang, Chunhua Shen, and Guyu Zhang. Show, attend and read: A simple and strong baseline for irregular text recognition. InAAAI, 2019.

[3] Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, and R Manmatha. Scatter: selective context attentional scene text recognizer. InCVPR, 2020.

[4] Canjie Luo, Lianwen Jin, and Zenghui Sun. Moran: A multi-object rectified attention network for scene text recognition. Pattern Recognition, 90, 2019.

[5] Canjie Luo, Y uanzhi Zhu, Lianwen Jin, and Y ongpan Wang. Learn to augment: Joint data augmentation and network optimization for text recognition. InCVPR, 2020.

[6] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Y un, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. InICCV, 2019.

[7] Ayan Kumar Bhunia, Abhirup Das, Ankan Kumar Bhunia, Perla Sai Raj Kishore, and Partha Pratim Roy. Handwriting recognition in low-resource scripts using adversarial learning. InCVPR, 2019.

[8] Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu, and Shuigeng Zhou. Aon: Towards arbitrarily-oriented text recognition. InCVPR, 2018.

[9] Jinxi Guo, Tara N Sainath, and Ron J Weiss. A spelling correction model for end-to-end speech recognition. InICASSP, 2019

[10] MingKun Yang, Y ushuo Guan, Minghui Liao, Xin He, Kaigui Bian, Song Bai, Cong Yao, and Xiang Bai. Symmetry-constrained rectification network for scene text recognition. InICCV.

[11] Fangneng Zhan and Shijian Lu. Esir: End-to-end scene text recognition via iterative image rectification. InCVPR, 2019.

[12] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification.IEEE T-PAMI, 2018.

[13] Ethan Perez, Florian Strub, Harm De Vries, Vincent Dumoulin, and Aaron Courville. Film: Visual reasoning with a general conditioning layer. InAAAI, 2018. 



原文作者: Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song


撰稿:马继钊

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存