论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器
本文简要介绍ICCV2021录用论文《Towards the Unseen: Iterative Text Recognition by Distilling from Errors》。该论文提出了一种迭代训练的单词文本识别框架。该框架利用上次迭代的字符序列预测知识来增强主干网络,在一系列公开数据集上取得了优于现有方法的识别率,并在训练和测试集标签字符序列互斥的分离设置下提供了最好的性能,展示了在未见过的单词上的泛化能力。
一、研究背景
本文提出了一个带有反馈机制的迭代框架来解决这个问题,它提取上一次迭代的错误预测知识来增强主干网络。该框架以一个跨模态的自动变分编码器(VAE)作为反馈模块,并用文本误差分布数据进行训练。该模块将离散的预测字符空间转换为连续的仿射变换参数空间,用于在下一次迭代时调节视觉特征映射。在一系列公共数据集上的实验表明,在传统的实验设置下,该系统的性能优于现有的技术水平。最重要的是,在训练集和测试集标签互斥的分离设置下,该框架提供了最好的性能,从而展示了对未见文字的泛化能力,如图1所示。
二、方法原理简述
(1)文本识别网络T,该网络由一个STN网络进行图像矫正,并由CNN网络进行特征提取,在这里CNN网络被分为两部分
在测试时,辅助网络
三、主要实验结果及可视化结果
表2 在常规实验设置下的实验结果
四、总结和讨论
本文提出了一种新颖的迭代文本识别方法。利用条件变分自动编码器(CVAE)作为反馈模块,将预测字符序列的知识从之前的迭代传递到主干识别网络中,改进后续的预测。我们的反馈网络学习使用与候选词密切相关的多个字符序列中的错误分布。在各种STR和HTR数据集上的实验表明,本文的方法在传统实验设置上优于其他网络,在更实际应用场景上(训练-测试集标签互斥)更是如此。
五、相关资源
参考文献
[1] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification.IEEE T-PAMI, 2018.
[2] Hui Li, Peng Wang, Chunhua Shen, and Guyu Zhang. Show, attend and read: A simple and strong baseline for irregular text recognition. InAAAI, 2019.
[3] Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, and R Manmatha. Scatter: selective context attentional scene text recognizer. InCVPR, 2020.
[4] Canjie Luo, Lianwen Jin, and Zenghui Sun. Moran: A multi-object rectified attention network for scene text recognition. Pattern Recognition, 90, 2019.
[5] Canjie Luo, Y uanzhi Zhu, Lianwen Jin, and Y ongpan Wang. Learn to augment: Joint data augmentation and network optimization for text recognition. InCVPR, 2020.
[6] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Y un, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. InICCV, 2019.
[7] Ayan Kumar Bhunia, Abhirup Das, Ankan Kumar Bhunia, Perla Sai Raj Kishore, and Partha Pratim Roy. Handwriting recognition in low-resource scripts using adversarial learning. InCVPR, 2019.
[8] Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu, and Shuigeng Zhou. Aon: Towards arbitrarily-oriented text recognition. InCVPR, 2018.
[9] Jinxi Guo, Tara N Sainath, and Ron J Weiss. A spelling correction model for end-to-end speech recognition. InICASSP, 2019
[10] MingKun Yang, Y ushuo Guan, Minghui Liao, Xin He, Kaigui Bian, Song Bai, Cong Yao, and Xiang Bai. Symmetry-constrained rectification network for scene text recognition. InICCV.
[11] Fangneng Zhan and Shijian Lu. Esir: End-to-end scene text recognition via iterative image rectification. InCVPR, 2019.
[12] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification.IEEE T-PAMI, 2018.
[13] Ethan Perez, Florian Strub, Harm De Vries, Vincent Dumoulin, and Aaron Courville. Film: Visual reasoning with a general conditioning layer. InAAAI, 2018.
原文作者: Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song
撰稿:马继钊
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割
论文推荐|[ICCV 2021] Handwriting Transformer
论文推荐|[ACM MM2021]尝试理解交通标志
论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: