论文推荐| [CVPR 2021] MetaHTR:书写风格自适应的手写文本识别
一、研究背景
二、方法原理简述
图1 网络训练过程
MetaHTR基于Model Agnostic Meta-learning(MAML)[1]算法,其关键在于训练过程,识别模型部分可以是任意的主流文本识别模型[2-4]。图1展示了MetaHTR的训练过程。MetaHTR训练的目的是为了得到的模型在少量新书写风格的数据中经过一次参数更新后,即可较好地适应该风格。
在训练阶段,每一次迭代分为内循环和外循环两部分:内循环是模拟用少量样本去适应新的书写风格这个过程,产生一个临时的模型;外循环是用临时模型去推理该风格的新样本。每一次迭代要用到某一个Writer的两部分不重叠的样本。在内循环中,用初始模型处理第一部分样本并根据Loss更新参数,得到临时模型。这里的Loss衡量识别结果与GT的差距。接着进行外循环,用临时模型处理第二部分样本,并根据Loss对初始参数进行更新,得到迭代一次的模型。值得注意的是,这里通过二阶导数将梯度从临时模型回传到初始模型。上述过程重复进行直到训练结束。在推理阶段,训练好的模型先在少量某个Writer的数据中Fine-tune一次,然后再开始推理。
三、主要实验结果及可视化效果
图2 风格适应前后效果对比
表1 Comparison Among Baselines, Naive Fine-tuning, And MetaHTR For Using Lexicon (L), No Lexicon (NL). GAP: Difference Between MetaHTR (NL) Vs Baseline (NL). We Almost Get Around 5-7% WRA Improvement Over Respective Baselines Under NL Setting.
表2 Performance Analysis With Different Approaches.
四、总结及讨论
五、相关资源
MetaHTR论文地址:
https://arxiv.org/pdf/2104.01876.pdfMAML论文地址:
https://arxiv.org/pdf/1703.03400.pdfASTER论文地址:
https://ieeexplore.ieee.org/document/8395027SAR论文地址:
https://arxiv.org/pdf/1811.00751.pdfSCATTER论文地址:
https://arxiv.org/pdf/2003.11288.pdf
参考文献
[1] Finn, C., Abbeel, P., & Levine, S. (2017, July). Model-agnostic meta-learning for fast adaptation of deep networks. In International Conference on Machine Learning (pp. 1126-1135). PMLR.
[2] Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., & Bai, X. (2018). Aster: An attentional scene text recognizer with flexible rectification. IEEE transactions on pattern analysis and machine intelligence, 41(9), 2035-2048.
[3] Li, H., Wang, P., Shen, C., & Zhang, G. (2019, July). Show, attend and read: A simple and strong baseline for irregular text recognition. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, No. 01, pp. 8610-8617).
[4] Litman, R., Anschel, O., Tsiper, S., Litman, R., Mazor, S., & Manmatha, R. (2020). SCATTER: selective context attentional scene text recognizer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11962-11972).
原文作者:Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song
撰稿:李鸿亮
编排:高 学审校:连宙辉发布:金连文免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: