论文推荐| [CVPR 2021] MetaHTR：书写风格自适应的手写文本识别

Original 李鸿亮 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍 CVPR 2021 录用论文 “MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition”的主要工作。该论文认为手写文本识别模型在推理阶段应该可以通过少量样本来适应新的书写风格，并提出一个基于元学习来解决该问题的模型。

一、研究背景

书写风格的多样性使得手写文本识别是一个具有挑战性的问题。基于现代深度学习的手写文本识别模型通过在大量的数据中训练来解决这个问题。但本文提出一个假设，“总会存在新的书写风格，且与训练集中的书写风格截然不同。”例如作者的iPad可以很好地识别他4岁儿子写的字，但却难以识别他自己写的字。作者希望通过书写一个特定的句子，使得iPad可以适应他的书写风格，从而提升识别效果。这个动机与元学习[1]非常相似，即“先在相关任务中获取信息，接着通过在测试过程中使用一小部分样本进行快速适应来将其推广到新的任务中。”

二、方法原理简述

图1 网络训练过程

MetaHTR基于Model Agnostic Meta-learning(MAML)[1]算法，其关键在于训练过程，识别模型部分可以是任意的主流文本识别模型[2-4]。图1展示了MetaHTR的训练过程。MetaHTR训练的目的是为了得到的模型在少量新书写风格的数据中经过一次参数更新后，即可较好地适应该风格。

在训练阶段，每一次迭代分为内循环和外循环两部分：内循环是模拟用少量样本去适应新的书写风格这个过程，产生一个临时的模型；外循环是用临时模型去推理该风格的新样本。每一次迭代要用到某一个Writer的两部分不重叠的样本。在内循环中，用初始模型处理第一部分样本并根据Loss更新参数，得到临时模型。这里的Loss衡量识别结果与GT的差距。接着进行外循环，用临时模型处理第二部分样本，并根据Loss对初始参数进行更新，得到迭代一次的模型。值得注意的是，这里通过二阶导数将梯度从临时模型回传到初始模型。上述过程重复进行直到训练结束。在推理阶段，训练好的模型先在少量某个Writer的数据中Fine-tune一次，然后再开始推理。

在主流的文本识别任务中，最终的Loss是取预测结果中各个字符的交叉熵Loss的平均值。但作者认为不同的字符在各种风格中的差异程度不一样，为了快速适应新风格，需要给部分字符更高的优先度。所以在内循环的Loss中，各个字符的交叉熵Loss的权重不一样，由3层MLP根据梯度信息来预测。

三、主要实验结果及可视化效果

图2 风格适应前后效果对比

表1 Comparison Among Baselines, Naive Fine-tuning, And MetaHTR For Using Lexicon (L), No Lexicon (NL). GAP: Difference Between MetaHTR (NL) Vs Baseline (NL). We Almost Get Around 5-7% WRA Improvement Over Respective Baselines Under NL Setting.

表2 Performance Analysis With Different Approaches.

本文在IAM和RIMES上验证MetaHTR的效果。由于测试集中没有定义适应集（Adaptation Set, 用来给模型适应新的书写风格），所以对于每个测试集中的Writer，作者随机选取16个样本作为适应集。表1验证了MetaHTR要优于正常训练然后直接用适应集来Fine-tune的方法。在表2中，作者对比了其他方法，包括一些基于元学习的方法，可以看到MetaHTR的提升最大。

四、总结及讨论

作者首次提出书写风格适应问题，即模型在推理过程中只需要很少的样本就能适应新的书写风格，并采用扩展的Model Agnostic Meta-learning(MAML)算法来训练书写风格自适应手写文本识别网络。该网络在不改变其结构的情况下应用于三个现有的文本识别模型，在两个主流的手写数据集上验证了其更好效果。

五、相关资源

MetaHTR论文地址：
https://arxiv.org/pdf/2104.01876.pdf
MAML论文地址：
https://arxiv.org/pdf/1703.03400.pdf
ASTER论文地址：
https://ieeexplore.ieee.org/document/8395027
SAR论文地址：
https://arxiv.org/pdf/1811.00751.pdf
SCATTER论文地址：
https://arxiv.org/pdf/2003.11288.pdf

参考文献

[1] Finn, C., Abbeel, P., & Levine, S. (2017, July). Model-agnostic meta-learning for fast adaptation of deep networks. In International Conference on Machine Learning (pp. 1126-1135). PMLR.

[2] Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., & Bai, X. (2018). Aster: An attentional scene text recognizer with flexible rectification. IEEE transactions on pattern analysis and machine intelligence, 41(9), 2035-2048.

[3] Li, H., Wang, P., Shen, C., & Zhang, G. (2019, July). Show, attend and read: A simple and strong baseline for irregular text recognition. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, No. 01, pp. 8610-8617).

[4] Litman, R., Anschel, O., Tsiper, S., Litman, R., Mazor, S., & Manmatha, R. (2020). SCATTER: selective context attentional scene text recognizer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11962-11972).

原文作者：Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song

撰稿：李鸿亮

编排：高学审校：连宙辉发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐| [CVPR 2021] MetaHTR：书写风格自适应的手写文本识别

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐| [CVPR 2021] MetaHTR：书写风格自适应的手写文本识别

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣