本文简要介绍被CVPR 2022录用的论文《SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization》。该论文利用同一文本行的颜色、纹理等趋于一致的特点,解耦风格与内容,构造训练样本,再引导模型重新组合风格与内容,实现自监督表征学习。实验表明,通过预训练,提升了模型的表征能力。此外,在多样化数据生成、任意长文本编辑和字体风格插值等任务上,该自监督方法展现了不错的潜力,表明有更广泛的应用场景。
一、背景介绍
近年来,监督学习在计算机视觉领域取得了瞩目的成就。然而,监督学习方法严重依赖于数据的收集和标注。只有足量的训练数据才能防止模型过拟合,以泛化到实际使用场景中。为了降低数据驱动式模型对标签的依赖性,自监督学习成为一个十分有前景的解决思路,并吸引越来越多的学者们的关注[1][2]。
为此,Aberdam等人[3]在文本图像识别领域提出了自监督表征学习方法,如图1 (a) 所示,他们将一行文本切割成多个实例,并在不同实例之间使用对比学习[4]。然而,这种做法仍然是基于现有对比学习方法的过渡做法,文本图像的特点仍没有得到充分挖掘。所以,本文回顾了在深度学习时代之前,学者们发现的、文本图像区别于普通目标的特点。例如,文字的笔划粗细趋于一致,而小猫的四肢和躯干的粗细是不同的;同一行文本的色调也基本相同,而复杂的背景噪声是多变且没有规律的。所以,学者们利用这些常识,设计出文本的定位方法,例如基于连通域的方法[5],基于笔划宽度变换的方法[6][7]和基于最大稳定极值区域的方法[8]。这些方法展示了文本图像独一无二的特点,为模型的设计带来启发。
二、方法简述
如图 1 (b) 所示,本文利用同一行文本的风格趋于一致的特点,从一张文本图像中随机裁切出两个相邻的图像块,其中一块保留原始风格,作为风格引导;另一块则被随机增广,作为内容条件。然后,根据内容样式(拓扑形状)来衡量两个图像块上相似的地方,并从风格引导图像块上找到对应的风格,恢复到内容条件图像块上。具体来说,本文提出了一种基于相似度的风格迁移模块(SimilarityAware Normalization,SimAN),通过相似度查找原始风格,并恢复到内容条件图像块上,以恢复该增广过的图像块。当不同的内容样式可以被模型区分开时,相似度的度量才有意义,对应的风格才能被正确查询到,恢复出来的图像才足够准确。SimAN通过该过程,实现了自监督表征学习。
图2 详细框图
三、实验结果
图8 字体风格插值的可视化效果
四、总结
相关资源
论文下载地址:
https://arxiv.org/abs/2203.10492
数据集地址:
参考文献
[1].Jing L, Tian Y. Selfsupervised visual feature learning with deep neural networks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(11):4037–4058.
[2].Liu X, Zhang F, Hou Z, et al. Selfsupervised learning: Generative or contrastive. IEEE Transactions on Knowledge and Data Engineering, 2021, 1(1):1–1.
[3].Aberdam A, Litman R, Tsiper S, et al. Sequencetosequence contrastive learning for text recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. 15302–15312.
[4].Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations. In: Proceedings of the International Conference in Machine Learning (ICML), 2020. 1597–1607.
[5].Neumann L, Matas J. Realtime scene text localization and recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012. 3538–3545.
[6].Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010. 2963–2970.
[7].Yao C, Bai X, Liu W, et al. Detecting texts of arbitrary orientations in natural images. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012. 1083–1090.
[8].Huang W, Qiao Y, Tang X. Robust scene text detection with convolution neural network induced MSER trees. In: Proceedings of the European Conference on Computer Vision (ECCV), 2014. 497–511.
原文作者:Canjie Luo, Lianwen Jin, Jingdong Chen
撰稿:罗灿杰
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾