查看原文
其他

论文推荐|[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构

马伟洪 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2022论文Text Gestalt: Stroke-Aware Scene Text Image Super Resolution.该论文主要针对文本图像的超分辨率生成,提出在笔划级别来提升文本图像的清晰度,首先通过预先设定的规则来将英文及数字生成笔划级别的标签,进一步的,论文提出SFM(Stroke Focused Module)模块,通过预训练好的文本识别器生成笔划级别注意力图,帮助重建低分辨率文本图像。论文提出的方法在已有的低分辨率数据集,包括TextZoom以及Degraded-IC13上能有更好的性能表现。

一、研究背景



近年来文本识别领域得到很大发展,然而低分辨率的图片识别仍存在较大的挑战,通过超分辨率技术来恢复低质量的图片成为主要的研究问题。先前的工作通过构造低分辨率-高分辨率的样本对[1,2],使用L1或者L2 loss来恢复文本图像。然而上述方法将文本图像视为一般图片,没有考虑文本图像的特殊性。Yan等人[3]提出PlugNet同时优化超分辨率重建任务以及文本识别任务;Wang等人[4]提出TSRN方法,在骨干网络后加入循环层来进行时序建模。最新的,Chen等人[5]提出STT,将文本先验加入到模型中,具体包括Position-aware模块以及Content-aware模块。Ma等人[6]提出TPGSR方法,将文本语义特征合并到骨干网络模块中,通过多次迭代的方法来增强文本图像。

近来的一些工作都在字符级别进行增强修复,论文提出关注更细粒度级别-笔划级别来增强文本图像。受Gestalt心理学启发,人类能够根据先验知识来从关键部分重构最接近的目标,作者提出关注笔划的SFM模块,通过识别器产生的笔划级别注意力图来帮助重建高分辨率图片。论文提出的方法在模糊英文及中文上能有更好的重建效果。 

图1 关键信息对物体重构的重要作用示意图

二、方法原理简述



图2 网络整体结构

网络的整体结构如图2所示,包括Pixel-wise Supervision Module (PSM) 来恢复文本图像的轮廓以及颜色,Stroke-Focused Module (SFM) 来恢复文本图像中的文本细节。

笔划字典构造

笔划是不同语言中的最基础单元,论文中首先将英文中不同字符、数字、以及中文单字中的字符拆分成笔划序列。对于中文单字存在五种基础笔划,包括横、竖、撇、点、折。

对于英文字母,按照图3(c)进行划分,按照该划分标准,我们可以将每个英文字母通过一个序列串来表示,如图3(e)所示,英文单词Hello表示为不同数字组合成的序列串,通过0表示<stop>符号。 

图3 中文字符、英文字符以及数字笔划构造示意图

像素级监督模块(PSM)

由于训练的Pair样本对存在不对齐的问题,首先使用STN[7]模块来减轻该问题,使用CNN Backbone网络来提取和原分辨率一样大小,通道数更大的特征图,最后使用Pixel Shuffle操作来输出重建图像,其中PSM模块使用L2 Loss进行监督。

笔划聚焦模块(SFM)

论文中首先在合成数据集Synth90k[8]以及SynthText[9]上,使用笔划级别的标签进行预训练。通过预训练好的识别器,论文中去掉最后的分类Head,使用多头注意力出来的热力图做为监督信号,同时输入重建文本图像及真实的文本图像,在热力图上使用L1 Loss做为监督,该注意力模块在预训练后参数不再更新。模型的最终Loss由PSM以及SFM两部分组成。 

三、主要实验结果



如表一、表二所示,论文中对超参的设计做了多个对比实验,包括Loss的比例设计以及L1 Loss和L2 Loss的区别。其中SFM模块的Loss值相对更小,大约在10^-3次方,当使用L2 Loss时会产生更小的梯度,不利于网络更新。 

 

如表三所示,作者对比了在不同识别模型下,通过不同的超分辨率重建方法,达到的平均识别准确率。如表四所示,作者对比了在其它的超分辨率模型下引入SFM模块,都能进一步的提高模型的识别准确率,这说明SFM模块能够有效的关注笔划级别的细节,而不仅仅考虑背景像素信息。 

如表五所示,作者对比了图像的超分辨率重建操作是否有必要?论文中直接使用低分辨率图片进行训练,发现通过超分辨率重建再识别的方法,能够对平均准确率提升2.6%,说明图像的超分辨率重建操作有必要。如表六所示,基于注意力机制的长序列预测,可能会存在注意力偏移问题,生成的热图标签会存在误差,作者发现仅使用识别结果预测正确的和使用所有的热图预测结果,平均识别准确率仅相差0.4%,说明基于笔划级别的热图能够有效的引导图像重建,同时模型能够对一定的噪声鲁棒。 

 

如表七所示,论文对加入SFM模块的参数量以及Flops数进行计算。同时该SFM模块在测试时无需引入,只需在训练时提供监督即可。 

 

图4 生成的重建文本图像

四、总结及讨论



论文提出了一种受Gestalt心理学启发的笔划级别场景文本图像超分辨率方法,突出了笔划级监督的有效性。同时提出的方法可以生成更清晰的超分辨率文本图像。如实验结果所示,所提出的 SFM 能够在 TextZoom 和中文手写数据集上实现先进的性能,而不会引入额外的时间开销。

相关资源



论文地址:https://arxiv.org/abs/2112.08171
代码开源地址:
https://github.com/FudanVI/FudanOCR/tree/main/text-gestalt

参考文献



[1]. Xu, X.; Sun, D.; Pan, J.; Zhang, Y.; Pfister, H.; and Yang,M.-H. 2017. Learning to super-resolve blurry face and text images. In ICCV, 251–260.
[2]. Pandey, R. K.; Vignesh, K.; Ramakrishnan, A.; et al. 2018. Binary document image super resolution for improved readability and OCR performance. arXiv preprint arXiv:1812.02475.
[3]. Yan, R.; and Huang, Y. 2020. PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit. In ECCV.
[4]. Wang, W.; Xie, E.; Liu, X.; Wang, W.; Liang, D.; Shen, C.; and Bai, X. 2020. Scene text image super-resolution in the wild. In ECCV, 650–666.
[5]. Chen, J.; Li, B.; and Xue, X. 2021a. Scene Text Telescope: Text-Focused Scene Image Super Resolution. In CVPR, 12026–12035.
[6]. Ma, J.; Guo, S.; and Zhang, L. 2021. Text Prior Guided Scene Text Image Super-resolution. arXiv preprint arXiv:2106.15368.
[7]. Wang, W.; Xie, E.; Liu, X.; Wang, W.; Liang, D.; Shen, C.; and Bai, X. 2020. Scene text image super-resolution in the wild. In ECCV, 650–666.
[8]. Jaderberg, M.; Simonyan, K.; Vedaldi, A.; and Zisserman, A. 2016. Reading text in the wild with convolutional neural networks. IJCV, 116(1): 1–20.

[9]. Gupta, A.; Vedaldi, A.; and Zisserman, A. 2016. Synthetic data for text localisation in natural images. In CVPR, 2315–2324.


原文作者: Jingye Chen, Haiyang Yu, Jiangqi Ma, Bin Li, Xiangyang Xue


撰稿:马伟洪

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存