论文推荐|[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
一、研究背景
近年来文本识别领域得到很大发展,然而低分辨率的图片识别仍存在较大的挑战,通过超分辨率技术来恢复低质量的图片成为主要的研究问题。先前的工作通过构造低分辨率-高分辨率的样本对[1,2],使用L1或者L2 loss来恢复文本图像。然而上述方法将文本图像视为一般图片,没有考虑文本图像的特殊性。Yan等人[3]提出PlugNet同时优化超分辨率重建任务以及文本识别任务;Wang等人[4]提出TSRN方法,在骨干网络后加入循环层来进行时序建模。最新的,Chen等人[5]提出STT,将文本先验加入到模型中,具体包括Position-aware模块以及Content-aware模块。Ma等人[6]提出TPGSR方法,将文本语义特征合并到骨干网络模块中,通过多次迭代的方法来增强文本图像。
近来的一些工作都在字符级别进行增强修复,论文提出关注更细粒度级别-笔划级别来增强文本图像。受Gestalt心理学启发,人类能够根据先验知识来从关键部分重构最接近的目标,作者提出关注笔划的SFM模块,通过识别器产生的笔划级别注意力图来帮助重建高分辨率图片。论文提出的方法在模糊英文及中文上能有更好的重建效果。
图1 关键信息对物体重构的重要作用示意图
二、方法原理简述
图2 网络整体结构
网络的整体结构如图2所示,包括Pixel-wise Supervision Module (PSM) 来恢复文本图像的轮廓以及颜色,Stroke-Focused Module (SFM) 来恢复文本图像中的文本细节。
笔划字典构造
笔划是不同语言中的最基础单元,论文中首先将英文中不同字符、数字、以及中文单字中的字符拆分成笔划序列。对于中文单字存在五种基础笔划,包括横、竖、撇、点、折。
对于英文字母,按照图3(c)进行划分,按照该划分标准,我们可以将每个英文字母通过一个序列串来表示,如图3(e)所示,英文单词Hello表示为不同数字组合成的序列串,通过0表示<stop>符号。
图3 中文字符、英文字符以及数字笔划构造示意图
像素级监督模块(PSM)
由于训练的Pair样本对存在不对齐的问题,首先使用STN[7]模块来减轻该问题,使用CNN Backbone网络来提取和原分辨率一样大小,通道数更大的特征图,最后使用Pixel Shuffle操作来输出重建图像,其中PSM模块使用L2 Loss进行监督。
笔划聚焦模块(SFM)
论文中首先在合成数据集Synth90k[8]以及SynthText[9]上,使用笔划级别的标签进行预训练。通过预训练好的识别器,论文中去掉最后的分类Head,使用多头注意力出来的热力图做为监督信号,同时输入重建文本图像及真实的文本图像,在热力图上使用L1 Loss做为监督,该注意力模块在预训练后参数不再更新。模型的最终Loss由PSM以及SFM两部分组成。
三、主要实验结果
如表一、表二所示,论文中对超参的设计做了多个对比实验,包括Loss的比例设计以及L1 Loss和L2 Loss的区别。其中SFM模块的Loss值相对更小,大约在10^-3次方,当使用L2 Loss时会产生更小的梯度,不利于网络更新。
如表三所示,作者对比了在不同识别模型下,通过不同的超分辨率重建方法,达到的平均识别准确率。如表四所示,作者对比了在其它的超分辨率模型下引入SFM模块,都能进一步的提高模型的识别准确率,这说明SFM模块能够有效的关注笔划级别的细节,而不仅仅考虑背景像素信息。
如表五所示,作者对比了图像的超分辨率重建操作是否有必要?论文中直接使用低分辨率图片进行训练,发现通过超分辨率重建再识别的方法,能够对平均准确率提升2.6%,说明图像的超分辨率重建操作有必要。如表六所示,基于注意力机制的长序列预测,可能会存在注意力偏移问题,生成的热图标签会存在误差,作者发现仅使用识别结果预测正确的和使用所有的热图预测结果,平均识别准确率仅相差0.4%,说明基于笔划级别的热图能够有效的引导图像重建,同时模型能够对一定的噪声鲁棒。
如表七所示,论文对加入SFM模块的参数量以及Flops数进行计算。同时该SFM模块在测试时无需引入,只需在训练时提供监督即可。
四、总结及讨论
相关资源
https://github.com/FudanVI/FudanOCR/tree/main/text-gestalt
参考文献
[9]. Gupta, A.; Vedaldi, A.; and Zisserman, A. 2016. Synthetic data for text localisation in natural images. In CVPR, 2315–2324.
原文作者: Jingye Chen, Haiyang Yu, Jiangqi Ma, Bin Li, Xiangyang Xue
撰稿:马伟洪
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
竞赛冠军方法分享 | 基于多模态GCN和句子排序的POI生成方案
论文推荐|[ICDAR 2021]基于局部和全局金字塔掩模对齐的复杂表格结构识别(有源码)
论文推荐|[NeurIPS2021] 一个大规模开放域视频文本数据集和基于transformer的端到端文本识别算法(有源码)
论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测
论文推荐|[ICCV 2021] 面向表格结构识别的表格图重构网络(有源码)
论文推荐|[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器
论文推荐|[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割
论文推荐|[ICCV 2021] Handwriting Transformer
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: