查看原文
其他

论文推荐 | [ECCV 2020] 真实自然场景文本图像的超分辨率网络与数据

朱远志 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV 2020论文“Scene Text Image Super-Resolution in the Wild”的主要工作。该论文主要针对自然场景图片的超分辨率(SR)问题,提出了一个包含真实的自然场景图片的SR数据集TextZoom,它包含真实的低分辨率(LR)和高分辨率(HR)的图片对,相比于合成数据更具真实性与挑战性。同时,提出了一个新的文本图片的超分辨率网络(TSRN),其包含三个新型的模块。在TextZoom上的大量实验表明,与合成SR数据相比,TSRN极大地提高了CRNN[1]、ASTER[2]和MORAN[3]的识别准确率。此外,TSRN在提高TextZoom的LR图像的识别精度方面明显优于7种最先进的SR方法。

图1  合成低分辨率图片(SynLR)、真实低分辨率图片(RealLR)和高分辨率图片(HR)的样例及视觉效果对比

 一、研究背景


场景文本识别是计算机视觉中的一项基础而重要的任务,因为它通常是许多文本相关下游任务的关键步骤,例如文件检索,卡片识别,车牌识别等。其中,自然场景中的文本,由于其在模糊、方向、形状和低分辨率等方面具有高度多样性,使得自然场景文本识别更具挑战性。近年来,深度学习和卷积神经网络的发展使得场景文本识别领域产生了巨大的突破,当前的文本识别器已经能在清晰文本图像上取得较好的效果。然而,当识别LR的文本图像时,它们的性能急剧下降。其主要困难在于LR文本的光学退化使得字符的形状模糊。因此,如果我们引入SR方法作为文本识别前的预处理过程,将是一个很有潜力的解决办法。然而,当前没有一个真实的数据集和相应的方法关注场景文本图片的SR问题。

 二、TextZoom数据集 ·



作者提出的数据集TextZoom来自两个SOTA的单一图片超分辨率(SISR)数据集:RealSR[4]和SRRAW[5]。这两个数据集是由数码相机捕获的成对的LR图片与HR图片。由于这两个数据集的识别精度有明显的差异,作者将构建的TextZoom划分成了三个难度,将RealSR中的数据作为easy,将SRRAW中焦距大于50mm采集的作为medium,剩下的作为hard。相应的训练集和测试集也是对应于原SRRAW和RealSR数据集的。

TextZoom数据集的标注信息比较丰富,包括文本的方向、文本的内容与文本图像采集时的原始焦距。同时,其包含了大量来自不同自然场景的文本,包括街景、图书馆、商店、汽车内饰等。

三、方法原理简述


图2 网络整体框架图图2是这篇文章提出的TSRN的整体结构。TSRN基于SRResNet[6],作者主要对SRResNet进行了两项结构上的改进。分别是在网络前添加了一个Central Alignment Module,和将原始主干网络中的基础模块替换成了作者提出的Sequential Residual Block(SRB)。
整体的流程如下,作者先在原始的RGB输入图片上拼接了一个二值掩膜。训练过程中,首先由中心对齐模块对输入进行校正。然后利用CNN层从校正后的图像中提取浅层特征。接着使用叠加的5个SRB,提取深度和顺序相关特征,并按照ResNet[7]进行shortcut。最终,SR图像由上采样模块和CNN生成。作者还设计了一个梯度先验损失(LGP)来增强字符形状的边界,网络的输出由L2和LGP来监督。Central Alignment Module主要是解决部分LR图像中的一些文本像素对应了HR图像中的背景像素,网络可能会学习到错误的像素对应信息。因此作者就在网络前面加了一个TPS变换,这样LR图像中的文本区域会被对齐到中心附近,像素级的损失将会更好的监督网络,使性能更好。因为文本图像具有很强的序列性,Sequential Residual Block的目的是训练一个能够重建文本图像上下文信息的SR网络。具体而言,作者从水平和垂直两个方向引入BLSTM,堆叠了五个由CNN、BLSTM与Shortcut组成的 SRB。

Gradient Profile Loss源于Gradient Profile Prior[8],目的是产生更清晰的边缘。因为作者提出了一个成对的文本SR数据集,那么就可以使用HR图像的梯度场作为Ground Truth。一般来说,文字图像中字符的颜色与背景有强烈的对比。因此,锐化字符的边界可以使字符更加明显。

 四、主要试验结果及可视化结果 ·


作者使用他们提出的TextZoom数据集训练SR方法,并在三个测试集(easy,medium和hard)上评估模型的性能。作者首先定量分析了SR的必要性,比较了4种方法的识别精度。分别为Released:使用ASTER的开源模型直接测试;ReIm:使用LR图片重新训练ASTER模型;Finetune:对ASTER的开源模型在TextZoom训练集上Finetune;Ours:对LR图片先使用提出的TSRN网络生成SR图像再使用ASTER的开源模型测试。结果如表1所示(CommonLR为七个常规的场景文本测试集IC13, IC15, CUTE, IC03, SVT, SVTP, CUTE和IIIT5K中尺寸小于64×16的图片,共436张):

表1 不同方法的结果比较

可以看到作者先通过TSRN网络得到SR图片,再进行识别的效果基本都是最好的。对于Fine-tune中在TextZoom上的结果,作者给出的解释是在TextZoom上过拟合了,它在TextZoom上的性能最高,而在CommomLR上的性能最低,因为TextZoom训练集数量对于文本识别任务来说还远远不够。作者认为他们的SR方法也可以产生更好的视觉结果供人们阅读,如图3所示。同时,ReIm和Fine-tune方法需要使用两个识别模型分别对两种尺度的图片进行识别,而作者的方法只需要很小的SR模型,计算成本很小。接下来,作者对TSRN进行过了消融实验,验证各个模块的有效性,实验结果如表2所示,可视化效果如图3所示:表2 TSRN的不同设置的消融研究图3 TSRN中各个组成部分的可视化效果比较对比表2中实验0和实验1可以看出,叠加5个SRB,平均准确率比SRResNet[6]提高4.9%。Central Alignment Module能使平均准确度提高1.5%,从图3可以看出,在没有中央对齐模块的情况下,伪影较强,字符出现扭曲。Gradient Profile Loss能将平均准确率提高0.5%,虽然增加幅度不大,但图3中的视觉效果更好。最后,作者复现了7种SOTA的SR方法并进行了对比,均是在作者提出的TextZoom数据集上进行的实验,结果如表3和图4所示。可以观察到TSRN的表现优于所有7种SISR方法,在识别精度上有很大的提高。虽然这7种SISR方法可以取得较好的识别精度,但需要注意的是这些方法与BICUBIC之间的差距。这些方法平均准确率提高了2.3%~ 5.8%,而作者的TSRN平均准确率提高了10.7%~ 14.6%。表3 SOTA的SR方法在TextZoom三个子集上的性能

图4 SOTA的SR方法在TextZoom上的可视化效果

 五、总结及讨论


在本文中,作者验证了场景文本图像SR任务的重要性。并提出了具有丰富标注信息的数据集TextZoom,它是作者所知的首个真实成对场景文本图像的SR数据集。TextZoom根据难度被划分成三个子集:Easy,Medium和Hard。通过大量的实验,作者证明了真实数据相比合成数据的优越性。为了解决文本图像的SR问题,作者建立了一种新的面向文本的SR方法TSRN。作者的TSRN明显优于7个SR方法。这也表明,低分辨率文本的SR和识别问题还有待进一步研究。

在未来,作者将收集更合适、更多样的文本图像,将避免使用过大或过小的图像。图像还应该包含更多种类的语言,如汉语、法语和德语。作者也将专注于新的方法,如引入注意力机制到文本SR任务。

 六、相关资源 ·


Scene Text Image Super-Resolution in the Wild论文地址:https://arxiv.org/pdf/2005.03341.pdf。

 七、参考文献 ·


[1]Shi, B., Bai, X., Yao, C.: An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach.Intell. (2017)

[2]Shi,B., Yang, M., Wang, X., Lyu, P., Yao, C., Bai, X.: Aster: An attentional scene text recognizer with flexible rectification. IEEE Trans. Pattern Anal. Mach. Intell.(2018)

[3]Luo,C., Jin, L., Sun, Z.: Moran: A multi-object rectified attention network for scenetext recognition. Pattern Recognition (2019)

[4] Cai, J., Zeng, H., Yong, H., Cao, Z., Zhang, L.: Towardreal-world single image super-resolution: A new benchmark and a new model. In:ICCV (2019)

[5] Zhang, X., Chen, Q., Ng, R., Koltun, V.: Zoom to learn, learn tozoom. In: CVPR (2019)

[6] Ledig, C., Theis, L., Husz´ar, F., Caballero, J., Cunningham,A., Acosta, A., Aitken, A., Tejani, A., Totz, J., Wang, Z., et al.:Photo-realistic single image super resolution using a generative adversarial network. In: Proc. IEEE Conf. Comp. Vis. Patt. Recogn. (2017)

[7] He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning forimage recognition. In: CVPR (2016)

[8] Sun, J., Sun, J., Xu, Z., Shum, H.: Gradient profile prior and its applications in image super-resolution and enhancement. TIP (2011)


原文作者:Wenjia Wang, Enze Xie, Xuebo Liu, Wenhai Wang, Ding Liang, Chunhua Shen, Xiang Bai撰稿:朱远志编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




扫描二维码,关注我们:D


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存