查看原文
其他

PlugNet:一种可插拔的超分辨单元监督文本识别方法

王天玮 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍ECCV 2020录用论文:“PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit”的主要工作


一、背景介绍



图片低分辨率模糊是场景文本识别任务中常见的问题。本文提出了一种从特征层面进行超分辨率训练的方案PlugNet。该方案基于特征层面的超分辨率单元Pluggable Super-Resolution Unit设计,该模块仅在训练时生效,在推理时被移除,因此不产生额外计算开销。除此之外,本文还提出了Feature Squeeze Module(FSM)和Feature Enhance Module(FEM)用来增强特征。

二、方法概况


1.     方法背景与问题分析

模糊低质图像广泛存在于文本识别问题中(如上图a)。解决该问题有两种方案(上图b),第一种是在识别器前边加入一个超分辨率单元,如TextSR[1],但方案推理时会引入来自超分辨率的额外计算量;另一种方案是超分辨率单元与识别器共享Backbone学习,相当于训练Backbone从低质图片中提取到的特征“具有”高分辨率信息。
2.     PlugNet

PlugNet由五个部分组成,分别是图片矫正模块、特征提取器、超分辨率模块、FSM、识别头。其中图片矫正模块和识别头的设计并非本文重点,此处不提。
2.1特征提取器

本文使用的特征提取器仅在前两个Block进行下采样改变特征图大小,以保证输出的特征图尽量多地保留二维信息。在输出特征图时,使用提出的FEM来Concate各个Block的输出以增强特征表达。
2.2超分辨率模块
超分辨率模块使用RCAN[3]结构进行图片重构。在训练阶段,本文采用高斯模糊和下-上采样来生成低分辨率,具体设置如下:


超分辨率模块的损失函数是两张图片的L1 Loss:


2.3 FSM

该模块采用1x1卷积对FEM输出的堆叠特征进行降维,然后将降维后的同一列上特征拼起来作为识别头的输入。
2.3 训练
模型的训练Loss为识别Loss与超分辨率Loss的加和:

三、实验


1.消融实验
本文首先实验了不同尺寸的输入特征对识别效果的影响,并验证了本文选用的四倍下采样是最合理的。

本文分别验证了FSM和FEM两个模块的有效性,以及PlugNet相比ESRGAN[2]更加有效:

平衡参数的影响,本文通过实验验证了置为0.01时效果最好:

2.SOTA方法对比
与之前的SOTA方法相比,PlugNet提升明显,尤其是SVT和SVTP这两个比较模糊的数据集:

四、总结


针对图片模糊退化问题,本文提出了PlugNet,使用一个可插拔的超分辨率模块辅助训练,并提出了FSMFEM两个模块来进行特征的增强。一系列实验证明了PlugNet在低质文本识别问题上的有效性。 

参考文献


[1] Wang et al. Textsr:Content- aware text super-resolution guided by recognition. arXiv 2019.

[2] Wang et al.Enhanced super-resolution generative adversarial networks. ECCV 2018.

[3] Zhang et al. Image super-resolution using very deep residual channel attention networks. ECCV 2018.

原文链接:

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123600154.pdf


原文作者:Yongqiang Mou, Lei Tan, Hui Yang, Jingying Chen, Leyuan Liu, Rui Yan, Yaohong Huang
撰稿:王天玮编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:D




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存