一、引言
场景文本图像超分辨率(STISR)旨在提高低分辨率图像中文本的分辨率和可读性。尽管目前基于卷积神经网络 (CNN)的文本超分方法已经取得了显着的改进,但基于CNN的方法[1,2]仍然难以为空间变形的文本重建高分辨率图像,尤其是对于旋转和曲线形状的文本的重建效果不理想,如图1 所示。这是因为基于 CNN 的方法采用局部性的操作,无法有效地捕捉由变形引起的文本位置变化。因此作者针对这个问题,提出了一个的文本注意力网络 (TATT) ,利用提取的文本先验知识来解决这个问题。
这篇工作是作者对其先前工作TPGSR[2]的改进,TATT和TPGSR都是基于文本先验引导(TP-guided)的方法;但作者认为TPGSR 模型仅采用了一种简单的方法来利用文本先验:它只是通过卷积将文本先验与图像特征合并,而这种卷积操作只能让文本先验与图像特征在较小的局部范围内交互,这限制了文本先验对文本重建过程的影响。因此,作者认为应采用一些基于全局性的操作(例如全局注意力机制)来捕获文本图像中的远程相关性,以获得更好的 STISR 性能。
图1 不同文本超分模型在旋转和弯曲形变文本图像上的 SR 恢复。 “R”、“P”和“S”代表识别、PSNR 和 SSIM 结果。红色框内的字符存在缺失或错误。
二、方法
图2 TATT的网络结构
整体架构
TATT的整体结构如图2所示,整个网络可以看作是由文本先验生成分支TP分支和超分辨率SR分支两条分支组成。网络以低分辨率图像作为输入,在上面的TP分支,文本识别模块TPG从低分辨率图像提取出文本先验Text Prior,这里的Text Prior不是特征图,只是一个文本序列。在下面的SR分支,低分辨率图像经过一层9×9卷积得到图像特征,然后将提取到的文本先验Text Prior 和图像特征 Image Feature 同时输入到TP Interpreter;TP Interpreter计算文本先验和图像特征之前的相关性,将语义信息和空间位置信息进行对齐,输出TP Map,这个TP Map相当于调制映射,用于增强图像特征的语义部分。最后将TP Map 和图像特征输入到主干网络中,输出高分辨率图像。
TP Interpreter
整个网络的关键部分在于TP Interpreter的设计,其结构如图3所示,TP Interpreter的目标就是将文本先验中的语义信息施加到图像特征域中的相关空间位置;TP Interpreter是一个基于Transformer的架构,由编码器和解码器两部分构成,对文本先验Text Prior进行正弦位置编码后输入到编码器,编码器由一个标准的Multi-head Self-attention Layer(MSA)和前馈网络FFN组成,利用多头自注意力机制,MSA能够捕捉文本先验的各语义元素之间的上下文关系,最终编码器输出语义得到增强的文本先验特征以供后面的计算。在解码器部分,同样需要先对图像特征进行位置编码,这里作者设计了一种循环位置编码(RPE),来更好地对图像特征在水平方向的顺序依赖进行编码;解码器由一个标准的Multi-head Cross-attention Layer和前馈网络FFN组成,利用MCA的全局注意力机制,解码器能够捕捉文本先验和图像特征之间的全局相关性,将文本先验与图像特征进行对齐,最终输出TP Map用于指导后面的超分文本重建过程。
图3 TP Interpreter的整体架构
文本结构一致性损失(TSC Loss)
三、实验结果
作者首先在Textzoom[1]数据集上进行训练和测试,如表1所示,TATT在CRNN、ASTER两种网络上的识别精度都是最高的,这里的TPGSR-3表示采用了一个多级策略,相当于迭代超分3次,可以看到TATT仅需一次迭代就达到和TPGSR-3迭代3次Comparable的水平,尤其是对于Medium和Hard这种困难样本,TATT这种用语义指导的超分方法的优势也更加明显;而且在所有的方法中,TATT的前向推理速度也是最快的。
表2 TATT与SOTA方法在PSNR/SSIM指标上的对比
如表2所示,TATT在图像评测指标PSNR/SSIM上也达到了SOTA性能。
图4 可视化效果
如图4所示,作者可视化了TATT和其他STISR模型在规则和空间变形样本的超分效果。可以看到,TATT对于空间变形文本图像的重建具有较好的鲁棒性。
四、总结
五、相关资源
参考文献
[1] Wenjia Wang, Enze Xie, Peize Sun, Wenhai Wang, Lixun Tian, Chunhua Shen, and Ping Luo. TextSR: Content-aware text super-resolution guided by recognition. In Eur. Conf. Comput. Vis., 2020.
[2] Jianrui Cai, Hui Zeng, Hongwei Yong, Zisheng Cao, and Lei Zhang. Toward real-world single image super-resolution: A new benchmark and a new model. In Int. Conf. Comput. Vis., pages 3086–3095, 2019.
原文作者:Jianqi Ma, Zhetong Liang, Lei Zhang
撰稿:孔宇昕
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾