本文简要介绍ECCV 2022录用论文“The Surprisingly Straightforward Scene Text Removal Method With Gated Attention and Region of Interest Generation: A Comprehensive Prominent Model Analysis”的主要工作。该论文主要针对过去的自然场景文本擦除算法没有基于同样的训练集和测试集进行公平比较的问题,于是论文对过去的算法进行复现,并在相同的实验设置下进行公平对比。同时论文还提出了Gated Attention(GA)和Region-of-Interest Generation(RoIG)两个模块,并取得了最优的效果。
一、研究背景
二、方法原理简述
图2是这篇文章提出的模型整体结构,网络主要提出了Gated Attention(GA)和Region-of-Interest Generation(RoIG)两个模块,其中GA使用注意力图使得模型集中在文本笔划以及周围区域的纹理和颜色上,以更精确地从输入图像中删除文本,RoIG用于仅关注带有文本的区域而不是整个图像,以更有效地训练模型。
Region-of-Interest Generation(RoIG)模块中的生成器将图像和相应的文本框掩码作为其输入,并生成视觉上合理的非文本图像。该生成器采用FCN-ResNet18作为主干网络,并采用Skip连接方式[2]。生成器的输出为,擦除结果为
.其中
为去除文本区域的背景图像。RoIG模块采用RoI回归损失、感知损失、风格损失和全变分损失来进行监督训练,如下式所示。
Gated Attention(GA)模块以特征图作为输入,生成TSR和TSSR特征图,然后通过Gate参数调整这两个特征图的比例。具体过程如下图3所示,论文通过计算输入图像和真实标签图像之间的像素值差异来生成伪文本笔划掩码,来监督TSR和TSSR的生成。
其中的训练损失函数如下式所示,和
分别代表TSR和TSSR的第i个像素。
三、主要实验结果及可视化结果
(1)主流模型的对比分析
表2 在Oxford文本合成数据集的结果
表1和表2展示了过去几种STR方法在真实数据和合成数据上的性能。从表中可以发现论文提出的方法在合成和真实数据集上效果高于现有的最先进方法。它也比除了EnsNet [3]以外的任何其他方法都更轻量化、速度更快。
(2)模型消融实验
图4表明TSSRA产生的结果比TSRA减少了更多的伪影。另一方面,TSSRA 适合关注TSSR,模型利用它来填充TSR并产生更高质量的输出。同时可以发现让GA模块从TSRA和TSSRA的集合中选择最佳比率,然后适当地聚合特征是非常有效的。
(3)与过去方法的比较
四、总结及讨论
五、相关资源
The Surprisingly Straightforward Scene Text Removal Method With Gated Attention and Region of Interest Generation: A Comprehensive Prominent Model Analysis
论文地址: https://arxiv.org/pdf/2210.07489.pdf
开源地址: https://github.com/naver/garnet
参考文献
[1] Gupta, A., Vedaldi, A., Zisserman, A.: Synthetic data for text localisation in natural images. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 2315–2324 (2016).
[2] Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: International Conference on Medical image computing and computer-assisted intervention. pp. 234–241. Springer (2015).
[3] Zhang, S., Liu, Y., Jin, L., Huang, Y., Lai, S.: Ensnet: Ensconce text in the wild. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 33, pp. 801–808 (2019) .
[4] Liu, C., Liu, Y., Jin, L., Zhang, S., Luo, C., Wang, Y.: Erasenet: End-to-end text removal in the wild. IEEE Transactions on Image Processing 29, 8760–8775 (2020).
[5] Tursun, O., Zeng, R., Denman, S., Sivapalan, S., Sridharan, S., Fookes, C.: Mtrnet: A generic scene text eraser. In: 2019 International Conference on Document Analysis and Recognition (ICDAR). pp. 39–44. IEEE (2019).
[6] Tursun, O., Denman, S., Zeng, R., Sivapalan, S., Sridharan, S., Fookes, C.: Mtrnet++: One-stage mask-based scene text eraser. Computer Vision and Image Understanding 201, 103066 (2020).
撰稿:杨振华
编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾