查看原文
其他

[ECCV2022] 基于门控注意力和ROI生成的场景文本擦除方法:重要模型的综合分析(已开源)

杨振华 CSIG文档图像分析与识别专委会 2022-12-16

本文简要介绍ECCV 2022录用论文“The Surprisingly Straightforward Scene Text Removal Method With Gated Attention and Region of Interest Generation: A Comprehensive Prominent Model Analysis”的主要工作。该论文主要针对过去的自然场景文本擦除算法没有基于同样的训练集和测试集进行公平比较的问题,于是论文对过去的算法进行复现,并在相同的实验设置下进行公平对比。同时论文还提出了Gated Attention(GA)和Region-of-Interest Generation(RoIG)两个模块,并取得了最优的效果。

图1 模型的输入和输出

一、研究背景



自然场景文本擦除(STR)是一项从自然场景图像中删除文本的任务,可用于隐私保护、图像/视频中的文本编辑和AR翻译等场景。目前很多STR研究都采用了深度学习的方法,然而,这些方法并没有采用相同的训练数据集和测试集,因此无法以公平的方式去评估性能,例如一些论文对合成数据的不同子集进行了训练[1]。此外,这些方法没有以相同的输入图像尺寸进行实验,这会影响速度、精度和模型参数量。同时,过去的方法并没有出现过使用文本笔划区域(TSR)和文本笔画周围区域(TSSR)来设计模型。

二、方法原理简述



图2 网络整体框架图

图2是这篇文章提出的模型整体结构,网络主要提出了Gated Attention(GA)和Region-of-Interest Generation(RoIG)两个模块,其中GA使用注意力图使得模型集中在文本笔划以及周围区域的纹理和颜色上,以更精确地从输入图像中删除文本,RoIG用于仅关注带有文本的区域而不是整个图像,以更有效地训练模型。

Region-of-Interest Generation(RoIG)模块中的生成器将图像和相应的文本框掩码作为其输入,并生成视觉上合理的非文本图像。该生成器采用FCN-ResNet18作为主干网络,并采用Skip连接方式[2]。生成器的输出为,擦除结果为.其中为去除文本区域的背景图像。RoIG模块采用RoI回归损失、感知损失、风格损失和全变分损失来进行监督训练,如下式所示。

Gated Attention(GA)模块以特征图作为输入,生成TSR和TSSR特征图,然后通过Gate参数调整这两个特征图的比例。具体过程如下图3所示,论文通过计算输入图像和真实标签图像之间的像素值差异来生成伪文本笔划掩码,来监督TSR和TSSR的生成。

图3 GA的模块细节

其中的训练损失函数如下式所示,分别代表TSR和TSSR的第i个像素。

最终的损失函数如下式所示,其中依次设置为100、0.5、50.0、25.0、1、10。

三、主要实验结果及可视化结果



(1)主流模型的对比分析

表1 在SCUT-EnsText真实数据集的结果

表2 在Oxford文本合成数据集的结果

表1和表2展示了过去几种STR方法在真实数据和合成数据上的性能。从表中可以发现论文提出的方法在合成和真实数据集上效果高于现有的最先进方法。它也比除了EnsNet [3]以外的任何其他方法都更轻量化、速度更快。

(2)模型消融实验

图4 消融实验可视化结果

图4表明TSSRA产生的结果比TSRA减少了更多的伪影。另一方面,TSSRA 适合关注TSSR,模型利用它来填充TSR并产生更高质量的输出。同时可以发现让GA模块从TSRA和TSSRA的集合中选择最佳比率,然后适当地聚合特征是非常有效的。

(3)与过去方法的比较

图5 与过去方法的可视化对比
图5的第三列和第六列分别展示的是EnsNet[3]和EraseNet[4],它们均无使用显式文本框区域,只是擦除了部分文本。图中第四列和第五列分别展示了MTRNet[5]和MTRNet++[6]无法在不留下伪影或不部分擦除文本的情况下,成功地从复杂背景中删除所有文本。然而,我们提出的具有GA和RoIG模块的模型则在无额外计算量增加的情况下,可成功输出高质量的STR图像,并且没有伪影的存在。

四、总结及讨论



尽管STR领域取得了很大进展,但由于没有标准化和公平的方法来评估性能,过去方法的优越性难以评估。因此论文复现了过去的方法,在同一标准化数据集上进行了训练和测试,并以客观公平的方式评估了它们的准确性、模型大小和推理时间。同时论文还提出了一种加入GA和RoIG的STR 方法。GA使用对文本笔划和周围区域的颜色和纹理的注意力图来擦除图像中的文本。RoIG使生成器只关注带有文本的区域而不是整个图像,以提高训练效率。在推理时间和输出图像质量方面,论文提出的方法在所有基准数据集上明显优于现有的最先进方法。

五、相关资源



The Surprisingly Straightforward Scene Text Removal Method With Gated Attention and Region of Interest Generation: A Comprehensive Prominent Model Analysis

  • 论文地址:  https://arxiv.org/pdf/2210.07489.pdf

  • 开源地址:  https://github.com/naver/garnet

参考文献



[1] Gupta, A., Vedaldi, A., Zisserman, A.: Synthetic data for text localisation in natural images. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 2315–2324 (2016).

[2] Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: International Conference on Medical image computing and computer-assisted intervention. pp. 234–241. Springer (2015).

[3] Zhang, S., Liu, Y., Jin, L., Huang, Y., Lai, S.: Ensnet: Ensconce text in the wild. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 33, pp. 801–808 (2019) .

[4] Liu, C., Liu, Y., Jin, L., Zhang, S., Luo, C., Wang, Y.: Erasenet: End-to-end text removal in the wild. IEEE Transactions on Image Processing 29, 8760–8775 (2020).

[5] Tursun, O., Zeng, R., Denman, S., Sivapalan, S., Sridharan, S., Fookes, C.: Mtrnet: A generic scene text eraser. In: 2019 International Conference on Document Analysis and Recognition (ICDAR). pp. 39–44. IEEE (2019).

[6] Tursun, O., Denman, S., Zeng, R., Sivapalan, S., Sridharan, S., Fookes, C.: Mtrnet++: One-stage mask-based scene text eraser. Computer Vision and Image Understanding 201, 103066 (2020).


原文作者: Hyeonsu Lee, Chankyu Choi


撰稿:杨振华

编排:高 学

审校:连宙辉

发布:金连文 



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存