论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割

Original 任峪瑾 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍TIP 2021的论文“Semi-Supervised Pixel-level Scene Text Segmentation by Mutually Guided Network”的主要工作。本文提出了一种新颖的场景文本分割方法，设计了一个文本区域掩膜和像素级文本掩膜相互引导的网络结构，和一个针对该任务的半监督损失函数。本文提出的方法在ICDAR2013和TotalText数据集均达到了更好的分割结果。特别地，作者实验验证了分割后的文本图像可以较好的辅助提升场景文本识别器的性能。

一、研究背景

场景文本检测作为一种在自然图像中定位文本位置的方法，在过去几年得到了广泛的研究。但是，检测任务只能提供粗粒度的文本框掩码，这限制了其在诸如图像编辑、修复等更精细任务上的应用。因此，更具挑战性的像素级场景文本分割任务开始受到关注。在自然场景中，文本的颜色、字体、排列方式都更多样化，给分割任务造成了很大的困难。除此之外，由于像素级标注成本较高，现在可用的高质量场景文本分割数据集十分有限，很难满足强监督训练的需要。为了解决缺乏Pixel-level Text Mask的问题，本文提出了一个用文本区域Polygon-level Mask辅助的半监督方法。

二、方法原理简述

本文提出的双任务相互引导网络的整体网络结构如图1所示。结构中的编码器和解码器采用全卷积神经网络（FCN）[1]设计，共享的编码器E包含4个下采样Block，解码器分为和两个分支，网络设计一致均包含4个上采样Block。分支生成Pixel-level Mask，分支生成Polygon-level Mask，两个分支的输出互为引导。与Pixel-level Mask相比，Polygon-level Mask可以从场景文本检测数据集中通过简单的预处理获取。Polygon-level Mask可以从两个方面辅助Pixel-level的场景文本分割：一是它可以提供文本位置的先验信息，引导网络关注这些区域；二是它还可以作为一个后验概率图来过滤生成的Pixel-level Mask中的负样本噪声。同样地，Pixel-level Mask也可以反过来引导Polygon-level Mask的生成。

图1 Mutually Guided Dual-task Network

为了方便理解，整个循环网络可以被分成两个阶段，如图2所示。

图2 Mutually Guided Network的两个阶段

在第一阶段，将编码器的输出和引导分别输入到两个解码器中。由于没有环路连接，引导G为0。第二阶段时，将环路连接，第一阶段的输出、作为引导和编码器输出一起被输入到对应的解码器和中，输出的是最终结果。

作者设计了一个半监督损失函数，由三部分组成，包含强监督的Soft IoU Loss和弱监督的Subset Loss、CRF Loss。首先对于可以匹配Pixel-level Mask的图片，采用Soft IoU Loss进行强监督。其中是判断输入图片和Mask是否匹配的指示函数。

Subset Loss利用了Pixel-level Mask应该属于Polygon-level Mask的子集这一先验知识，由加权的交叉熵损失函数得到。

其中。这个函数限制了那些在Pixel-level Mask中高概率存在但在Polygon-level Mask中低概率存在的像素，反之则不受限制。换句话说，如果Polygon-level Mask被很好地预测出来，这样做可以潜在地减少负样本率。

CRF Loss[2]被用来改进那些没有Ground Truth Mask监督的支路，这里，其中x是展CRF Loss的作用是限制输入图片I中具有相似颜色相邻像素点在输出中保持一致的分类，这样做也提高了分割的准确度。

总体的半监督损失函数如式4所示，其中超参数和分别设置为10和0.1。

文章还实验证明了随着Pixel-level Mask的加入，场景文本识别器的性能也会有所提高。作者修改了现有识别网络（CRNN[10]和ASTER[11]）的输入层，用四通道输入图像（RGB+Mask）取代原有的三通道输入，加载原本识别器的预训练模型，单独微调新加入的第一层网络直至收敛，整体网络结构如图3所示。

图3 文本识别网络及训练方法

作者认为识别器性能的提升说明了分割后的Pixel-level Mask可以作为注意力图来引导识别网络关注文本所在的区域。

三、主要实验结果及可视化效果

该网络采用了四个真实数据集来进行训练和验证：

1) COCO-TS[3]：COCO-Text数据集的一部分，包含14690张图片，每张图片至少有一个多边形文本框；

2) MLT-S[3]：MLT数据集的一部分，包含6896张图片；

3) ICDAR-2013-WARP[4]：ICDAR-2013数据集的弯曲版本，包括229张训练图片和233张验证图片，均有Pixel-level Mask标注。作者指出该数据集都是规则矩形文本框，作为实验的Polygon-level Mask较为简单，因此进行了随机弯曲后再进行实验；

4) TotalText[5]：包含了1255张训练图片和300张测试图片的不规则文本数据集，均有Pixel-level Mask标注。

图4 各数据集图片样例

数据使用方面，由于TotalText和ICDAR-2013-WARP的训练集数据量十分有限，实验中Pixel-level Mask和Polygon-level Mask两者均有使用。虽然COCO-TS和MLT-S都有Pixel-level Mask，由于是机器生成的所以质量较低，实验只采用标注质量较高的Polygon-level Mask，使整个实验以高度弱监督的方式进行，以获得大量图片，解决缺乏高质量Pixel-level数据的问题。

作者与传统方法MSER+SWT、通用分割方法CENet[6]、SegNet[7]、U-Net[8]、DeepLab-v3[9]和场景文本分割方法SMANet[3]对比，说明该网络达到了更好的分割效果，实验结果如表1所示。

表1 mutually guided dual-task network的分割结果对比

其中，Synth+D.T.表示该网络用合成数据训练后跨域到真实数据上得到的结果，以此说明合成数据与真实数据之间存在跨域差异。

此外，由于对比的方法均为强监督方法，全部采用四个数据集的Pixel-level Mask标签进行训练。考虑到可能会引起潜在的不公平问题，作者设计了两种补充实验与自己提出的方法保持相同的设置（输入Polygon-level Mask）：

用Polygon-level Mask将这些网络预训练，再用Pixel-level Mask进行微调；
在这些网络的中间层增加一个分支来输入Polygon-level Mask进行双任务训练。

实验结果如表2所示，可以看出加入以上两个方案的调整后，论文提出的方法仍是最好分割结果，因为如果没有损失函数的限制，Polygon-level Mask可能会误导训练。

表2 给其他网络加入Polygon-level Mask的补充对比实验

作者还进行消融实验证明了相互引导网络结构和弱监督损失函数的有效性，实验结果如表3所示，可视化结果如图5、图6所示。

表3 消融实验

图5 mutually guided network消融实验的可视化结果

图6 弱监督损失函数消融实验的可视化结果。(a)是输入的RGB图片，(b)是没有加入LSB的分割结果，其中有一块较大的负样本区域，加入LSB后，Polygon-level Mask输出(d)修正了一部分负样本区域，使其缩小为(e)，加入LCRF后这部分区域进一步缩小为(c)， (f)是Pixel-level Mask的Ground Truth。

分割后的文本图像还可以提升识别器的性能，实验结果如表4和图7所示。其中，Random Mask是为了对比公平而设置的随机掩膜，将一张全黑图片上的像素值依50%概率随机置为1。

表4 分割文本图提升识别器性能的对比实验

图7 分割文本图辅助CRNN识别器的可视化结果

一些场景文本分割的可视化结果如图8所示，可以看出在文本颜色、尺度、排列分布变化多样和背景复杂、光照干扰的场景下，本文提出的方法均有较好的分割表现。

图8 场景文本分割可视化结果

四、总结及讨论

本文提出了一种新颖的双任务相互引导神经网络，用于多边形级和像素级的场景文本分割。针对任务设计了新的半监督损失函数和训练策略，在缺少Ground Truth标注的情况下表现良好。进行了充分的消融实验证明相关方法的有效性，同时实验证明了像素级文本掩膜的加入可以给场景文本识别器带来更好的性能。

相关资源

论文地址：
https://ieeexplore.ieee.org/abstract/document/9541538

参考文献

[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.

[2] Tang M, Perazzi F, Djelouah A, et al. On regularized losses for weakly-supervised cnn segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 507-522.

[3] Bonechi S, Bianchini M, Scarselli F, et al. Weak supervision for generating pixel–level annotations in scene text segmentation[J]. Pattern Recognition Letters, 2020, 138: 1-7.

[4] Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 robust reading competition[C]//2013 12th International Conference on Document Analysis and Recognition. IEEE, 2013: 1484-1493.

[5] Ch'ng C K, Chan C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 935-942.

[6] Gu Z, Cheng J, Fu H, et al. Ce-net: Context encoder network for 2d medical image segmentation[J]. IEEE transactions on medical imaging, 2019, 38(10): 2281-2292.

[7] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

[8] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

[9] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.

[10] Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.

[11] Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.

原文作者: Chuan Wang,Shan Zhao,Li Zhu,Kunming Luo,Yanwen Guo,Jue Wang,Shuaicheng Liu

撰稿：任峪瑾

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割

论文推荐|[ICCV 2021] Handwriting Transformer

论文推荐|[ACM MM2021]尝试理解交通标志

论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法

论文推荐|[ICCV2021]端到端的文本图像分块矫正方法

论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别

论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器（有源码）

论文推荐|[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

论文推荐|[ICDAR2021 BestPaper] ViBERTgrid：一种用于文档关键信息提取的联合训练多模态二维文档表示

论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络

论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割

您可能也对以下帖子感兴趣