论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割
本文简要介绍TIP 2021的论文“Semi-Supervised Pixel-level Scene Text Segmentation by Mutually Guided Network”的主要工作。本文提出了一种新颖的场景文本分割方法,设计了一个文本区域掩膜和像素级文本掩膜相互引导的网络结构,和一个针对该任务的半监督损失函数。本文提出的方法在ICDAR2013和TotalText数据集均达到了更好的分割结果。特别地,作者实验验证了分割后的文本图像可以较好的辅助提升场景文本识别器的性能。
一、研究背景
二、方法原理简述
本文提出的双任务相互引导网络的整体网络结构如图1所示。结构中的编码器和解码器采用全卷积神经网络(FCN)[1]设计,共享的编码器E包含4个下采样Block,解码器分为
图1 Mutually Guided Dual-task Network
为了方便理解,整个循环网络可以被分成两个阶段,如图2所示。
图2 Mutually Guided Network的两个阶段
在第一阶段,将编码器的输出
作者设计了一个半监督损失函数,由三部分组成,包含强监督的Soft IoU Loss和弱监督的Subset Loss、CRF Loss。首先对于可以匹配Pixel-level Mask的图片,采用Soft IoU Loss进行强监督。其中
Subset Loss利用了Pixel-level Mask应该属于Polygon-level Mask的子集这一先验知识,由加权的交叉熵损失函数得到。
其中
CRF Loss[2]被用来改进那些没有Ground Truth Mask监督的支路,这里
总体的半监督损失函数如式4所示,其中超参数
文章还实验证明了随着Pixel-level Mask的加入,场景文本识别器的性能也会有所提高。作者修改了现有识别网络(CRNN[10]和ASTER[11])的输入层,用四通道输入图像(RGB+Mask)取代原有的三通道输入,加载原本识别器的预训练模型,单独微调新加入的第一层网络直至收敛,整体网络结构如图3所示。
图3 文本识别网络及训练方法
三、主要实验结果及可视化效果
该网络采用了四个真实数据集来进行训练和验证:
1) COCO-TS[3]:COCO-Text数据集的一部分,包含14690张图片,每张图片至少有一个多边形文本框;
2) MLT-S[3]:MLT数据集的一部分,包含6896张图片;
3) ICDAR-2013-WARP[4]:ICDAR-2013数据集的弯曲版本,包括229张训练图片和233张验证图片,均有Pixel-level Mask标注。作者指出该数据集都是规则矩形文本框,作为实验的Polygon-level Mask较为简单,因此进行了随机弯曲后再进行实验;
4) TotalText[5]:包含了1255张训练图片和300张测试图片的不规则文本数据集,均有Pixel-level Mask标注。
图4 各数据集图片样例
数据使用方面,由于TotalText和ICDAR-2013-WARP的训练集数据量十分有限,实验中Pixel-level Mask和Polygon-level Mask两者均有使用。虽然COCO-TS和MLT-S都有Pixel-level Mask,由于是机器生成的所以质量较低,实验只采用标注质量较高的Polygon-level Mask,使整个实验以高度弱监督的方式进行,以获得大量图片,解决缺乏高质量Pixel-level数据的问题。
作者与传统方法MSER+SWT、通用分割方法CENet[6]、SegNet[7]、U-Net[8]、DeepLab-v3[9]和场景文本分割方法SMANet[3]对比,说明该网络达到了更好的分割效果,实验结果如表1所示。
其中,Synth+D.T.表示该网络用合成数据训练后跨域到真实数据上得到的结果,以此说明合成数据与真实数据之间存在跨域差异。
此外,由于对比的方法均为强监督方法,全部采用四个数据集的Pixel-level Mask标签进行训练。考虑到可能会引起潜在的不公平问题,作者设计了两种补充实验与自己提出的方法保持相同的设置(输入Polygon-level Mask):
用Polygon-level Mask将这些网络预训练,再用Pixel-level Mask进行微调;
在这些网络的中间层增加一个分支来输入Polygon-level Mask进行双任务训练。
实验结果如表2所示,可以看出加入以上两个方案的调整后,论文提出的方法仍是最好分割结果,因为如果没有损失函数的限制,Polygon-level Mask可能会误导训练。
作者还进行消融实验证明了相互引导网络结构和弱监督损失函数的有效性,实验结果如表3所示,可视化结果如图5、图6所示。
表3 消融实验
图5 mutually guided network消融实验的可视化结果
图6 弱监督损失函数消融实验的可视化结果。(a)是输入的RGB图片,(b)是没有加入LSB的分割结果,其中有一块较大的负样本区域,加入LSB后,Polygon-level Mask输出(d)修正了一部分负样本区域,使其缩小为(e),加入LCRF后这部分区域进一步缩小为(c), (f)是Pixel-level Mask的Ground Truth。
分割后的文本图像还可以提升识别器的性能,实验结果如表4和图7所示。其中,Random Mask是为了对比公平而设置的随机掩膜,将一张全黑图片上的像素值依50%概率随机置为1。
表4 分割文本图提升识别器性能的对比实验
图7 分割文本图辅助CRNN识别器的可视化结果
一些场景文本分割的可视化结果如图8所示,可以看出在文本颜色、尺度、排列分布变化多样和背景复杂、光照干扰的场景下,本文提出的方法均有较好的分割表现。
四、总结及讨论
相关资源
https://ieeexplore.ieee.org/abstract/document/9541538
参考文献
[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[2] Tang M, Perazzi F, Djelouah A, et al. On regularized losses for weakly-supervised cnn segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 507-522.
[3] Bonechi S, Bianchini M, Scarselli F, et al. Weak supervision for generating pixel–level annotations in scene text segmentation[J]. Pattern Recognition Letters, 2020, 138: 1-7.
[4] Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 robust reading competition[C]//2013 12th International Conference on Document Analysis and Recognition. IEEE, 2013: 1484-1493.
[5] Ch'ng C K, Chan C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 935-942.
[6] Gu Z, Cheng J, Fu H, et al. Ce-net: Context encoder network for 2d medical image segmentation[J]. IEEE transactions on medical imaging, 2019, 38(10): 2281-2292.
[7] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.
[8] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.
[9] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.
[10] Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.
[11] Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.
原文作者: Chuan Wang,Shan Zhao,Li Zhu,Kunming Luo,Yanwen Guo,Jue Wang,Shuaicheng Liu
撰稿:任峪瑾
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ICCV 2021] Handwriting Transformer
论文推荐|[ACM MM2021]尝试理解交通标志
论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: