论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测
一、研究背景
时至今日,Mask R-CNN仍然在目标检测、分割等多种任务场景中表现出优异的性能,作为一种较强的Baseline模型。在文字检测领域中,许多方法也是受其启发,在其基础上构建出更强大的模型。然而在实际应用中,Mask R-CNN潜藏着两个问题还未被很好解决:其一是在密集文本行检测,特别是倾斜文本,由于多个相邻文本落在同一个Proposal中,互相干扰,容易造成漏检、误检、分割的Mask不准确等问题;其二是Anchor机制在不同的数据集下都需要进行对应的参数调整,特别是在文本尺度和长宽比剧烈的场景下,需要更精细、复杂的Anchor设置。针对这两个问题,作者提出MAYOR方法来缓解上述Mask R-CNN中的两个问题,在DAST1500, MSRA-TD500,ICDAR2015,CTW1500和Total-Text数据集上都取得SOTA的性能。
二、MAYOR方法简述
图2 MAYOR方法的结构
图2(a)是MAYOR方法 的结构,与Mask R-CNN基本一致,使用ResNet50-FPN的主干,不同点在于Mask分支的解码部分,把图2(b)的反卷积和卷积头,改成了图2(c)的MLP结构。下面主要阐述作者提出的3点改进。
1. MLP Mask Decoder(MMD):原始的卷积特点是权值共享和局部连接,但是在密集文本场景下,可能表现并不好。因为卷积在Mask分支的解码中,权值共享和局部连接在相邻文本实例中学习到的特征类似,落入同一Proposal中不同文本实例可能都会判别为文本类,分割出多个文本区域,容易混淆出错,即没有分割出Proposal实际所对应的实例目标,参考图3。而作者使用权值不共享的局部连接Locally Connected,和全连接Fully Connected分别实验,发现全连接的结构确实可以更好的利用全局信息学习分类的判别特征。
图3 Mask head的分类困惑。虚线框代表Proposal,与其相同颜色的倾斜矩形框是Mask文本实例GT。左图中fA1文本特征对于Text A实例是正样本,而相近的fA2文本特征却是负样本(类似地,在右图中对于Text B实例则相反),若用共享参数进行卷积fA1,fA2会得到类似的特征输出,不利于判别。
2. Instance-Aware Mask Learning(IAML):如图4,为了一进步缓解相邻文本的干扰,提出实例感知的Mask学习策略,在Mask Head中学习Proposal对应实例的全局表示,对于同一个GT不同的Proposal都预测出完整的对应实例,而不是局限于Proposal中被裁截的部分实例。
图4 Pixel-Aligned和Instance-Aware的Mask Learning示意图。红色框是Proposal区域,绿色框是对应GT,分割的目标是完整的GT Mask,而不是原来红框内的Mask。
三、主要实验结果及可视化效果
表1是MAYOR在任意形状密集场景文本DAST1500[2]数据集上的实验,包含1038张训练图片和500测试,结合表2,可以看到基于MLP的解码器(MMD)可以带来巨幅提升。表3是MAYOR在ICDAR2015[3]、CTW1500[4]、Total-Text[5]上的实验结果,表现出优异性能。表4是在MSRA-TD500[6]的实验结果。表5和图5是IAML策略在RotDAST(DAST1500加入旋转生成)数据集上的实验。图6是MAYOR的一些可视化结果。
图5 IAML策略在RotDAST数据集上的实验,对于多种旋转角度的文本更鲁棒。
图6 上面两行是MAYOR的可视化结果,下面两行是使用了IAML策略的可视化结果。
四、总结及讨论
五、相关资源
参考文献
原文作者: Xugong Qin, Yu Zhou*, Youhui Guo, Dayan Wu, Zhihong Tian, Ning Jiang, Hongbin Wang, Weiping Wang
撰稿:伍思航
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ICCV 2021] 面向表格结构识别的表格图重构网络(有源码)
论文推荐|[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器
论文推荐|[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割
论文推荐|[ICCV 2021] Handwriting Transformer
论文推荐|[ACM MM2021]尝试理解交通标志
论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: