查看原文
其他

论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测

伍思航 CSIG文档图像分析与识别专委会 2022-07-11
本文简要介绍ACM'MM 2021发表的论文“Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-Shaped Scene Text Detection”的主要工作。该论文针对密集文本行检测进行了多个改进,包括(1)MLP结构解码器可以更好地学习相邻文本之间局部和全局判别特征。(2)Instance-Aware Mask Learning (IAML)策略从全局角度感知密集文本的不同实例。(3)面向尺度纵横比变化剧烈场景,使用Adaptive Label Assignment(ALA)策略改进RPN正负样本选择,减轻对Anchor手工设定的依赖。论文最主要提升来源于MLP。

一、研究背景



时至今日,Mask R-CNN仍然在目标检测、分割等多种任务场景中表现出优异的性能,作为一种较强的Baseline模型。在文字检测领域中,许多方法也是受其启发,在其基础上构建出更强大的模型。然而在实际应用中,Mask R-CNN潜藏着两个问题还未被很好解决:其一是在密集文本行检测,特别是倾斜文本,由于多个相邻文本落在同一个Proposal中,互相干扰,容易造成漏检、误检、分割的Mask不准确等问题;其二是Anchor机制在不同的数据集下都需要进行对应的参数调整,特别是在文本尺度和长宽比剧烈的场景下,需要更精细、复杂的Anchor设置。针对这两个问题,作者提出MAYOR方法来缓解上述Mask R-CNN中的两个问题,在DAST1500, MSRA-TD500,ICDAR2015,CTW1500和Total-Text数据集上都取得SOTA的性能。 

图1  在密集倾斜场景下,Mask R-CNN与MAYOR的检测结果对比。

二、MAYOR方法简述



图2  MAYOR方法的结构

图2(a)是MAYOR方法 的结构,与Mask R-CNN基本一致,使用ResNet50-FPN的主干,不同点在于Mask分支的解码部分,把图2(b)的反卷积和卷积头,改成了图2(c)的MLP结构。下面主要阐述作者提出的3点改进。

1. MLP Mask Decoder(MMD):原始的卷积特点是权值共享和局部连接,但是在密集文本场景下,可能表现并不好。因为卷积在Mask分支的解码中,权值共享和局部连接在相邻文本实例中学习到的特征类似,落入同一Proposal中不同文本实例可能都会判别为文本类,分割出多个文本区域,容易混淆出错,即没有分割出Proposal实际所对应的实例目标,参考图3。而作者使用权值不共享的局部连接Locally Connected,和全连接Fully Connected分别实验,发现全连接的结构确实可以更好的利用全局信息学习分类的判别特征。 

图3  Mask head的分类困惑。虚线框代表Proposal,与其相同颜色的倾斜矩形框是Mask文本实例GT。左图中fA1文本特征对于Text A实例是正样本,而相近的fA2文本特征却是负样本(类似地,在右图中对于Text B实例则相反),若用共享参数进行卷积fA1,fA2会得到类似的特征输出,不利于判别。

2. Instance-Aware Mask Learning(IAML):如图4,为了一进步缓解相邻文本的干扰,提出实例感知的Mask学习策略,在Mask Head中学习Proposal对应实例的全局表示,对于同一个GT不同的Proposal都预测出完整的对应实例,而不是局限于Proposal中被裁截的部分实例。 

图4  Pixel-Aligned和Instance-Aware的Mask Learning示意图。红色框是Proposal区域,绿色框是对应GT,分割的目标是完整的GT Mask,而不是原来红框内的Mask。

3. Adaptive Label Assignment (ALA) In RPN: 通常在RPN中,正负样本的划分是根据Proposal和GT的IoU大小,一般阈值大于0.7被认为是正样本,小于0.3是负样本。在比较复杂的数据集场景下,文本实例尺度和纵横比变化剧烈。如果没有较好的Anchor设定,正样本可能会过少,导致模型性能下降。作者把上述正负样本IoU阈值都设置为0,然后对每个GT计算与其Loss最小的Top k(超参,k=5)个候选框作为正样本,其余作为负样本。

三、主要实验结果及可视化效果



表1是MAYOR在任意形状密集场景文本DAST1500[2]数据集上的实验,包含1038张训练图片和500测试,结合表2,可以看到基于MLP的解码器(MMD)可以带来巨幅提升。表3是MAYOR在ICDAR2015[3]、CTW1500[4]、Total-Text[5]上的实验结果,表现出优异性能。表4是在MSRA-TD500[6]的实验结果。表5和图5是IAML策略在RotDAST(DAST1500加入旋转生成)数据集上的实验。图6是MAYOR的一些可视化结果。

表1  DAST1500数据集实验
表2  Mask Head不同解码器在DAST1500的效果
表3 ICDAR2015、CTW1500、Total-Text的单尺度检测实验结果。Ext一列表示使用的额外训练数据,ST表示SynthText,MLT表示ICDAR2017-MLT.
表4 MSRA-TD500数据集实验 
表5 IAML策略在RotDAST数据集上的实验

 

图5  IAML策略在RotDAST数据集上的实验,对于多种旋转角度的文本更鲁棒。 

图6 上面两行是MAYOR的可视化结果,下面两行是使用了IAML策略的可视化结果。

四、总结及讨论



MAYOR主要针对Mask R-CNN框架在密集文本检测上做了多个改进,其中简洁有效的MLP结构解码器可以更好地学习相邻文本之间局部和全局的判别特征。另外提出的 Instance-Aware Mask Learning (IAML)策略也从全局的角度感知密集文本的不同实例。在面对尺度纵横比变化剧烈的文本场景中,使用Adaptive Label Assignment(ALA)策略改进RPN正负样本选择,减轻对Anchor手工设定的依赖。最主要的提升实际来源于MLP,本文再一次印证MLP的强大,有一定的启发和借鉴意义。

五、相关资源



论文地址:https://dl.acm.org/doi/pdf/10.1145/3474085.3475178

参考文献



[1] He, K., Gkioxari, G., Doll´ar, P., Girshick, R.B.: Mask R-CNN. In: ICCV, pp. 2980–2988 (2017)
[2] Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, and Xiang Bai. 2019. SegLink++: Detecting dense and arbitrary-shaped scene text by instance aware component grouping. PR (2019), 106954.
[3] Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, et al. 2015. ICDAR 2015 competition on robust reading. In ICDAR. 1156–1160.
[4] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, and Sheng Zhang. 2019. Curved scene text detection via transverse and longitudinal sequence connection. PR (2019), 337–345.
[5] Chee Kheng Ch’ng and Chee Seng Chan. 2017. Total-text: A comprehensive dataset for scene text detection and recognition. In ICDAR. 935–942.
[6] Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, and Zhuowen Tu. 2012. Detecting texts of arbitrary orientations in natural images. In CVPR. 1083–1090.

原文作者: Xugong Qin, Yu Zhou*, Youhui Guo, Dayan Wu, Zhihong Tian, Ning Jiang, Hongbin Wang, Weiping Wang


撰稿:伍思航

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存