论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测

Original 伍思航 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ACM'MM 2021发表的论文“Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-Shaped Scene Text Detection”的主要工作。该论文针对密集文本行检测进行了多个改进，包括（1）MLP结构解码器可以更好地学习相邻文本之间局部和全局判别特征。（2）Instance-Aware Mask Learning （IAML）策略从全局角度感知密集文本的不同实例。（3）面向尺度纵横比变化剧烈场景，使用Adaptive Label Assignment（ALA）策略改进RPN正负样本选择，减轻对Anchor手工设定的依赖。论文最主要提升来源于MLP。

一、研究背景

时至今日，Mask R-CNN仍然在目标检测、分割等多种任务场景中表现出优异的性能，作为一种较强的Baseline模型。在文字检测领域中，许多方法也是受其启发，在其基础上构建出更强大的模型。然而在实际应用中，Mask R-CNN潜藏着两个问题还未被很好解决：其一是在密集文本行检测，特别是倾斜文本，由于多个相邻文本落在同一个Proposal中，互相干扰，容易造成漏检、误检、分割的Mask不准确等问题；其二是Anchor机制在不同的数据集下都需要进行对应的参数调整，特别是在文本尺度和长宽比剧烈的场景下，需要更精细、复杂的Anchor设置。针对这两个问题，作者提出MAYOR方法来缓解上述Mask R-CNN中的两个问题，在DAST1500， MSRA-TD500，ICDAR2015，CTW1500和Total-Text数据集上都取得SOTA的性能。

图1 在密集倾斜场景下，Mask R-CNN与MAYOR的检测结果对比。

二、MAYOR方法简述

图2 MAYOR方法的结构

图2（a）是MAYOR方法的结构，与Mask R-CNN基本一致，使用ResNet50-FPN的主干，不同点在于Mask分支的解码部分，把图2（b）的反卷积和卷积头，改成了图2（c）的MLP结构。下面主要阐述作者提出的3点改进。

1. MLP Mask Decoder（MMD）：原始的卷积特点是权值共享和局部连接，但是在密集文本场景下，可能表现并不好。因为卷积在Mask分支的解码中，权值共享和局部连接在相邻文本实例中学习到的特征类似，落入同一Proposal中不同文本实例可能都会判别为文本类，分割出多个文本区域，容易混淆出错，即没有分割出Proposal实际所对应的实例目标，参考图3。而作者使用权值不共享的局部连接Locally Connected，和全连接Fully Connected分别实验，发现全连接的结构确实可以更好的利用全局信息学习分类的判别特征。

图3 Mask head的分类困惑。虚线框代表Proposal，与其相同颜色的倾斜矩形框是Mask文本实例GT。左图中fA1文本特征对于Text A实例是正样本，而相近的fA2文本特征却是负样本（类似地，在右图中对于Text B实例则相反），若用共享参数进行卷积fA1，fA2会得到类似的特征输出，不利于判别。

2. Instance-Aware Mask Learning（IAML）：如图4，为了一进步缓解相邻文本的干扰，提出实例感知的Mask学习策略，在Mask Head中学习Proposal对应实例的全局表示，对于同一个GT不同的Proposal都预测出完整的对应实例，而不是局限于Proposal中被裁截的部分实例。

图4 Pixel-Aligned和Instance-Aware的Mask Learning示意图。红色框是Proposal区域，绿色框是对应GT，分割的目标是完整的GT Mask，而不是原来红框内的Mask。

3. Adaptive Label Assignment (ALA) In RPN: 通常在RPN中，正负样本的划分是根据Proposal和GT的IoU大小，一般阈值大于0.7被认为是正样本，小于0.3是负样本。在比较复杂的数据集场景下，文本实例尺度和纵横比变化剧烈。如果没有较好的Anchor设定，正样本可能会过少，导致模型性能下降。作者把上述正负样本IoU阈值都设置为0，然后对每个GT计算与其Loss最小的Top k（超参，k=5）个候选框作为正样本，其余作为负样本。

三、主要实验结果及可视化效果

表1是MAYOR在任意形状密集场景文本DAST1500[2]数据集上的实验，包含1038张训练图片和500测试，结合表2，可以看到基于MLP的解码器（MMD）可以带来巨幅提升。表3是MAYOR在ICDAR2015[3]、CTW1500[4]、Total-Text[5]上的实验结果,表现出优异性能。表4是在MSRA-TD500[6]的实验结果。表5和图5是IAML策略在RotDAST（DAST1500加入旋转生成）数据集上的实验。图6是MAYOR的一些可视化结果。

表1 DAST1500数据集实验

表2 Mask Head不同解码器在DAST1500的效果

表3 ICDAR2015、CTW1500、Total-Text的单尺度检测实验结果。Ext一列表示使用的额外训练数据，ST表示SynthText，MLT表示ICDAR2017-MLT.

表4 MSRA-TD500数据集实验

表5 IAML策略在RotDAST数据集上的实验

图5 IAML策略在RotDAST数据集上的实验，对于多种旋转角度的文本更鲁棒。

图6 上面两行是MAYOR的可视化结果，下面两行是使用了IAML策略的可视化结果。

四、总结及讨论

MAYOR主要针对Mask R-CNN框架在密集文本检测上做了多个改进，其中简洁有效的MLP结构解码器可以更好地学习相邻文本之间局部和全局的判别特征。另外提出的 Instance-Aware Mask Learning （IAML）策略也从全局的角度感知密集文本的不同实例。在面对尺度纵横比变化剧烈的文本场景中，使用Adaptive Label Assignment（ALA）策略改进RPN正负样本选择，减轻对Anchor手工设定的依赖。最主要的提升实际来源于MLP，本文再一次印证MLP的强大，有一定的启发和借鉴意义。

五、相关资源

论文地址：https://dl.acm.org/doi/pdf/10.1145/3474085.3475178

参考文献

[1] He, K., Gkioxari, G., Doll´ar, P., Girshick, R.B.: Mask R-CNN. In: ICCV, pp. 2980–2988 (2017)

[2] Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, and Xiang Bai. 2019. SegLink++: Detecting dense and arbitrary-shaped scene text by instance aware component grouping. PR (2019), 106954.

[3] Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, et al. 2015. ICDAR 2015 competition on robust reading. In ICDAR. 1156–1160.

[4] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, and Sheng Zhang. 2019. Curved scene text detection via transverse and longitudinal sequence connection. PR (2019), 337–345.

[5] Chee Kheng Ch’ng and Chee Seng Chan. 2017. Total-text: A comprehensive dataset for scene text detection and recognition. In ICDAR. 935–942.

[6] Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, and Zhuowen Tu. 2012. Detecting texts of arbitrary orientations in natural images. In CVPR. 1083–1090.

原文作者: Xugong Qin, Yu Zhou*, Youhui Guo, Dayan Wu, Zhihong Tian, Ning Jiang, Hongbin Wang, Weiping Wang

撰稿：伍思航

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测

论文推荐|[ICCV 2021] 面向表格结构识别的表格图重构网络（有源码）

论文推荐|[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

论文推荐|[ICCV 2021] 面向未见单词识别：基于错误蒸馏的迭代式文本识别器

论文推荐|[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割

论文推荐|[ICCV 2021] Handwriting Transformer

论文推荐|[ACM MM2021]尝试理解交通标志

论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法

论文推荐|[ICCV2021]端到端的文本图像分块矫正方法

论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

生成图片，分享到微信朋友圈

论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测

您可能也对以下帖子感兴趣