论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
一、研究背景
二、方法原理简述
图1 网络整体框架
图1 是文章提出的网络的整体框架,它以类似特征金字塔结构的ResNet-50为骨干网络,包含一个边界提议模块和多个自适应边界变形模块。
边界提议模块由多层扩张卷积组成,包括两个不同大小的3 × 3空洞卷积和一个1×1卷积层,它将利用从主干网络中提取的共享特征生成分类图、距离场图和方向场图。
分类图包含每个像素(文本/非文本)的分类置信度。
方向场图由一个两维的单位向量组成,它表示边界上每个文本像素到边界上最近像素(像素到边界)的方向。对于文本实例T中的每个像素p,模型将在文本边界上找到其最近的像素
图2 边界建议模型的标注, (e)和(f)中的单位矢量是(c)中方向场的矢量表示
距离场图(D)为归一化距离图,文本像素p到文本边界上最近像素Bp的归一化距离,用公式表示为
对于非文本区域(p6∈T),用0表示这些像素的距离。L表示像素p所在文本实例T的尺度,定义为
图3 生成候选边界的示例
对于每个候选边界,统一抽样N个控制点,以方便批量处理。如图1所示,采样的控制点形成一个封闭的多边形,其中拓扑上下文和序列上下文同时存在。然后将这些控制点送入自适应边界变形模型。自适应边界变形模型主要由GCN和RNN组成。设
三、主要实验结果及可视化效果
图4 可视化结果。蓝色线是文本候选边界,绿色线是最后检测的结果
表1 自适应边界变形模型在Total-Text和CTW-1500上的消融试验
图5 控制点个数的影响
表2 CTW-1500数据集上不同迭代数对结果的影响
图6 迭代数的影响。蓝色线是文本候选边界,绿色线是最后检测的结果
表3 Total-Text数据集上分类图、距离场图和方向场图对结果的影响
表4 Total-Text数据集上不同分辨率对实验的影响
表5 Total-Text数据集上的结果
表6 CTW-1500数据集上的结果
表7 MSRA-TD500数据集上的结果
四、总结及讨论
五、相关资源
论文地址:
https://arxiv.org/pdf/2107.12664.pdf
参考文献
[1] David Acuna, Huan Ling, Amlan Kar, and Sanja Fidler. Efficient interactive annotation of segmentation datasets with polygon-rnn++. In CVPR, pages 859–868, 2018.
[2] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee. Character region awareness for text detection. In CVPR, pages 9365–9374, 2019.
[3] Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, and Weidong Qiu. Fused text segmentation networks for multi-oriented scene text detection. In ICPR, pages 3604–3609, 2018.
[4] Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai. PixelLink: Detecting scene text via instance segmentation. In AAAI, pages 6773–6780, 2018.
[5] Wei Feng, Wenhao He, Fei Yin, Xu-Yao Zhang, and ChengLin Liu. Textdragon: An end-to-end framework for arbitrary shaped text spotting. In ICCV, pages 9075–9084, 2019.
原文作者: ShiXue Zhang, Xiaobin Zhu, Chun Yang , Hongfa Wang , XuCheng Yin
撰稿:黄明鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架
论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)
年度报告 | 自然场景文本检测与识别的深度学习方法【中国图象图形学报综述专刊
论文推荐|[IJCAI 2021] MatchVIE: 一个基于命名实体匹配相关性的视觉信息抽取学习框架
论文推荐|[CVPR 2021] MOST:具有定位细化功能的多向场景文本检测器
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: