查看原文
其他

论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络

黄明鑫​ CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICCV 2021录用的论文“Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection”的主要工作。该论文提出了一种用于任意形状文本检测的新型自适应候选边界网络,该网络可以学习直接为任意形状文本生成准确的边界而无需任何后处理。该网络通过一种迭代的方式不断的纠正文本边界,最后得到精确的文本边界。

一、研究背景



场景文本检测已广泛应用于在线教育、产品搜索、视频场景解析等领域。得益于深度学习技术,文本检测方法在文本为规则形状的图像上取得了很大的进展。近年来,因为任意形状文本检测能很好地适应实际应用,所以受到越来越多的关注。基于分割的方法引发了一波任意形状文本检测的浪潮,这一类方法通过像素级预测结果来分割出每个文本实例,很好地适应了文本形状的变化。但是基于分割的方法会有两个问题。第一个问题是基于分割的方法往往无法很好地分离图像中紧密相邻的文本实例,另一个问题是,现有的基于分割的方法中最终检测到的文本轮廓往往含有大量的缺陷和噪声

二、方法原理简述



图1 网络整体框架

图1 是文章提出的网络的整体框架,它以类似特征金字塔结构的ResNet-50为骨干网络,包含一个边界提议模块和多个自适应边界变形模块。

边界提议模块由多层扩张卷积组成,包括两个不同大小的3 × 3空洞卷积和一个1×1卷积层,它将利用从主干网络中提取的共享特征生成分类图、距离场图和方向场图。

分类图包含每个像素(文本/非文本)的分类置信度。

方向场图由一个两维的单位向量组成,它表示边界上每个文本像素到边界上最近像素(像素到边界)的方向。对于文本实例T中的每个像素p,模型将在文本边界上找到其最近的像素,如图2所示。然后,可以将指向文本像素p到的二维单位向量表示为  表示和文本像素p之间的距离,表示图片中所有的文本实例。对于非文本区域,将它们的向量设为(0,0)。单位向量不仅直接对T内p的近似相对位置进行编码,突出相邻文本实例之间的边界,而且为边界变形提供方向指示信息。 

图2 边界建议模型的标注, (e)和(f)中的单位矢量是(c)中方向场的矢量表示

距离场图(D)为归一化距离图,文本像素p到文本边界上最近像素Bp的归一化距离,用公式表示为 

对于非文本区域(p6∈T),用0表示这些像素的距离。L表示像素p所在文本实例T的尺度,定义为 

 不仅直接编码T内部p的相对距离,进一步突出相邻文本实例之间的边界,而且为边界变形提供了相对距离信息。利用距离场图(D),可以通过对预测距离使用固定阈值(thd)来生成候选边界建议。如图3所示。然而,这些候选边界建议不可避免地会存在错误检测。因此,文章根据分类图计算每个候选边界的平均置信度,去除一些低置信度的候选轮廓,如图3的(c)和(d)所示。 

图3 生成候选边界的示例

对于每个候选边界,统一抽样N个控制点,以方便批量处理。如图1所示,采样的控制点形成一个封闭的多边形,其中拓扑上下文和序列上下文同时存在。然后将这些控制点送入自适应边界变形模型。自适应边界变形模型主要由GCN和RNN组成。设表示第i个控制点的位置,为所有控制点的集合。对于一个有N个控制点的候选边界,首先构造每个控制点的特征向量。控制点的输入特征F是由CNN主干网获得的32维的共享特征Fs和4维先验特征Fp的串联。因此,从F中对应的位置提取一个控制点的特征:在获得候选边界的特征矩阵X (Size: N × C)后,文章采用基于编解码器架构的自适应变形模型进行有效的特征学习和迭代边界变形进行特征学习。编码器可以用以下公式表示 

 表示拼接操作,RNN由一层隐藏状态的维度为128的B-LTSM组成;Conv1×1由128维的1×1卷积层组成。GCN由四个由ReLU激活的图卷积层组成,本文的图卷积层表示为 

为输入/输出特征的维数,N为控制点的个数。是尺寸为N × N的对称归一化拉普拉斯矩阵。是一个特定层的可训练权矩阵,是带有附加自连接的局部图的邻接矩阵。是单位矩阵,是对角矩阵,文章通过连接p中的每个控制点和它的四个邻点来形成A。自适应变形模型中的译码器由带有ReLU的三层1 × 1卷积组成,该卷积将学习预测控制点与目标点之间的偏移量,以便于获得更精确的文本边界。

三、主要实验结果及可视化效果



图4 可视化结果。蓝色线是文本候选边界,绿色线是最后检测的结果

表1 自适应边界变形模型在Total-Text和CTW-1500上的消融试验 

图5 控制点个数的影响

表2 CTW-1500数据集上不同迭代数对结果的影响

 

图6 迭代数的影响。蓝色线是文本候选边界,绿色线是最后检测的结果

表3 Total-Text数据集上分类图、距离场图和方向场图对结果的影响

表4 Total-Text数据集上不同分辨率对实验的影响

表5 Total-Text数据集上的结果 

表6 CTW-1500数据集上的结果 

表7 MSRA-TD500数据集上的结果 

四、总结及讨论



本文提出了一种用于任意形状文本检测的自适应候选边界网络,该网络采用边界提议模型生成粗糙的初始边界,然后采用GCN和RNN相结合的自适应边界变形模型进行迭代边界变形,获得更准确的文本实例形状。大量的实验表明,该方法能够准确地检测任意形状文本的边界。在未来的研究中,将在现有工作的基础上开发一种任意形状文本的实时方法。

五、相关资源



论文地址:
https://arxiv.org/pdf/2107.12664.pdf

参考文献



[1] David Acuna, Huan Ling, Amlan Kar, and Sanja Fidler. Efficient interactive annotation of segmentation datasets with polygon-rnn++. In CVPR, pages 859–868, 2018.

[2] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee. Character region awareness for text detection. In CVPR, pages 9365–9374, 2019.

[3] Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, and Weidong Qiu. Fused text segmentation networks for multi-oriented scene text detection. In ICPR, pages 3604–3609, 2018.

[4] Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai. PixelLink: Detecting scene text via instance segmentation. In AAAI, pages 6773–6780, 2018.

[5] Wei Feng, Wenhao He, Fei Yin, Xu-Yao Zhang, and ChengLin Liu. Textdragon: An end-to-end framework for arbitrary shaped text spotting. In ICCV, pages 9075–9084, 2019.



原文作者: ShiXue Zhang, Xiaobin Zhu, Chun Yang , Hongfa Wang , XuCheng Yin


撰稿:黄明鑫

编排:高   学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存