论文推荐| [PR 2021] TextMountain:基于实例分割的精准场景文本检测
一、研究背景
二、方法原理简述
TextMountain通过一个全卷积网络(FCN)生成分割图用来预测Text Score(TS)、Text Center-border Probability(TCBP)和Text Center-direction(TCD)。首先,设置一个阈值用来从TCBP和TS中生成文本中心实例图和文本边界图。然后用在TS上的平均分数计算每个文本中心实例的分数,文本中心可以分隔在TS中不容易分隔的文本行。接下来,文本边界图上的每个像素都按上升方向或直接使用TCD方向通过TCBP搜索其峰值。每个像素都朝着文本中心移动,直到到达一个文本中心,然后就认为该像素属于该文本中心。
作者用TCBP梯度对文本行分类,可以用TCD或TCBP来计算。与之前[1,2]中直接按比例扩大输出矩形的方法相比,达到了更好的效果,解决了曲线文本检测问题。预测出的TCBP如图1所示,文本行边界(山脚)和中心(山峰)像素点的值分别为0和1,从中心到边界像素值逐步递减。TCBP的上升方向可以用来对像素点进行分类,按TCBP的分类方式比之前TCB Binary的分类方式要更加平滑。除此之外,文章指出引入TCD预测有助于TCBP的学习。
图1 Text Center-border Probability(TCBP)
图2是TextMountain的网络结构,由三部分组成:1) FPN[3]构成的主干网和一个特征融合网络, 2)TS、TCBP和TCD输出,3)后处理部分。
图2 TextMountain整体网络结构
总体的损失函数如公式(1)所示,由TS、TCBP和TCD损失组成,其中
之前的文本检测方法[1,2,4,5]把中心-边界问题定义成一个二分类问题,作者认为应该把中心-边界看作概率图,因为很难准确判断中心和边界,而且在TCBP中包含了更多的信息,概率增长的上升方向指向文本中心,这对像素分类很有用。下面介绍TCBP的计算方式。为了便于网络学习,作者提出了一种更简单的标注方式,只使用四条边的垂线来计算Label,如图3所示。
图3 四条边的垂线计算Label
按式(3)近似计算文本高度
点x的TCBP由式(4)计算,TCBPX是[0,1]内的连续函数
TCBP的损失函数由式(5)计算,其中TS x *是TS的GT,该方法只需要计算文本区域内的损失
尽管TCBP中有足够的信息来对像素进行分组,但是作者发现网络可以通过预测TCD来实现更好的性能。TCD上的每个像素都将指向其所属的中心,方向向量如公式(6)所示,其中[z]+代表取z和0之间的最大值。
作者认为每侧都有推力将点推到中心,推力方向是从一边到另一点的垂线。越靠近点的位置,推力越大。如果距离大于高度的一半,则推力为零。两条相邻文本行的交点边缘上的像素具有相似的TCBP值但完全不同的TCD值,因此可以帮助分离相邻文本行。
TCD的损失函数也可以用L1 Loss来计算,如公式(7)所示,其中γ是中心阈值。值得注意的是,LTCD仅在边界区域有效,因为TCD可能会增加中心区域的歧义,并且TCD仅由边界像素进行推断。
对于SCUT-CTW1500数据集中的弯曲文本,本文也给出了标签计算的细节。SCUT-CTW1500数据集用14个顶点标记每个文本,其中七个顶点形成一条曲线。如图4所示,弯曲文本行也有四个侧面,其中两个侧面是弯曲的,并且线条的方向是顺时针方向。
图4 弯曲文本行标注图
图5 弯曲文本行上边缘
实际上,曲线是平滑的并且线的角度逐渐变化,用有限点标注会导致突变。因此在计算标签之前,首先要平滑线的角度。以图5为例,一条边用7个点和6条线标注。
其他点的单位向量通过双线性插值计算,如公式(9)所示,其中
弯曲文本的TCBP按照公式(11)和(12)进行计算,
计算TCD之前,首先需要用公式(9)和(10)计算出
在得到TS、TCBP和TCD后,用大于中心阈值
三、主要实验结果及可视化效果
作者对TextMountain中用到的TS、TCBP和TCD进行了消融实验,结果如表1所示。可以看出加入本文提出的TCBP和TCD方法,模型性能均有所提高。
表1 TextMountain的消融实验结果
同时作者在四个公开的数据集(MLT、ICDAR2015、RCTW-17和SCUT-CTW1500)上与之前的方法进行对比实验,均达到了更好或相当的结果,实验结果分别如表2~表5所示。特别是在MLT数据集上,F-measure达到了76.85%,大幅领先其他方法。
表2 TextMountain与其他方法在MLT数据集上的性能比较
表3 TextMountain与其他方法在ICDAR2015数据集上的性能比较
表4 TextMountain与其他方法在RCTW-17数据集上的性能比较
表5 TextMountain与其他方法在SCUT-CTW1500数据集上的性能比较
TextMountain方法的一些可视化结果如图6所示,从左到右分别是来自MLT、ICDAR2015、RCTW-17和SCUT-CTW1500数据集的图片。
图6 TextMountain方法的可视化结果
图7 TCBP(上)和TCB binary(下)的可视化比较
四、总结及讨论
五、相关资源
论文地址:https://doi.org/10.1016/j.patcog.2020.107336
参考文献
[1] T. He, W. Huang, Y. Qiao, J. Yao, Accurate text localization in natural image with cascaded convolutional text network, (2016). arXiv:1603.09423
[2] Y. Wu, P. Natarajan, Self-organized text detection with minimal post-processing via border learning, in: Proc. ICCV, 2017.
[3] T.-Y. Lin, P. Dollár, R.B. Girshick, K. He, B. Hariharan, S.J. Belongie, Feature pyra- mid networks for object detection., in: CVPR, 1, 2017, p. 4.
[4] D. Deng, H. Liu, X. Li, D. Cai, PixelLink: detecting scene text via instance seg- mentation, in: Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[5] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, J. Liang, East: an efficient and accurate scene text detector, in: Proc. CVPR, 2017, pp. 2642–2651.
撰稿:任峪瑾
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: