查看原文
其他

​论文推荐|[ACM MM 2020]TextRay: 基于轮廓几何建模的任意形状场景文本检测(有源码)

伍思航 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍2020年被ACM MM 录用的Oral论文“TextRay:Contour-based Geometric Modeling for Arbitrary-shaped Scene Text Detection”的主要工作。场景文本往往因为多变的尺度、角度、形状而具有复杂的轮廓。本文利用切比雪夫多项式线性混合模型,拟合在极坐标下参数化的文本几何轮廓函数曲线,构建单阶段Anchor-free的框架,实现任意形状场景文本检测。

图1 常规的直角坐标轮廓表示方法与本文极坐标轮廓表示方法 

一、研究背景


现有的任意场景文本检测方法大都基于直角坐标系建模,文本实例的轮廓点是固定数量或者自适应个数。这些点之间有时候并不是均匀分布,而且彼此联系孤立,缺乏文本整体轮廓的全局信息约束。这是不利于神经网络的对其进行统一的参数化学习。受ESE-Seg [1]Polar Mask[2]的启发,作者另辟蹊径在极坐标系下对文本的轮廓几何形状进行统一建模和参数化学习。

二、原理简述


2 任意形状的文本轮廓建模

取文本中心线中点为极坐标的极点,从-π到π范围的角度,在极点均匀射出N(N=360)条射线,其与文本轮廓的交点,即为外轮廓的采样点,如图2a蓝色点所示(因此叫TextRay)。每个采样点在极坐标下可以用方位角和极半径表示,其函数关系图像如图2b所示。作者采用第一类切比雪夫多项式的K阶线性混合模型来拟合该函数曲线,公式如下。系数向量c可表示文本的形状向量,即极半径r。

在拟合优化时,计算其与真实值归一化后(s=max_ri)的偏差损失。

至此数学上采用切比雪夫多项式模型参数化拟合的曲线函数,归一化后如图2c所示(红色),其重建的几何轮廓如图2d所示(红色),可以看到效果还是非常不错的。从图2c的参数化空间到图2d的几何空间转换,可以采用极坐标到直角坐标的转换,见下公式,以此建立双向联系便于优化,重建点统一用[c,s,x,y]表示,其中(x,y)是直角坐标下的文本中心点。

另外作者还提出Content Loss来计算极坐标下重建的几何轮廓的偏差。

图3 参数化空间与几何轮廓的关系。绿色代表GT真实值,橙色是重建预测值,此处只列出12个方位角计算极坐标下Content Loss便于阐述。 TextRay基于FCOS [3]的单阶段无锚点框架,加入DULR [4]模块增加感受野召回长文本,作者对文本进行二分类以及使用SmoothL1回归重建点[c,s,x,y],构建的TextRay结构如下。

图4 TextRay框架

三、主要实验结果及可视化效果


TextRay分别使用K=44K=33阶切比雪夫多项式模型在ICDAR-ArT预训练,相应在SCUT-CTW1500K=44)、TotalTextK=33)上实验结果如下。

图5 TextRay在SCUT-CTW1500及TotalText实验结果

作者还在3个数据集上测试不同阶数的切比雪夫多项式模型的效果,随着阶数增加,拟合性能到达瓶颈,K=33、34是比较好的选择。不同阶数的拟合效果如图所示。

图6 TextRay使用不同阶数的切比雪夫多项式模型实验结果

图7 不同阶数切比雪夫模型拟合效果(红色)TextRay最终的检测结果为均匀采样36个重建点构成的轮廓,可视化效果如图8所示。

图8 TextRay检测效果可视化对于极端非凸情况的文本实例,本文提出的切比雪夫模型无法拟合外轮廓曲线而导致检测失败,如图9所示。

图9 左列上下两图像中绿色标注是GT,红色是重建失败的文本外轮廓,右列是TextRay检测结果。

四、总结及讨论


本文新颖地利用切比雪夫多项式模型在极坐标下拟合文本几何轮廓曲线函数,提出任意方向文本检测的算法TextRay。该方法在SCUT-1500TotalTextICDAR-ArT数据集上性能优越,且是单阶段Anchor-free的框架。不足之处是该切比雪夫多项式模型重建的轮廓边缘大致呈椭圆状,边角处的文本的信息容易丢失,且无法处理特别弯曲的文本。 

五、相关资源


  • TextRay论文地址:https://arxiv.org/pdf/2008.04851.pdf
  • TextRay开源代码:https://github.com/LianaWang/TextRay 

参考文献


[1] Wenqiang Xu, Haiyang Wang, Fubo Qi, and Cewu Lu.2019. Explicit Shape Encoding for Real-Time Instance Segmentation. In IEEE International Conference on Computer Vision, ICCV. IEEE Computer Society,5167–5176.[2] Enze Xie, Peize Sun, Xiaoge Song,Wenhai Wang,Xuebo Liu, Ding Liang, Chunhua Shen, and Ping Luo. 2019. PolarMask: Single Shot Instance Segmentation with Polar Representation. CoRR abs/1909.13226 (2019).[3] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He.2019. FCOS: Fully Convolu- tional One-Stage Object Detection. In IEEE International Conference on Computer Vision, ICCV. IEEE Computer Society,9626–9635.[4] Xingang Pan, Jianping Shi, Ping Luo, Xiaogang Wang, and Xiaoou Tang. 2018. Spatial as Deep: Spatial CNN for Traffic Scene Understanding. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, Sheila A. McIlraith and Kilian Q. Weinberger (Eds.). AAAI Press,7276–7283.[5] https://en.wikipedia.org/wiki/Chebyshev


 

原文作者:Fangfang Wang,  Yifeng Chen,  Fei Wu,  Xi Li
撰稿:唐国志编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:D





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存