论文推荐|[ACM MM 2020]TextRay: 基于轮廓几何建模的任意形状场景文本检测(有源码)
本文简要介绍2020年被ACM MM 录用的Oral论文“TextRay:Contour-based Geometric Modeling for Arbitrary-shaped Scene Text Detection”的主要工作。场景文本往往因为多变的尺度、角度、形状而具有复杂的轮廓。本文利用切比雪夫多项式线性混合模型,拟合在极坐标下参数化的文本几何轮廓函数曲线,构建单阶段Anchor-free的框架,实现任意形状场景文本检测。
图1 常规的直角坐标轮廓表示方法与本文极坐标轮廓表示方法
一、研究背景
现有的任意场景文本检测方法大都基于直角坐标系建模,文本实例的轮廓点是固定数量或者自适应个数。这些点之间有时候并不是均匀分布,而且彼此联系孤立,缺乏文本整体轮廓的全局信息约束。这是不利于神经网络的对其进行统一的参数化学习。受ESE-Seg [1]和Polar Mask[2]的启发,作者另辟蹊径在极坐标系下对文本的轮廓几何形状进行统一建模和参数化学习。
二、原理简述
图2 任意形状的文本轮廓建模
取文本中心线中点为极坐标的极点,从-π到π范围的角度,在极点均匀射出N(N=360)条射线,其与文本轮廓的交点,即为外轮廓的采样点,如图2a蓝色点所示(因此叫TextRay)。每个采样点在极坐标下可以用方位角和极半径表示,其函数关系图像如图2b所示。作者采用第一类切比雪夫多项式的K阶线性混合模型来拟合该函数曲线,公式如下。系数向量c可表示文本的形状向量,即极半径r。
至此数学上采用切比雪夫多项式模型参数化拟合的曲线函数,归一化后如图2c所示(红色),其重建的几何轮廓如图2d所示(红色),可以看到效果还是非常不错的。从图2c的参数化空间到图2d的几何空间转换,可以采用极坐标到直角坐标的转换,见下公式,以此建立双向联系便于优化,重建点统一用[c,s,x,y]表示,其中(x,y)是直角坐标下的文本中心点。
另外作者还提出Content Loss来计算极坐标下重建的几何轮廓的偏差。
图4 TextRay框架
三、主要实验结果及可视化效果
TextRay分别使用K=44、K=33阶切比雪夫多项式模型在ICDAR-ArT预训练,相应在SCUT-CTW1500(K=44)、TotalText(K=33)上实验结果如下。
图5 TextRay在SCUT-CTW1500及TotalText实验结果
作者还在3个数据集上测试不同阶数的切比雪夫多项式模型的效果,随着阶数增加,拟合性能到达瓶颈,K=33、34是比较好的选择。不同阶数的拟合效果如图所示。四、总结及讨论
本文新颖地利用切比雪夫多项式模型在极坐标下拟合文本几何轮廓曲线函数,提出任意方向文本检测的算法TextRay。该方法在SCUT-1500、TotalText、ICDAR-ArT数据集上性能优越,且是单阶段Anchor-free的框架。不足之处是该切比雪夫多项式模型重建的轮廓边缘大致呈椭圆状,边角处的文本的信息容易丢失,且无法处理特别弯曲的文本。
五、相关资源
TextRay论文地址:https://arxiv.org/pdf/2008.04851.pdf TextRay开源代码:https://github.com/LianaWang/TextRay
参考文献
[1] Wenqiang Xu, Haiyang Wang, Fubo Qi, and Cewu Lu.2019. Explicit Shape Encoding for Real-Time Instance Segmentation. In IEEE International Conference on Computer Vision, ICCV. IEEE Computer Society,5167–5176.[2] Enze Xie, Peize Sun, Xiaoge Song,Wenhai Wang,Xuebo Liu, Ding Liang, Chunhua Shen, and Ping Luo. 2019. PolarMask: Single Shot Instance Segmentation with Polar Representation. CoRR abs/1909.13226 (2019).[3] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He.2019. FCOS: Fully Convolu- tional One-Stage Object Detection. In IEEE International Conference on Computer Vision, ICCV. IEEE Computer Society,9626–9635.[4] Xingang Pan, Jianping Shi, Ping Luo, Xiaogang Wang, and Xiaoou Tang. 2018. Spatial as Deep: Spatial CNN for Traffic Scene Understanding. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, Sheila A. McIlraith and Kilian Q. Weinberger (Eds.). AAAI Press,7276–7283.[5] https://en.wikipedia.org/wiki/Chebyshev
撰稿:唐国志编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们:D