ICDAR 2019论文:自然场景文字定位技术详解
总第358篇
2019年 第36篇
自然场景图像中的文字识别应用广泛,其中文字定位是最重要的一步,但技术上极具挑战。本文提出了一个高效的场景文本检测框架,取得了明显的效果提升。
背景
图 1 自然场景文字图片
深度学习技术在物体识别和检测等计算机视觉任务方面已经取得了很大进展。许多最先进的基于卷积神经网络(CNN)的目标检测框架,如Faster RCNN、SSD 和FPN[1]等,已被用来解决文本检测问题并且性能远超传统方法。
深度卷积神经网络是一个多层级网络结构,浅层特征图具有高分辨率及小感受野,深层特征图具有低分辨率及大感受野。具有小感受野的浅层特征点对于小目标比较敏感,适合于小目标检测,但是浅层特征具有较少的语义信息,与深层特征相比具有较弱的辨别力,导致小文本定位的性能较差。另一方面,场景文字总是具有夸张的长宽比(例如一个很长的英文单词或者一条中文长句)以及旋转角度(例如基于美学考虑),通用物体检测框架如Faster RCNN和SSD是无法回归较大长宽比的矩形和旋转矩形。
为了处理不同尺度的文本,借鉴特征金字塔网络思路,将具有较强判别能力的深层特征与浅层特征相结合,实现在各个层面都具有丰富语义的特征金字塔。另外,当较深层中的小对象丢失时,特征金字塔网络仍可能无法检测到小对象,深层的上下文信息无法增强浅层特征。我们额外扩大了深层的特征图,以更准确地识别小文本。 我们不直接回归文本行,而是将文本行分解为较小的局部可检测的文字片段,并通过深度卷积网络进行学习,最后将所有文字片段连接起来生成最终的文本行。
现有方法
图 3 Textboxes框架
提出方法
图 5 扩大特征图
高层和低层特征融合策略如图6所示,高层特征图先进行上采样使之与低层特征图相同大小,然后与低层特征图进行叠加,叠加后的特征图再连接一个3*3卷积,获得固定维度的特征图,我们设定固定维度d=256。
图 7 小文字块和近邻连接
基于第(2)小节构建的特征金字塔特征图,将每层特征图上特征点用于检测小文字块和文字块连接关系。如图8,连接关系可以分为八种,上、下、左、右、左上、右上、左下、右下,同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个词中,换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一词中。
(a) 将所有具有连接关系的小文字块组合起来,得到若干小文字块组;
(b) 对于每组小文字块,找到一条直线能最好的拟合组内所有小文字块中心点;
(c) 将组内所有小文字块的中心点投影到该直线上,找出距离最远的两个中心点A和B;
图 9 小文字块连接示意图
实验及应用
表1 方法中不同模块有效性验证
“BaseLine”方法是SSD框架+预测文字片段及片段之间连接关系模块,“扩大高层特征图”是在BaseLine方法基础上对高层特征图进行扩大,“金字塔+扩大高层特征图”是在BaseLine方法基础上对高层特征图进行扩大 并且加入特征金字塔。从表1中不难发现,扩大高层特征图可以带来精度和召回的提升,尤其是召回有近3个点的提升(73.4->76.3),这很好理解,因为更大的特征图产生更多的特征点以及预测结果;在此基础上再加入金字塔机制,精度获得显著提升,说明金字塔结构极大增强低层特征判别能力。
表 2. ICDAR2013数据集与其他方法比较
表 3. ICDAR2015数据集与其他方法比较
从上表中可以看出,我们的方法在时间和精度上取得很好的权衡。在ICDAR2015数据集上,虽然性能不及PixelLink,但是FPS要远高于它;而相比TextBoxes++,虽然FPS略低于它,但是精度更高。图10给出一些文字定位结果示例。
(3)此外,本方法也落地应用于实际业务场景菜单识别中。菜单上文字通常较小、较密,菜名文字可长可短,以及由于拍摄角度导致文字方向倾斜等。如图11所示,方法能很好的解决以上问题(小文字、密集文字行、长文本、不同方向);并且在500张真实商家菜单图片上进行评测,相比SegLink方法,性能明显提升(近5个点提升)。
表 4 菜单测试结果
图 11 菜单文字定位结果示意图
结论
本文我们提出了一个高效的场景文本检测框架。针对文字特点,我们扩大高层特征图尺寸并构建了一个特征金字塔,以更适用于不同比例文本,同时通过检测文本片段和片段连接关系来处理长文本和定向文本。实验结果表明该框架快速且准确,在ICDAR2013和ICDAR2015数据集上获得了不错结果,同时应用到公司实际业务场景菜单识别上,获得明显性能提升。下一步,受实例分割的方法PixelLink [4]的启发,我们也考虑将文本片段进一步细化到像素级,同时融合检测和分割方法各自优缺点,构建联合检测和分割的文字定位框架。
参考文献
Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. “Feature Pyramid Networks for Object Detection.” arXiv preprint. arXiv: 1612.03144, 2017.
J. Long, E. Shelhamer, and T. Darrell. “Fully convolutional networks for semantic segmentation.” In CVPR, 2015.
M. Liao, B. Shi, and X. Bai. “Textboxes++: A single-shot oriented scene text detector.” IEEE Trans. on Image Processing, vol. 27, no. 8, 2018.
D. Deng, H. Liu, X. Li, and D. Cai. “Pixellink: Detecting scene text via instance segmentation.” In AAAI, pages 6773– 6780, 2018.
作者简介
刘曦,美团视觉图像中心文字识别组算法专家。
---------- END ----------
招聘信息
欢迎计算机视觉相关及相关领域小伙伴加入我们,简历可发邮件至 tech@meituan.com(邮件标题注明:美团视觉图像中心文字识别组)。