论文推荐|[ACM Multimedia 2019]一种基于图像上下文信息和多任务学习的单阶段任意形状文字检测方法
本文简要介绍ACM Multimedia 2019录用论文 “A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning” 的主要工作。该论文主要解决自然场景中任意形状文字的检测问题,文中提出的Pixel-to-Quad文字实例分割方法,结合了高层检测信息和底层分割信息,即使较长文字语义分割响应断裂,也可以得到较为准确的实例分割结果。
图1 Pixel-to-Quad文字实例分割方法效果图;第一列为语义分割图,黄色框标记的为较长文字分割响应断裂的情况;第二列为Pixel-to-Quad实例分割的结果,相同颜色为同一个文字实例;第三列为红色框为最终检测结果,蓝色为真值,青色为EAST检测结果。
目前基于任意形态文字的检测方法主要有两种思路,一种基于Mask-RCNN思想的自顶向下的检测方法,例如LOMO[1]、PMTD[2]等;另外一种是基于语义分割的自底向上的检测方法,例如TextField[3]、TextMontain[4]等。基于语义分割的方法在拟合任意形状文字方面有着天然的优势,本文中介绍的SAST就属于基于语义分割的任意形状文字检测方法。
基于语义分割的场景文字检测方法一般会面临以下问题:1)距离较近的文字实例难以分割;2)过长的文字条的响应可能出现断裂;另外,为了保证检测的精度,目前基于语义分割的主流方法都在输入图像的原始尺度进行后处理,冗余计算较多,整体算法的耗时较长。
图2 基于语义分割的场景文字检测中存在的问题(上图为粘连问题,下图为断裂问题)
本文介绍的SAST使用多任务学习对文字中心线区域进行语分割的同时学习了文字实例的多种几何信息,进而实现文字的实例分割和多边形表达的重建。该方法的整体算法流程,如图3所示:
首先通过多任务学习方法学习文字实例的多种几何信息,包括文字条中心线响应图 (Text Center Line, TCL),中心线像素与四角点偏移量 (Text Vertex Offset, TVO),中心线像素与文字中心点偏移量 (Text Center Offset, TCO) 和中心线到文字上下边界偏移量 (Text Border Offset, TBO); 其次,使用Pixel-to-Quad方法对TCL进行实例分割,该方法结合了高层检测信息和底层分割信息,具体过程如图3虚线框中所示。 最后,在实例分割的基础上,针对每个文字实例结合TBO信息,即可恢复出任意形状文字的几何表达。
图3 SAST算法检测流程,虚线部分为Pixel-to-Quad实例分割示意图
2.1 文字实例的几何信息的定义
文字实例的几何信息的定义如图4所示:TCL为文字区域的中心区域,如(a)红色虚线所示,预测输出为文字区域语义分割图;TBO为TCL中每个像素点对应上下边界的偏移量,如(b)所示;TVO为TCL中每个像素点与外包围盒四个顶点之间偏移量(与EAST[5]中的定义相同),如图(c)所示;TCO为TCL中每个像素点与外包围盒几何中心之间偏移量,如图(d)所示。
图4 文字实例集合几何信息的定义,依次为TCL, TBO, TVO和TCO
2.2 Pixel-to-Quad实例分割方法
Pixel-to-Quad是为了实现文字实例分割而提出的方法。Pixel是指TCL中文字区域的响应,Quad是根据TVO恢复出的文字实例的粗略位置。该方法将Quad的几何中心作为Pixel 的聚类中心,根据Pixel对应的TCO信息实现文字实例的分割,如图3中虚线部分所示。
该方法结合了高层的检测信息(EAST的检测结果)和底层分割信息(语义分割结果),较传统的连通域分析更为鲁棒,即使长文字条语义分割发生断裂也可以实现准确的聚类。另外,对于EAST存在的长文字条检测不准确问题,Pixel-to-Quad只使用了EAST检测结果的中心点,对边缘的准确性并没有依赖,因此对长文字条的检测也更为准确。
2.3 文字多边形表达的重建
SAST采用的多边形表达的恢复方法简单高效,如图5所示。首先,针对每个文字实例进行等间隔采样,并根据TBO信息得到采样点对应的上下边界点,最后将所有点按照固定的顺序连接起来即可。SAST所采用的多边形表达方式对与后续的识别较为友好,直接根据多对点进行TPS变化即可作为识别系统的输入。
图5 任意形态文字多边形恢复算法
2.4 内容增强模块
考虑到长文字的序列属性,SAST对Backbone网络提取的特征进行了内容增强,并提出了一种内容自注意模块(Context Attention Block, CAB),如图6所示,通过堆叠2个内容自注意模块即可实现对整图内容的增强,更多细节请参考原始论文。
该论文中对提出的SAST各个模块进行了详细的消融实验,并在多个公开数据集上进行了效果验证,包括SCUT-CTW1500,Total-Text,ICDAR15 和 MLT数据集,在准确度上取得了SOTA或者可比的结果。同时,在速度方面,由于SAST在输入图像的四分之一尺度上进行多任务学习,因此后处理的计算量远小于主流的基于分割的方法,速度更快,可以满足一些实时的检测场景。
表2 SAST在Total-Text数据集上的实验结果
表3 SAST在ICDAR15上的实验结果
图7 在(a)~(d)依次为Total-Text,SCUT-CTW1500,ICDAR15 和 MLT数据集上检测结果的可视化;红色为检测结果,蓝色为真值,青色为EAST检测结果。
本文提出了一种单阶段的基于分割的任意形状文字的检测方法,该方法采用多任务学习的方法同时预测了文字区域的多种几何信息,并提出了堆叠的CAB模块进行特征增强和Pixel-to-Quad进行文字实例分割。Pixel-to-Quad结合了高层检测信息和底层分割信息,可以缓解基于分割的文字方法存在的长文字条断裂以及邻近文字难以区分等问题。同时,由于简单的多边形重建方法和较小的像素空间,使得该方法计算效率较高,可以满足一些实时的应用场景,例如辅助驾驶系统中的交通标牌识别、端上设备证件扫描、AR翻译等。
原文作者:Pengfei Wang,Chengquan Zhang,Fei Qi,Zuming Huang,Mengyi En,Junyu Han,
Jingtuo Liu,Errui Ding,Guangming Shi
编排:高 学
审校:连宙辉
发布:金连文
(扫描识别如上二维码加关注)