查看原文
其他

论文推荐|[AAAI 2020]文本感知器:面向端到端任意形状的文本识别

本文简要介绍AAAI 2020论文“Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting”的主要工作。该论文主要针对自然场景图片不规则文字识别问题,提出了一种检测和识别完全端到端可训练的场景OCR算法Text Perceptron。具体地,该方法首先利用一个高效的基于分割的文本检测子来获取文本的潜在阅读顺序和边界信息,然后利用一个可微分的“形状变换模块(STM)”将不规则文本区域特征矫正为规则文本特征,进而送入后续的基于“四方向注意力”机制的序列识别子网络,最终实现一个完全端到端可训练,全局最优的文字识别框架。

 
一、研究背景

以往的不规则文字检测结果不能很好的满足后续识别方法的识别要求,原因有两方面:a)识别任意形状的场景文字仍然是一个巨大的挑战,以往基于额外的矫正网络将不规则文本矫正到标准视角再识别,事实上,没有显著几何监督信息优化的矫正网络只能矫正微弱形变的文本;b)以前基于检测和识别的梯度不可回传的两阶段文本识别方法只能达到一个次最优的文本识别性能,如图1(a)所示。


图1 传统方法与本文方法对比,(a)传统的基于检测、矫正、识别流程化的、梯度不可回传的识别框架效果; (b)本文提出的检测、矫正、识别完全端到端可训练的文本识别框架效果。

二、方法原理简述

图2  网络整体框架图,其中黑色实线和红色虚线箭头分别代表前向和反向传播。
 

图2是这篇文章提出的Text Perceptron的整体结构。首先,输入一张场景不规则文本图像,经过由ResNet-50[1]及FPN[2]网络组成的主干网络提取文本特征;训练时在FPN的Stages {2,3,4}的输出特征图上分别预测各文本实例的上下边界分割图,头部及尾部分割图,文本中心分割图,头部及尾部像素的各2角点坐标偏移量回归图,各文本中心像素到其上下边界的坐标偏移量回归图,并用Dices Coefficient Loss[3] 计算各预测的分割图与目标标签之间的损失值,

同时利用“Smooth L1 Loss[4]”计算各预测回归偏移量与目标回归值之间的损失,

进而优化不规则文本检测子网络,测试时,只在Stage 2阶段预测各分割图及回归相应偏移量。

其次,利用头部像素分割图及头部2角点回归图计算头部P1、P2N两顶点的坐标,

同样可以计算尾部两顶点PN、PN+1的坐标(如图3所示),进一步通过二分法计算其他上下边界中基准点的坐标值。比如:通过P1和PN点横坐标计算点横坐标

在粉红色文本中心区域的坐标附近采样范围的宽带区域(图3左子图中间深红色区域),利用宽带区域内的分割像素纵坐标及其上边界纵坐标偏移量计算点纵坐标,

然后,如图3右子图所示,迭代地在两点之间运用二分法及带宽像素采样法计算其他基准点的坐标,直到计算出目标基准点个数。同样方法可以获得文本下边界上的对等基准点坐标。


图3  TPS变换前的文本上下边界基准点生成过程

最后,通过生成的基准点坐标及TPS逆变换将不规则形状的曲线文本矫正为水平拉直的规则文本(如图1(b)所示),

并送入后续的基于“四方向注意力机制”的AON[5]序列识别子网络预测最终的文本序列。该算法中基于TPS算法的STM模块是完全可微的,因而能够很好地桥接不规则文本检测子网络与识别子网络进行完全端到端的训练。

 
三、实例分割及坐标偏移量回归标签图生成

图4 实例分割及坐标偏移量回归标签图生成

如图4(b)所示,1)针对粉红色文本中心区域分割标签图生成,采用对图4(a)的黑色多边形向内缩放、像素填充策略获得,缩放尺度为该多边形最小边的0.2倍;2)针对绿色头部及黄色尾部分割图,采用0.3倍最小边界尺度的向内压缩、像素填充法获得分割图;3)针对蓝色上下边界区域分割图,采用0.2倍最小边界尺度的向外扩张及向内压缩,并填充像素值获得;4)针对图4(c)绿色头部中每一个像素,只计算它到子图(a)中1,4两顶点的水平及垂直偏移量回归值。同时,针对黄色尾部中各像素,只计算它到子图(a)中2,3顶点的水平及垂直偏移量回归值。这样做的好处是,可以避免像EAST[6]算法中出现的“长距离大偏移量回归”较难学习及预测的困境。比如,绿色头部某个像素点到黄色尾部2,3顶点的水平及垂直偏移量回归就是大偏移量回归问题;5)同样子图(d)中针对粉红色中心区域各像素,计算其到上下蓝色边界的垂直偏移量,而水平偏移量因属于大偏移量回归,要么不回归或者降低其Loss权重。

 
四、实验细节

整体的损失函数:

E表示训练的Eopch数目,=0.6=0.8分别控制回归损失和序列识别损失的最大权重。很明显,上述公式说明,开始时,基准点坐标主要由回归损失动态调节,随着训练的进行,后续阶段基准点坐标主要由识别损失动态调节。

测试时的输出分辨率是在原图分辨率的特征图上预测。训练过程中用了数据提升技巧,VGG组的80万合成文本及OHEM训练策略。


五、主要实验结果及可视化结果






表4说明了针对不同的数据集,需要的基准点的数目是不一样的,针对IC15这种四边形的文本,只需要4个基准点,Total-Text需要的基准点数目越多越好,而CTW1500则需要的基准点数目与其标签保持一致。

 


图5说明了随着生成的基准点的数目的增加,STM模块的矫正能力更好,识别性能也更好。




图8说明:1)该完全端到端的方法对于那些重叠的文本,仍然无法克服基于实例分割方法的缺陷;2)针对那种不同方向排列,但是出现欠分割的文本,仍然效果不佳。

 
六、总结及讨

本文提出了一种基于实例分割的、高效的、带有顺序意识的场景文本检测子,该方法能够识别任意形状的场景文本,且能捕获潜在的文本阅读顺序信息。同时,为了解决以往检测和识别两阶段文本识别方法中出现的非完全端到端可训练的次最优问题,利用“可微分的形状变换模块”实现了一个完全端到端可训练的,全局最优的场景文本识别方法。

 
七、相关资源
  • Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting,论文地址: https://pan.baidu.com/s/1LfwiZts4VOZCV9geoLo25A 提取码: 7ukf
  • STN博客:https://blog.csdn.net/qq_14845119/article/details/79510714
  • TPS博客:https://blog.csdn.net/VictoriaW/article/details/70161180
  • TPS工程代码:https://github.com/WarBean/tps_stn_pytorch
 
参考文献

[1]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[2]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C] //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

[3]Milletari F, Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C] //2016 Fourth International Conference on 3D Vision (3DV). IEEE, 2016: 565-571.

[4]Ren S, He K, Girshick R, et al. Faster r-cnn:Towards real-time object detection with region proposal networks[C] //Advances in neural information processing systems. 2015: 91-99.

[5]Cheng Z, Xu Y, Bai F, etal. Aon: Towards arbitrarily-oriented text recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5571-5579.

[6]Zhou X, Yao C, Wen H, et al. EAST: an efficient and accurate scene text detector[C] //Proceedings of the IEEE conference on Computer Visionand Pattern Recognition. 2017: 5551-5560.

 

原文作者:LiangQiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu Shiliang Pu, Fei Wu


撰稿:张 胜

编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 




往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存