本文简要介绍了TPAMI2021录用论文“PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text”。该论文展示了一种基于文本内核(即中心区域)的任意形状文本的表示方法,可以较好地区分相邻文本,且对实时的应用场景非常友好。在此基础上,作者建立了一个高效的端到端框架PAN++,可以有效地检测和识别自然场景中任意形状的文本,并且同时做到了高推理速度和高精度。论文代码地址:https://github.com/whai362/pan_pp.pytorch。
自然场景文本检测与识别是文本检索、自动化办公、可视化问答等众多应用的一项基本任务。近些年,场景文本检测与识别取得了瞩目的进展,但这些方法仍存在三个主要局限性,限制了其在实际应用中的部署。首先,大多数现有的工作将文本检测和识别作为独立的任务进行处理,很少有方法探讨这两项任务之间的互补性。第二,大多数现有的端到端文本检测与识别方法通常针对水平或定向文本设计,然而除了直线型文本外,不规则形状的文本在自然场景也极为常见。最后,现有方法的效率仍不能满足实际应用需求。最近的一些方法[1-2]致力于提高端到端任意形状文本检测与识别的精度,但是由于模型参数过多或算法流程复杂,导致其推理速度较低。因此,如何为任意形状的文本设计一个高效且精确的端到端检测与识别框架仍然是一个亟待解决的问题。
图2 PAN++总体架构
PAN++的整体架构如图2所示。为了提高推理速度,作者主要采用了轻量级的ResNet18[3]作为骨干网络。但是,轻量级网络具有感受野小和表征能力弱的缺点,针对这一问题,本文提出使用堆叠的特征金字塔增强模块(FPEM)来增强提取到的特征。
图3 特征金字塔增强模块(FPEM)实现细节
如图3所示,FPEM是基于可分离卷积构建的U形模块,可以以较小的计算开销增强骨干网络提取的多尺度特征。另外,FPEM是可堆叠的,随着堆叠层数的增加,网络的感受野也将增大。
图4 检测头实现细节
对于文本检测任务,本文提出了一个仅包含两层卷积的轻量级检测头,如图4所示。该检测头同时预测生成文本区域、文本内核以及实例向量,再通过PA算法融合得到最终的检测结果。
图5 PA算法说明
PA的设计借用了聚类的思想,如图5所示。如果把不同的文本看作不同的簇,则文本内核就是簇的中心,文本区域内的像素就是待聚类的样本。
对于文本识别任务,作者提出了一个不规则文字特征提取器Masked RoI和一个基于注意力机制的轻量级识别头。Masked RoI是一个用于为任意形状的文本提取固定大小的特征块的RoI提取器,而轻量级识别头仅包含两层LSTM和两层多头注意力,如图6所示。
图6 识别头实现细节
对于检测部分,本文使用的损失函数为:
对于识别部分,本文使用的损失函数为:
得益于上述设计,PAN++在保持精度具有竞争力的同时,实现了较高的推理速度。PAN++与其它方法的性能对比如图7所示。
图7 PAN++与其它方法在Total-Text数据集上的性能对比表1 在Total-Text和CTW1500数据集上的文本检测结果
表2 在Total-Text数据集上的端到端文本识别结果
如表1和表2所示,在没有使用额外数据集预训练的情况下,PAN ++在Total-Text[4]和CTW1500[5]上取得了具有竞争力的结果。在使用SynthText[6]数据集预训练后,PAN++的精度进一步提高并取得了SOTA的效果。在短边为320像素的输入下,PAN++实现了超过84FPS的推理速度,超过了其它具有相似精度的方法。
表2展示了PAN++在Total-Text数据集上的端到端文本识别结果。这些结果表明,PAN++在文本识别任务中取得了SOTA的性能,并且在推理速度上显著优于现有方法。在本文中,作者提出了对任意形状文本友好的内核表示,并在此基础上开发了一个端到端的文本检测与识别框架PAN++,通过设计一系列轻量级模块,实现了高效且精确的任意形状文本检测与识别。与其它现有方法相比,PAN++在精度和推理速度上都具有显著优势。[1]Lyu, P., Liao, M., Yao, C., Wu, W., & Bai, X. (2018). Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 67-83).[2]Qin, S., Bissacco, A., Raptis, M., Fujii, Y., & Xiao, Y. (2019). Towards unconstrained end-to-end text spotting. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4704-4714).[3]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).[4]Ch'ng, C. K., & Chan, C. S. (2017, November). Total-text: A comprehensive dataset for scene text detection and recognition. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) (Vol. 1, pp. 935-942). IEEE.[5]Yuliang, L., Lianwen, J., Shuaitao, Z., & Sheng, Z. (2017). Detecting curve text in the wild: New dataset and new solution. arXiv preprint arXiv:1712.02170.[6]Gupta, A., Vedaldi, A., & Zisserman, A. (2016). Synthetic data for text localisation in natural images. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2315-2324).
原文作者:Wenhai Wang, Enze Xie, Xiang Li, Xuebo Liu, Ding Liang, Zhibo Yang, Tong Lu*, Chunhua Shen
撰稿:陈喆、王文海编排:高 学审校:连宙辉发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。