论文推荐| [ICCV2019] 任意形状文本检测的像素聚合网络
本文简要介绍了2019年7月被ICCV录用的论文“Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network”的主要工作。该论文主要解决了自然场景文本检测中的两个问题:一是如何权衡在自然场景任意形状文本检测的速度与精度,二是不规则文本的精准检测。
Fig.1是像素聚合网络PAN的流程图。PAN的主要流程可以分为简单的两步,首先通过一个分割网络预测得到文本区域,文本核以及每个像素的相似向量;然后通过预测的核重建文本实例。其中,文本区域是为了描述文本的完整形状,文本核参数为了区分不同的文本,预测每个像素的相似向量也是为了保证同一文本像素的相似向量和文本核距离够小。
Fig.2. Overall architecture of PAN
Fig.2是PAN的整体结构,它主要可以分为三个部分:主干网络、Segmentation Head以及可学习的后处理算法。为了减少模型的计算量并提高效率,像素聚合网络PAN使用了轻量级的ResNet18作为主干网络。但单纯使用这样一个浅层的主干网络会使得其不具备足够的感受野,而且不能提取到足够强的特征。为了解决这样的问题,PAN在主干网络后添加了一个Segmentation Head去增强特征表达。Segmentation Head包含了特征金字塔增强模块(FPEM)和特征融合模块 (FFM),经过这个结构,PAN预测得到了上述提到的文本区域,核以及相似向量。最后,PAN使用一个简单而又可学习的后处理算法(Pixel Aggregation)得到最终的结果。
Segmentation Head中的特征金字塔增强模块(FPEM)是一个U形的模块,Fig.3展示了FPEM的结构细节,它包含了上采样增强和下采样增强两个阶段。上采样增强作用于输入的特征金字塔,它以32、16、8、4个像素为步长在特征图上迭代增强,而下采样增强则是作用于上一阶段所产生的的特征金字塔并得到FPEM最终的输出,该阶段的增强步长为4-32。FPEM有如下两个优势:第一,FPEM是可级联的,N个FPEM级联后的模块可以能够很好的融合不同尺度的特征,并且特征的感受野也会增大;第二,FPEM是由分离的只需要最小计算量的卷积组成,所以它的运算量很低,只有传统FPN的1/5。
Segmentation Head中的特征融合模块(FFM)的结构细节如Fig.4所示,它能够将不同深度的FPEMs提取到的特征融合在一起,以此融合低级和高级的语义信息。FFM首先将相应尺寸的特征图逐像素相加(Element-wise),然后得到的特征会被上采样并连接成一个只有4ⅹ128的特征图。
经过Segmentation Head预测得到了文本区域、文本核和相似向量。文本区域虽然保留了文本的完整形状但也会出现区域重叠的情况,文本核可以区分不同的文本,但是它并不是完整的文本。要得到完整的文本实例,PAN要把文本区域中的像素融合到文本核,于是提出了一个可学习的后处理算法----像素聚合(Pixel Aggregation)来指引不同的像素聚合到正确的核。在像素聚合中,借鉴了聚类的思想,将文本实例的核视为聚类的中心,文本区域的像素是聚合样本,要将文本像素聚合到对应的核,则文本像素和相同文本的核的距离要很小。于是在训练阶段,用如下损失函数来引导像素聚类的训练:
此外,聚类中心也需要一直划分清楚,不同文本的核需要保持足够的距离。因此在训练时也用如下损失函数引导训练。
TABLE 3. The results on ICDAR 2015.
TABLE 4. The results on MSRA-TD500.
本文提出的PAN在不规则文本数据集SCUT-CTW1500和Total-Text以及任意四边形文本数据集ICDAR 2015和MSRA-TD500上表现非常出色。PAN不仅在检测结果上达到了state-of-the-art的效果,而且在速度上比之前的方法都要快很多。Fig.5展示了不同检测方法在SCUT-CTW1500的检测速度和表现的比较,可以看到PAN是效果最优且速度最快的。
这篇论文考虑了如何权衡场景文本检测中精度和速度这一重要问题,提出了一个可以实时检测任意形状文本的高效自然场景文本检测器PAN。PAN使用了轻量的主干网络,并加入了包含特征金字塔增强模块和特征融合模块的Segmentation Head以增强特征表达,而且也不会带来额外的庞大计算量。此外提出了可学习的后处理算法----Pixel Aggregation去预测文本核与周围像素的相似向量以得到完整的文本区域,避免了以往方法中繁琐的后处理方式。这些方法使得PAN在各数据集上取得最优结果的同时,检测的速度也能达到最优。
[1] Wenhai Wang , Enze Xie and Xiaoge Song.Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV, 2019.
原文作者:Wenhai Wang, Enze Xie, Xiaoge Song, Yuhang Zang, Wenjia Wang, Tong Lu, Gang Yu, Chunhua Shen
撰稿:刘崇宇
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
[CVPR 2019] Look More Than Once:An Detector for Text of Arbitrary Shape CAAI AIDL 演讲实录丨金连文:“场景文字检测与识别:现状及展望” [IJCAI 2019] BDN:一种利用顺序无关定位盒分解的任意方向场景文本检测方法(有源码) [TPAMI 2019] Mask TextSpotter:An End-to-End Trainable Neural Network [CVPR 2019] Character region awareness for Text Detection (有源码) [Github] 史上最全场景文字检测资源合集 [Github] 史上最全场景文字识别资源汇集 [Github] 史上最全端到端场景文本检测识别资源合集
征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的图文介绍材料到:xuegao@scut.edu.cn
(扫描识别如上二维码加关注)