查看原文
其他

论文推荐|[ AAAI 2020]从边界到文本—一种任意形状文本的检测方法

王豪,卢普 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍AAAI 2020论文“All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting”的主要工作。该论文提出了用边界点来表示任意形状文本的方法,解决了自然场景图像中任意形状文本的端到端识别问题。如图1所示:现有方法用外接四边形框来表示文本边界(图1,(a)),通过RoI-Align来提取四边形内的特征(图1,(b)),这样会提取出大量的背景噪声,影响识别网络。利用边界点来表示任意形状文本有以下优势:

  • 边界点能够描述精准的文本形状,消除背景噪声所带来的影响(图1,(c));
  • 通过边界点,可以将任意形状的文本矫正为水平文本,有利于识别网络(图1,(d));
  • 由于边界点的表示方法,识别分支通过反向传播来进一步优化边界点的检测。
                           

Fig.1. Illustrations of two kinds of methods for text region representation.

一、研究背景

文本检测和识别常作为两个独立的子任务进行研究,但事实上,两者是相互关联并且能相互促进的。近期的一些工作开始关注到文本端到端识别问题,并取的了显著的进展。面对不规则的文本,这些方法多采用分割的方式对文字区域进行描述。分割的方法常需要复杂的后处理,并且获取的文本框和识别分支之间并不可导,识别分支的文本语义信息无法通过反向传播来对文本框进行优化。同时一些方法使用字符分割的方法进行识别,这使得识别器失去序列建模能力,并且需要额外的字符标注,增加了识别的训练难度以及标注成本。


二、原理简述

Fig.2. Overall architecture.

虽然边界点的预测理论上可以直接从水平候选框中预测(如图3(d)所示),但是自然场景中的文本呈现各种不同的形状、角度以及仿射变换等,这使得直接从水平候选框中预测边界点变得十分困难,不具有稳定性。因此,我们在文本实例的最小外接四边形上预测边界点,这样可以将不同角度、形状的文本旋转为水平形状,在对齐后的文本实例上预测边界点对于网络更为高效,容易。

具体方法细节如图2所示,本文的方法的包含三个部分:多方向矩形包围框检测器(the Oriented Rectangular Box Detector),边界点检测器(the Boundary Point Detection Network),以及识别网络(the Recognition Network)。对于多方向矩形包围框检测器,该文首先使用RPN网络进行候选区提取。为了产生多方向的矩形框,在提取出的候选区对目标矩形框的中心偏移量、宽度、高度和倾斜角度进行回归。获取了矩形包围框后,利用矩形框进行特征提取,并在提取的的候选区中进行文字边界点的回归。得到预测的边界点后,对文本区域的特征进行矫正,并将矫正的特征输入到后续的识别器中。

对于边界点检测网络,如图3(c)所示,该方法根据默认锚点(设定的参考点)进行回归,这些锚点被均匀的放置在最小矩形包围框的两个长边上,同时从文本实例的每个长边上等距采样K个点作为文字的目标边界点。本文采用预测相对偏移量的方式来获取边界点的坐标,即预测一个的向量(个边界点)。对于边界点可从预测的偏移量获取,,其中代表定义的描点。

对于识别网络,识别器使用矫正的特征预测出字符序列。首先,编码器将矫正的特征编码为特征序列 然后基于注意力的解码器将F转化为字符序列, 其中T是序列长度。当为第t时,解码器通过隐藏层状态和上一步的结果预测当前步的结果。

本文的方法采用完全端到端的训练方式,网络的损失函数包含四个部分,, 其中RPN的损失,为多方向矩形框回归的损失值,为边界点回归的损失值,为识别网络的损失。


Fig. 3. Illustrations of regression procedure.

三、主要实验结果及可视化效果

TABLE1. Results on Total-Text.“P”, “R” and “F” mean Precision, Recall and F-measure indetection task respectively. “E2E” means end-to-end, “None” means recognition without any lexicon, “Full” lexicon contains all words in test set.


TABLE 2. Results on ICDAR2015 and ICDAR2013 (DetEval). “S”, “W” and “G” mean recognition with strong, weak and generic lexicon respectively. “*” denotes that training dataset of MLT2017 is used for training.


Fig.3. Examples of text spotting results of our method on Total-Text, ICDAR2015, and ICDAR2013.
 

从Table 1来看,文中的方法在曲形数据集上取得了优异的性能,大幅领先先前方法。总结来看,性能的提升主要来源于三点:

1) 相对于基于分割的方法MaskTextSpotter, 本文的识别器采用基于注意力的解码器,能够捕获字符之间的语义关系,而MaskTextSpotter独立地预测每个字符; 

2) 相对于其他方法,本文使用边界点对文本区域的特征进行矫正,识别器拥有更好的特征;

3) 得益于更好的识别结果,由于检测和识别共享特征,检测的结果受特征影响得到进一步提升。

对于Table 2,文中的方法在ICDAR15多方向数据集上取得较好的结果,得益于序列识别器,在只使用通用字典的情况下高于先前的结果。在ICDAR13水平数据集上,本文的方法未使用字符标注,也取得较好的结果。

Fig. 3展示了一些可视化的结果图。该方法能处理任意形状的文本,并且能很好地处理垂直文本,能够正确获取竖直文本的阅读顺序。 


四、总结及讨论

本文提出了一个以边界点表示任意形状文本的端到端网络,实验证明了此种方法在端到端识别任务上的有效性和优越性。检测任务和识别任务均能从边界点这种表示形式中受益:1)由于边界点的表示是可导的,因此识别分支的导数回传会进一步优化检测结果;2)使用边界点对不规则文本的特征进行矫正能移除背景干扰,可以提升识别性能。 


五、相关资源
  • 论文下载:https://arxiv.org/abs/1911.09550 ; https://arxiv.org/pdf/1911.09550 



原文作者:Hao Wang, Pu Lu, Hui Zhang, Minkun Yang, Xiang Bai, Yongchao Xu, Mengchao He, Yongpan Wang, Wenyu Liu


撰稿:王豪,卢普

编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。



(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存