专题论文|PRN:面向不规则文字识别的渐进矫正网络
The following article is from CSIG文档图像分析与识别专委会 Author 高云泽
Progressive rectification network for irregular text recognition
Yunze GAO1,2, Yingying CHEN1*, Jinqiao WANG1 & Hanqing LU1
1 National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;
2 University of Chinese Academy of Sciences, Beijing 100049, China
Sci China Inf Sci, 2020, 63(2): 120101
由于场景的多样性和拍摄视角的多变性,对于不规则文字(倾斜文字、弯曲文字、透视文字等)识别的需求日益增加。由于文字布局不可预测的变化,识别任意形状的文字是一个极具挑战性的任务。大部分现存的方法主要集中在规则文字识别上,鲁棒性不足,很难泛化到不规则文字识别的任务上。有一些工作采用基于矫正的思路,首先将不规则文字矫正到一个易于识别的前向水平视角,然后再进行识别。空间变换网络Spatial Transformer Network (STN) 是一个可以进行空间变换的可学习的模块。然而,用STN处理复杂的变形,尤其是非刚体的变形是非常困难的,通过一次简单的矫正很难达到理想的效果。单步矫正通常不能完全移除变形,不理想的矫正也可能会导致文字信息丢失,因而造成对后续识别的负面影响。在现实世界人类的认知过程中,困难的任务通常会被划分为多个简单的步骤,中间阶段性的结果可以被用来指导下一步操作过程。而且,人类通常采用多次不断地改良来更好的完成一个复杂任务。基于以上分析,我们设计了一个循环矫正网络来逐步地将不规则文字矫正到易于识别的前向水平视角,从而达到最优的识别效果。
图1展示了我们提出的渐进矫正网络的整体框架图。不规则文字首先被渐进式地校准到正向水平视角,然后送入后续的识别网络。在矫正过程中,通过多次迭代对矫正结果进行优化,变形会被逐步地移除。我们用同一个矫正网络循环地更新矫正结果,因此不会引入任何额外的参数。具体地,将变换参数估计模块记做E,空间变换模块记做S,我们的循环结构如下所示:
其中,t代表第t次迭代,
其中,N代表边界点的个数。在网络前传的过程中,定位网络预测一个输入图像上的文字包络
其中,D是一个的N×N方阵,
其中,
然而,我们观察到直接迭代可能会导致不可逆转的信息损失。如图2第一行所示,尽管下一步矫正将文字向更理想的方向进行变换,但是丢失的字符信息却无法被恢复,因而会引入边界损坏的现象,从而导致识别错误。并且在迭代矫正的过程中,丢失信息的影响会被累积。为了解决这个问题,我们设计了一个包络改良的结构来保持文字在迭代矫正过程中的完整性。我们通过文字包络来传递变换信息,文字包络会不断地进行更新,然后我们可以基于更新后的包络估计变换参数,并且每一步都在原始图像上进行采样。通过这种方式,原始的字符信息在每一步变换中都得以保留。另外,为了让网络训练的更加稳定和容易,我们选择优化包络的偏移量而不直接优化包络点的绝对位置。在第t次矫正,将包络的偏移量定义为
其中,
通过包络改良结构,我们可以有效地保持文字的完整性,避免边界损坏的现象。矫正后的图像会送入后续的识别网络进行识别,具体地,识别网络采用一个基于注意力机制的编解码结构。首先,编码器采用一个CNN-LSTM的结构对输入图像进行编码,得到特征序列
然后RNN会进行状态更新并产生标签空间上的概率分布:
其中,
其中,
针对上述设计,我们分别在四个不规则文字的数据库SVT-P、CUTE80、ICDAR15、Total-Text和四个规则文字的数据库SVT、IIIT5k、ICDAR03、ICDAR13上进行了验证。
首先,我们探索了迭代次数对识别性能的影响,如表1所示,随着迭代次数的增加,识别性能会逐渐的改善,当迭代达到4次时,性能不再提升。平均每次迭代仅增加耗时4ms,且不增加任何额外的参数。考虑到性能和速度之间的折衷,我们选择三次迭代。
另外,我们验证了包络改良结构的有效性,如表2所示,在同样的迭代次数下,该结构可以带来明显的性能提升。这受益于矫正过程中对文字完整性的保持,可以有效弥补一些损失信息。
一些可视化的例子如图3所示,可以看到,随着迭代次数的增加,不规则文字的变形可以被逐步地移除。另外,前一次矫正丢失的文字信息可以在后续的矫正过程中得到弥补,从而有效的保持文字的完整性,进而达到更好的识别效果。除此之外,我们还注意到,我们的网络不仅能够将不规则文字向利于识别的方向进行变换,同时还可以逐步地移去背景噪声。
我们也与其他的方法进行了比较,如表3所示,我们的方法在大部分不规则文字的数据集上都取得了最好的性能,特别地,和基于矫正的方法相比,我们取得了更理想的性能,尤其是在变形严重的CUTE80上,这体现了我们方法的有效性。我们也在规则文字数据集上做了对比,如表4所示,我们在IIIT5k上达到了最好的性能。IIIT5k数据集也包含一些弯曲文字,这表明了我们的方法在处理不规则文字上的优势。
本文提出了一种渐进矫正网络,用于解决不规则文字的识别问题。该方法在不规则文字的数据集上表现出了优越的效果。与之前基于矫正的方法相比,该方法对于文字形变更加鲁棒,可以有效移除形变程度较大的文字形变,进一步改善识别性能。