论文推荐|[ECCV 2020] 场景文本识别的高效主干网络搜索方法
本文简要介绍ECCV 2020录用论文“AutoSTR: Efficient Backbone Search for Scene Text Recognition”的主要工作。该论文主要针对自然场景文本识别问题,提出利用神经网络架构搜索(Neural Architecture Search, NAS)算法搜索Data-dependent的特征提取器的网络结构,从而进一步改善自然场景文本识别算法的识别性能。
一个常规的自然场景文本识别算法通常包括三个模块:校正模块、特征提取模块和转录模块。具体而言,校正模块旨在将不规则文本纠正为水平文本,降低后续识别网络的识别难度;特征提取模块旨在将输入文本图像转换为特征向量序列,提取鲁棒的视觉特征表达;转录模块旨在将编码的特征向量序列解码为目标字符串序列。近年来,针对校正模块和转录模块的设计改进得到了研究人员和相关从业人员的广泛关注。相比之下,针对特征提取模块的设计改进较少。然而,特征提取模块对文本识别性能有很大影响。此外,特征提取模块还承担着沉重的计算和存储负担。因此,无论是从有效性还是效率上,针对特征提取模块的设计都应该得到业内的重视。本文作者提出利用神经网络架构搜索算法搜索Data-dependent的特征提取器,进一步改善自然场景文本识别算法的识别性能。
图1是这篇文章提出的AutoSTR的整体结构,其中进行神经网络架构搜索的部分是基于卷积结构的特征提取器。具体而言,特征提取器的输入为原始图像或经校正模块纠正后的图像,输出为大小统一的特征向量序列。
搜索空间。作者将卷积层拆解为两组控制变量:卷积的步长和卷积的类型。相应的搜索空间被划分为下采样路径搜索空间和操作方式搜索空间两部分。对于下采样路径搜索空间而言,作者借鉴了ASTER[1]的网络结构设计,候选卷积步长超参数为(2,2)、(2,1)和(1,1)三种。以本文为例,一个卷积层数为L层的特征提取器需要将(32,w)的输入图像缩放至(1,w/4)的特征向量序列,应包含2次(2,2)、3次(2,1)和L-5次(1,1)的卷积步长。对于操作方式搜索空间而言,作者为每层卷积设计了C种不同的卷积操作,表示为opi。不同于目前的场景文本识别网路的特征提取器使用相同的卷积操作进行简单堆叠,AutoSTR可以从C个并行的卷积操作中选择一种。如图2所示,3D网络搜索空间中的任意一条连通路径代表了搜索空间中的一种结构配置,本文的搜索目标是从中找到一条有效路径,使得识别性能最优。
搜索算法。作者将搜索算法解耦为两步:下采样路径搜索和卷积操作方式搜索。对于下采样路径搜索,作者首先将卷积操作全部固定为3*3的残差网络层。然后利用先验知识,每个卷积阶段使用相同数量的层可以达到较好的效果,人为地将下采样位置固定在第1、4、7、10和13层。有效下采样路径由30030种下降至10种,极大地缩小了搜索空间。通过在典型路径集合中进行小范围的网格化搜索,找到最优的下采样路径。对于卷积操作方式的搜索基于已经搜索出来的最优下采样路径,本文选择使用发表在ICLR 2019的ProxylessNAS[2]结构,目的是在大规模的目标任务搜索中,可以节约显存,解决GPU高内存占用和计算耗时过长的问题。此外,作者引入了一个复杂度正则项,用于在计算复杂度和准确率之间取得平衡。复杂度正则项如下所示,L代表网络的层数,C代表卷积操作方式的数量,α、β和logÇ代表Application-specific的超参数。
从表1中可以看到,AutoSTR在自然场景文本识别的标准评测数据集上,与其他先进方法进行对比均达到了相当或更好的识别性能,验证了该方法的有效性。具体而言,AutoSTR在IIIT5K、SVT、IC15和SVT-P数据集上表现最好,在IC03、IC13数据集上表现出了与先进算法相当的性能。此外,AutoSTR有望配备更精确的矫正模块,如SCRN[6]的校正模块,进一步提升识别性能。
从图3中可以看出,与SAR[3]、CA-FCN[4]、ESIR[5]、SCRN[6]和ASTER[1]等先进方法相比,AutoSTR不仅识别精度更高,而且在浮点运算和内存占用上都要更少,更便于移动端部署。
从图4中可以看出,AutoSTR针对不同测试数据集搜索到的网络结构不同;较浅的卷积层趋向于使用较大的卷积操作,较深的卷积层趋向于使用较小的卷积操作;较深的卷积层趋向于使用跳跃连接以减少卷积层的数量。这些现象有助于我们设计更好的自然场景文本特征提取器。从表2中,可以看到AutoSTR搜索得到的网络结构不仅具有更好的识别精度,而且具有更少的浮点运算和参数。这一现象说明常规的自然场景文本识别网络中存在大量冗余参数,AutoSTR具备优化网络结构,减少冗余参数的功能。
从图5和表3中可以看到,AutoSTR相比于随机搜索算法,搜索速度更快、识别性能更优;相比于其他先进的神经网络架构搜索算法,更适用于自然场景文本识别任务,搜索得到的网络模型识别性能更优。
从表4中可以看到,最优的下采样方式与卷积操作方式无关。此外,一个更好的下采样路径有利于发现更优的特征提取器结构。
从表5中可以看到,本文提出的复杂度正则项有效地实现了计算复杂度与准确率之间的平衡。
针对自然场景文本识别任务,本文提出了一种利用神经网络架构搜索改善特征提取器设计的方法。首先,本文将卷积操作解耦,利用先验知识,设计了新颖合理的搜索空间;其次,本文提出了两阶段的搜索算法,实现了下采样路径及卷积操作方式的高效搜索;最后,本文通过丰富的实验验证了所提出方法的有效性。同时,为今后自然场景文本识别领域特征提取器的设计提供了宝贵意见和参考。
AutoSTR 论文地址: https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123690732.pdf AutoSTR 开源代码地址: https://github.com/AutoML-4Paradigm/AutoSTR.git
原文作者:HuiZhang, Quanming Yao, Mingkun Yang, Yongchao Xu, Xiang Bai
审校:连宙辉
发布:金连文
论文推荐|[ECCV 2020] 文本检测识别中的字符区域注意力机制(有源码) 论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别 论文推荐|[IEEE TIP 2020]EraseNet:端到端的真实场景文本擦除方法 演讲录播 | 文本检测与识别再思考【CSIG-DIAR 2020学术年会系列报道6】 演讲录播 | 通用文档理解预训练模型【CSIG-DIAR 2020学术年会系列报道5】 演讲录播 | 基于编码-解码模型的数学公式识别研究【CSIG-DIAR 2020学术年会系列报道4】
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)