论文推荐|[ECCV 2020] 场景文本识别的高效主干网络搜索方法

Original 陈晓雪 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV 2020录用论文“AutoSTR: Efficient Backbone Search for Scene Text Recognition”的主要工作。该论文主要针对自然场景文本识别问题，提出利用神经网络架构搜索(Neural Architecture Search, NAS)算法搜索Data-dependent的特征提取器的网络结构，从而进一步改善自然场景文本识别算法的识别性能。

一、研究背景

一个常规的自然场景文本识别算法通常包括三个模块：校正模块、特征提取模块和转录模块。具体而言，校正模块旨在将不规则文本纠正为水平文本，降低后续识别网络的识别难度；特征提取模块旨在将输入文本图像转换为特征向量序列，提取鲁棒的视觉特征表达；转录模块旨在将编码的特征向量序列解码为目标字符串序列。近年来，针对校正模块和转录模块的设计改进得到了研究人员和相关从业人员的广泛关注。相比之下，针对特征提取模块的设计改进较少。然而，特征提取模块对文本识别性能有很大影响。此外，特征提取模块还承担着沉重的计算和存储负担。因此，无论是从有效性还是效率上，针对特征提取模块的设计都应该得到业内的重视。本文作者提出利用神经网络架构搜索算法搜索Data-dependent的特征提取器，进一步改善自然场景文本识别算法的识别性能。

二、方法原理简述

图1 网络整体框架图

图1是这篇文章提出的AutoSTR的整体结构，其中进行神经网络架构搜索的部分是基于卷积结构的特征提取器。具体而言，特征提取器的输入为原始图像或经校正模块纠正后的图像，输出为大小统一的特征向量序列。

图2 搜索空间示意图

搜索空间。作者将卷积层拆解为两组控制变量：卷积的步长和卷积的类型。相应的搜索空间被划分为下采样路径搜索空间和操作方式搜索空间两部分。对于下采样路径搜索空间而言，作者借鉴了ASTER[1]的网络结构设计，候选卷积步长超参数为(2,2)、(2,1)和(1,1)三种。以本文为例，一个卷积层数为L层的特征提取器需要将(32,w)的输入图像缩放至(1,w/4)的特征向量序列，应包含2次(2,2)、3次(2,1)和L-5次(1,1)的卷积步长。对于操作方式搜索空间而言，作者为每层卷积设计了C种不同的卷积操作，表示为op_i。不同于目前的场景文本识别网路的特征提取器使用相同的卷积操作进行简单堆叠，AutoSTR可以从C个并行的卷积操作中选择一种。如图2所示，3D网络搜索空间中的任意一条连通路径代表了搜索空间中的一种结构配置，本文的搜索目标是从中找到一条有效路径，使得识别性能最优。

搜索算法。作者将搜索算法解耦为两步：下采样路径搜索和卷积操作方式搜索。对于下采样路径搜索，作者首先将卷积操作全部固定为3*3的残差网络层。然后利用先验知识，每个卷积阶段使用相同数量的层可以达到较好的效果，人为地将下采样位置固定在第1、4、7、10和13层。有效下采样路径由30030种下降至10种，极大地缩小了搜索空间。通过在典型路径集合中进行小范围的网格化搜索，找到最优的下采样路径。对于卷积操作方式的搜索基于已经搜索出来的最优下采样路径，本文选择使用发表在ICLR 2019的ProxylessNAS[2]结构，目的是在大规模的目标任务搜索中，可以节约显存，解决GPU高内存占用和计算耗时过长的问题。此外，作者引入了一个复杂度正则项，用于在计算复杂度和准确率之间取得平衡。复杂度正则项如下所示，L代表网络的层数，C代表卷积操作方式的数量，α、β和logÇ代表Application-specific的超参数。

三、主要实验结果及可视化结果

表1 AutoSTR在自然场景文本识别标准评测数据集上的识别性能

从表1中可以看到，AutoSTR在自然场景文本识别的标准评测数据集上，与其他先进方法进行对比均达到了相当或更好的识别性能，验证了该方法的有效性。具体而言，AutoSTR在IIIT5K、SVT、IC15和SVT-P数据集上表现最好，在IC03、IC13数据集上表现出了与先进算法相当的性能。此外，AutoSTR有望配备更精确的矫正模块，如SCRN[6]的校正模块，进一步提升识别性能。

图3 AutoSTR与其他先进方法的浮点运算和内存大小对比图

从图3中可以看出，与SAR[3]、CA-FCN[4]、ESIR[5]、SCRN[6]和ASTER[1]等先进方法相比，AutoSTR不仅识别精度更高，而且在浮点运算和内存占用上都要更少，更便于移动端部署。

图4 AutoSTR搜索的网络架构可视化图

表2 AutoSTR与MBConv模型的性能比较

从图4中可以看出，AutoSTR针对不同测试数据集搜索到的网络结构不同；较浅的卷积层趋向于使用较大的卷积操作，较深的卷积层趋向于使用较小的卷积操作；较深的卷积层趋向于使用跳跃连接以减少卷积层的数量。这些现象有助于我们设计更好的自然场景文本特征提取器。从表2中，可以看到AutoSTR搜索得到的网络结构不仅具有更好的识别精度，而且具有更少的浮点运算和参数。这一现象说明常规的自然场景文本识别网络中存在大量冗余参数，AutoSTR具备优化网络结构，减少冗余参数的功能。

图5 AutoSTR与随机搜索的性能对比

表3 AutoSTR与DARTS[7]、AutoDeepLab[8]模型的识别性能比较

从图5和表3中可以看到，AutoSTR相比于随机搜索算法，搜索速度更快、识别性能更优；相比于其他先进的神经网络架构搜索算法，更适用于自然场景文本识别任务，搜索得到的网络模型识别性能更优。

表4 不同下采样方式在IIIT5K数据集上的识别性能比较

从表4中可以看到，最优的下采样方式与卷积操作方式无关。此外，一个更好的下采样路径有利于发现更优的特征提取器结构。

表5 复杂度正则化项的影响

从表5中可以看到，本文提出的复杂度正则项有效地实现了计算复杂度与准确率之间的平衡。

四、总结及讨论

针对自然场景文本识别任务，本文提出了一种利用神经网络架构搜索改善特征提取器设计的方法。首先，本文将卷积操作解耦，利用先验知识，设计了新颖合理的搜索空间；其次，本文提出了两阶段的搜索算法，实现了下采样路径及卷积操作方式的高效搜索；最后，本文通过丰富的实验验证了所提出方法的有效性。同时，为今后自然场景文本识别领域特征提取器的设计提供了宝贵意见和参考。

五、相关资源

AutoSTR 论文地址: https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123690732.pdf
AutoSTR 开源代码地址: https://github.com/AutoML-4Paradigm/AutoSTR.git

参考文献

[1] Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., Bai,X.: ASTER: An attentional scene text recognizer with flexible rectification.IEEE Transactions on Pattern Analysis and Machine Intelligence (2019).

[2] Cai, H.,Zhu, L., Han, S.: ProxylessNAS: Direct neural architecture search on target task and hardware. In: International Conference on Learning Representations (2019).

[3] Li, H.,Wang, P., Shen, C., Zhang, G.: Show, attend and read: A simple and strong baseline for irregular text recognition. In: AAAI Conference on Artificial Intelligence(2019).

[4] Liao, M., Zhang, J., Wan, Z.,Xie, F., Liang, J., Lyu, P., Yao, C., Bai, X.: Scene text recognition from two-dimensional perspective. In: AAAI Conference onArtificial Intelligence (2019).

[5] Zhan, F., Lu, S.: ESIR: End-to-end scene text recognition via iterative image rectification. In: IEEE Conference on Computer Vision and Pattern Recognition (2019).

[6] Yang, M., Guan, Y., Liao, M., He, X., Bian, K.,Bai, S., Yao, C., Bai, X.: Symmetry constrained rectification network for scene text recognition. In: IEEE International Conference on Computer Vision (2019).

[7] Liu, H., Simonyan, K., Yang, Y.: DARTS:differentiable architecture search. In: International Conference on Learning Representations (2019).

[8] Liu,C., Chen, L.C., Schroff, F., Adam, H., Hua, W., Yuille, A.L., Fei-Fei, L.:Autodeeplab: Hierarchical neural architecture search for semantic image segmentation. In: IEEE Conference on Computer Vision and Pattern Recognition(2019)

原文作者：HuiZhang, Quanming Yao, Mingkun Yang, Yongchao Xu, Xiang Bai

撰稿：陈晓雪

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

论文推荐|[ECCV 2020] 场景文本识别的高效主干网络搜索方法

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

生成图片，分享到微信朋友圈

论文推荐|[ECCV 2020] 场景文本识别的高效主干网络搜索方法

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣