论文推荐|[ICCV 2019] 场景文本识别模型的评测存在哪些问题：数据集以及模型分析方法？（有源码）

陈晓雪 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICCV 2019 Oral论文“What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis”的主要工作。该论文主要针对各种自然场景文字识别算法性能比较的公平性（从评测方法、数据集到模型结构）进行了详细的分析讨论。

一、研究背景

随着深度学习的复兴和发展，近年来自然场景文字识别领域涌现了越来越多性能优异的识别算法。然而由于不同识别算法使用了不同的评测标准和实验环境，很难在一个公平的条件下比较不同算法的识别性能。因此，作者主要针对自然场景文字识别算法性能比较的公平性，对数据集及模型结构进行了详细的分析。

二、关于数据集的分析

（一）训练数据集

因为真实数据数量少，标注成本高，所以大多数自然场景文字识别算法使用合成数据进行训练。两个常用的合成数据集是MJSynth(MJ)[1]和SynthText(ST)[2]，分别包含890万和550万张训练样本。

本文探究了不同训练数据集对算法识别性能的影响：

表1 训练数据集与算法识别性能（笔者整理）

表2 不同比例的训练数据集（MJ+ST）与算法识别性能

结论：

自然场景文字识别算法的性能随着数据量的增多而改善。
在不同训练数据集下训练的模型，彼此不具有可比性。
数据的多样性比数据量更加重要。
当真实训练数据与评测数据分布相近时，在真实数据上Fine-tuning可以改善识别算法的性能；反之效果可能适得其反。

（二）测试数据集

自然场景文字识别领域的评测数据集主要包括2类：一类是规则文本数据集，如IIIT5K[3]，SVT[4]，IC03[5]和IC13[6]；另一类是不规则文本数据集（以弯曲、透视变换为主要特点），如IC15[7]，SVT-P[8]和CUTE80[9]。其中，红色部分代表存在争议的数据集，存在争议的原因见表3所述及图1所示。

表3 存在争议的评测数据集及产生原因（笔者整理）

图1 存在争议的评测数据集的部分图片展示。左图，IC03-860中丢失的7张文字样本；中图，IC03训练集和IC13测试集重合的文字样本；右图，论文[10,11]中丢弃的IC15数据集的部分困难文字样本

表4 本文复现的6种自然场景文字识别算法的性能比较（相同训练集）

结论：

部分自然场景文字识别评测数据集（IC03, IC13和IC15）存在样本数量差异。特别地，IC03训练集与IC13测试集存在215张重合文字样本。
测试集样本数量的差异会影响对识别算法性能的评估。

三、关于模型结构的分析

本文将自然场景文字识别模型分为4个模块阶段（Stage），包括：

变换处理阶段（Transformation stage），
特征提取阶段（Feature Extraction stage），
序列建模阶段（Sequence Modeling stage），
预测阶段（Prediction stage）。

本文探究了不同阶段的不同设计实现对算法识别性能、速度和参数存储量的影响：

表5 自然场景文字识别模型24种实现方法的识别性能，速度和参数存储量比较

结论：最佳模型结构：TPS + ResNet + BiLSTM + Attntion Mechanism

（一）Transformation Stage

表6 Transformation Stage 2种方法（None和TPS）的准确率，速度和参数存储量分析

图2 加入TPS后正确识别的图片

图3 Transformation Stage的准确率、速度和参数存储量分析

结论：

TPS变换的引入可以改善自然场景文字识别器的识别性能。
TPS变换适用于识别不规则文本。
引入TPS变换带来的识别性能的改善，以增加少量时间和增加少量参数作为代价。

（二）Feature Extraction Stage

表7 Feature Extraction Stage 3种实现方法（VGG,RCNN和ResNet）的准确率、速度和参数存储量分析

图4 加入ResNet后正确识别的图片

图5 Feature Extraction Stage的准确率、速度和参数存储量分析

结论：

具有更复杂的特征提取模块的自然场景文字识别器的识别性能更好。
更复杂的特征提取模块具有更好的特征表达能力，适用于识别具有复杂字体和背景的文字样本。
对于速度而言，特征提取阶段的不同实现方法没有明显差异；对于参数存储量而言，ResNet的高识别性能以最大的参数存储空间作为代价。

（三）Sequence Modeling Stage

表8 Sequence Modeling Stage 2种实现方法（None和BiLSTM）的准确率、速度和参数存储量分析

图6 加入BiLSTM后正确识别的图片

图7 Sequence Modeling Stage的准确率、速度和参数存储量分析

结论：

BiLSTM的引入可以改善自然场景文字识别器的识别性能。
BiLSTM适用于识别包含无关字符的文字样本。
引入BiLSTM带来的识别性能的改善，以增加少量时间和增加少量参数作为代价。

（四）Prediction Stage

表9 Prediction Stage 两种实现方法（CTC和Attn）的准确率、速度和参数存储量分析

图8 加入Attention Mechanism后正确识别的图片

图9 Prediction Stage的准确率、速度和参数存储量分析

结论：

对于自然场景文字识别（英文）的Prediction Stage来说，Attention Mechanism的识别性能优于CTC算法。
因为Attention Mechanism含有字符级隐式语言建模，所以适用于识别含有遮挡的文字样本。
对于速度而言，Attention Mechanism明显慢于CTC；对于参数存储量而言，二者没有明显差别。

（五）准确率和速度的权衡分析

图10 准确率和速度的权衡分析

表10 不同模块改变对准确率和速度的影响

结论：

ResNet、BiLSTM和TPS的引入略微增加了时间（1.3ms ->10.9ms），却很好地改善了识别性能（69.5% ->82.9%）。
Attention Mechanism的引入增加了大量的时间（10.9ms-> 27.6ms），却带来了很少的识别性能改善（82.9% ->84.0%）。
权衡准确率和速度，自然场景文字识别模型最优的模块改善路径为：ResNet -> BiLSTM -> TPS -> Attention Mechanism。

（六）准确率和参数存储量的权衡分析

图11 准确率和参数存储量的权衡分析

表11 不同模块改变对准确率和参数存储量的影响

结论：

RCNN是一个轻量级的特征提取模块，具有较好的准确率-参数存储量权衡优势；相反，引入ResNet占用了大量的参数。
权衡准确率和参数存储量，自然场景文字识别模型最优的模块改善路径为：RCNN -> Attention Mechanism -> TPS -> BiLSTM –> ResNet。

四、关于错误文字样本的分析

在8539张评测文字样本（7个常用评测数据集的集合）中，共有644张文字样本从未被本文研究的24种模型中任何一个正确识别，本文根据样本特点，将其分为6类：复杂字体、垂直文字、特殊字符、严重遮挡、低分辨率以及错误的标签。

图12 识别错误文字样本分类及举例

五、总结及讨论

本文是第一篇对自然场景文字识别算法性能比较的公平性进行详细分析讨论的文章。本文通过大量的实验分析，总结并提出了丰富实用的结论和工程建议，同时也引发了相关研究者对于自然场景文字识别领域更多的思考。

本文的主要贡献有：

（1）首次公开指出了自然场景文字识别算法性能比较的公平性的问题；

（2）系统全面的探讨了训练和评测数据集、模型结构（如主干网）对自然场景文字识别算法性能的影响；

（3）把自然场景文字识别整体流程划分为四个不同的模块，并总结了一个高性能的识别技术路线；

（4）分析了自然场景文字识别算法的不同阶段及不同实现对识别算法性能、速度和参数存储量的影响。

六、相关资源

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis. 论文地址:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Baek_What_Is_Wrong_With_Scene_Text_Recognition_Model_Comparisons_Dataset_ICCV_2019_paper.pdf
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis.补充材料地址: http://openaccess.thecvf.com/content_ICCV_2019/supplemental/Baek_What_Is_Wrong_ICCV_2019_supplemental.pdf
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis.开源代码地址:https://github.com/clovaai/deep-text-recognition-benchmark
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis. 网页端Demo地址:https://demo.ocr.clova.ai/

参考文献

[1] Max Jaderberg, Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman.Synthetic data and artificial neural networks for natural scene text recognition. In Workshop on Deep Learning, NIPS, 2014.

[2] Ankush Gupta, Andrea Vedaldi, and Andrew Zisserman. Synthetic data for text localisation in natural images. In CVPR, 2016.

[3] Anand Mishra, Karteek Alahari, and CV Jawahar. Scene text recognition using higher order language priors. In BMVC, 2012.

[4] Kai Wang, Boris Babenko, and Serge Belongie. End-to-end scene text recognition.In ICCV, pages 1457–1464, 2011.

[5] Simon M Lucas, Alex Panaretos, Luis Sosa, Anthony Tang, Shirley Wong,and Robert Young. Icdar 2003 robust reading competitions. In ICDAR,pages 682–687, 2003.

[6] Dimosthenis Karatzas, Faisal Shafait, Seiichi Uchida, Masakazu Iwamura,Lluis Gomez i Bigorda, Sergi Robles Mestre, Joan Mas, David Fernandez Mota, Jon Almazan Almazan, and Lluis Pere De Las Heras. Icdar 2013 robust reading competition.In ICDAR, pages 1484–1493, 2013.

[7] Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, SumanGhosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, et al. Icdar 2015 competition on robust reading. In ICDAR, pages 1156–1160, 2015.

[8] Trung Quy Phan, Palaiahnakote Shivakumara, Shangxuan Tian, and Chew LimTan. Recognizing text with perspective distortion in natural scenes. In ICCV,pages 569–576, 2013.

[9] Anhar Risnumawan, Palaiahankote Shivakumara, Chee Seng Chan, and ChewLim Tan. A robust arbitrary text detection system for natural scene images. In ESWA,volume 41, pages 8027–8048. Elsevier, 2014.

[10] Zhanzhan Cheng,Fan Bai, Yunlu Xu, Gang Zheng, Shiliang Pu, and Shuigeng Zhou. Focusing attention: Towards accurate text recognition in natural images. In ICCV, pages5086–5094, 2017.

[11] Fan Bai, Zhanzhan Cheng, Yi Niu, Shiliang Pu, and Shuigeng Zhou. Edit probability for scene text recognition.In CVPR, 2018.

原文作者：JeonghunBaek，Geewook Kim，Junyeop Lee，Sungrae Park，Dongyoon Han，Sangdoo Yun，Seong Joon Oh，Hwalsuk Lee

撰稿：陈晓雪

编排：高学

审校：殷飞

发布：殷绪成

免责声明：（1）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

事关收入，赶紧确认！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

论文推荐|[ICCV 2019] 场景文本识别模型的评测存在哪些问题：数据集以及模型分析方法？（有源码）

您可能也对以下帖子感兴趣

事 关 收 入 ，赶 紧 确 认 ！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

生成图片，分享到微信朋友圈

论文推荐|[ICCV 2019] 场景文本识别模型的评测存在哪些问题：数据集以及模型分析方法？（有源码）

您可能也对以下帖子感兴趣

事关收入，赶紧确认！！！