查看原文
其他

史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)

陈晓雪 CSIG文档图像分析与识别专委会 2022-07-11

本文整理了近年来场景文字识别领域里56篇代表性论文,20份开源代码,330个实验结果以及超过1800个统计信息。Github资源链接见文末。

一、前言
许多场景图像中包含着丰富的文本信息,而文本提供的准确语义信息对于理解图像有着十分重要的作用。随着互联网和移动互联网技术的高速发展,越来越多的新型应用场景需要利用自然场景中的文字信息,例如信息安全及内容审核、自动驾驶、信息检索、图像理解等等。因此,场景文字识别一直是计算机视觉领域的研究热点之一。

二、研究背景
OCR(Optical Character Recognition),光学字符识别,指对输入的拍照或扫描文档图像进行分析处理,识别出图像中的文字信息;场景文字识别(SceneText Recognition),指识别自然场景图片中的文字信息。

自然场景中的文字识别,因其文字展现形式极为丰富,背景复杂,分辨率低,易受环境噪声影响,使得其难度远大于扫描文档图像中的文字识别。近年来,随着深度学习的迅猛发展,越来越多的优秀方法被提出并取得了的显著效果。


三、数据集对比
本小节整理并对比了19个场景文字识别评测数据集,分别为:
  • 英文规则场景文本识别评测数据集:

     IIIT5K,SVT,IC03,IC13,COCO-Text,SVHN
  • 英文非规则场景文本识别评测数据集:

     SVT-P,CUTE80,IC15,ToTal-Text
  • 双语场景文本识别评测数据集(中英文,中文为主):

     RCTW-17,MTWI,CTW,SCUT-CTW1500,LSVT,ArT,ReCTS
  • 合成数据集:

     Synth90k,SynthText


对比内容包括各数据集语种,图片数量(训练/测试),样本数量(训练/测试),词典,标签及类型等。详细介绍及相关下载请详见文末资源链接。



四、方法对比
本小节整理并对比了场景文本识别领域38篇重要论文的识别方法,对比内容包括代码、方法分类、出处、时间等。详细介绍及相关下载请详见资源链接。

注:“Reg”, "Irreg","Seg", "Extra", "CTC" 和 "Attn" 分别代表是否是规则文本数据集,是否是非规则文本数据集,该方法是否基于分割,该方法是否使用额外数据集,该方法是否基于CTC算法以及是否基于Attention算法。


五、识别结果对比
注:1)“*”代表使用额外数据。2)粗体代表最佳识别结果。3)"^"代表使用额外数据集的最佳识别结果。4)"@"代表使用不同评估方式。5)"Data"列中"SK","ST", "ExPu", "ExPr"和"Un"分别代表使用训练数据集为Synth90K, SynthText, 额外公开数据集,额外私有数据集以及未知数据。

1、英文规则场景文本识别评测数据集识别结果

本小节整理并对比了场景文本识别领域38篇重要论文的识别方法在英文规则场景文本识别评测数据集的识别结果。详细介绍及相关下载请详见文末资源链接。

2、英文非规则场景文本识别评测数据集

本小节整理并对比了场景文本识别领域38篇重要论文的识别方法在英文非规则场景文本识别评测数据集的识别结果。详细介绍及相关下载请详见文末资源链接。

3、双语场景文本识别评测数据集(中英文,中文为主)

本小节整理并对比了双语场景文本识别评测数据集的识别结果,详细介绍及相关下载请详见文末资源链接。


注:比赛数据集仅列出前三名识别结果,相关评估指标请查看相应的比赛官网。


Github资源链接

  • Scene Text Recognition: https://github.com/HCIILAB/Scene-Text-Recognition





作者:陈晓雪
编排:高学 
审校:殷飞 
发布:金连文

作者及资源整理者介绍:陈晓雪,华南理工大学电子与信息学院在读硕士生。


免责声明:本文仅代表作者观点,不代表本公众号立场。



(长按识别上图二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存