查看原文
其他

史上最全端到端场景文本检测识别资源合集(14篇重要论文 + 5个开源代码 + 49个实验结果 + 222个统计信息)

刘崇宇 CSIG文档图像分析与识别专委会 2022-07-11

本文总结了2012年以来在端到端场景文本检测与识别领域的14篇代表性论文以及6个常用数据集相关的资源,包含了5份论文开源代码, 49个实验结果以及超过200条统计信息。Github资源链接见文末。


一、前言
许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术的飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测与识别和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。
OCR(Optical Character Recognition) , 光学字符识别,是指对输入的拍照或扫描图像进行分析处理,检测并识别出该图像当中的文本信息。而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。端到端场景文本检测与识别(End-to-end Scene Text Detection and Recognition),是将场景文本检测和场景文本识别结合成一个整体的系统,能够同时得到文本检测与识别的结果,这也是场景文本分析与处理的最终目标。近年来,随着深度学习的发展,端到端场景文本检测与识别技术取得了突破性的进展。 

二、数据集对比
本文整理了六个常用于端到端场景文本检测与识别的数据集,分别为:SVT、ICDAR 2003、ICDAR 2011、ICDAR 2013、ICDAR2015、Total-Text。

详细对比内容,包括语种,图片以及文本数量(训练/测试),标注类型以及下载链接等信息请详见资源链接。


三、端到端场景文本检测与识别方法总结
本小节整理并对比了端到端场景文本检测与识别14篇重要论文,对比内容包括代码是否开源、方法分类、出处、时间等。


四、端到端场景文本检测与识别结果汇总
本小节整理了端到端场景文本检测与识别领域14篇重要论文的在不同类型数据集上的评估结果。详细内容请见资源链接。

五、小结
本文总结了2012年以来在端到端场景文本检测与识别领域的14篇重要论文、6个常用数据集、5份论文开源代码、 49个实验结果以及超过200条统计信息。此外,我们还总结了部分企业提供的OCR服务软件。详细内容见下列github链接。

Github资源链接
  • Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection

  • Scene Text Recognition: https://github.com/HCIILAB/Scene-Text-Recognition

  • End-to-end Scene Text Detection and Recognition: https://github.com/HCIILAB/Scene-Text-End2end




作者:刘崇宇
编排:高学 
审校:殷飞 
发布:金连文

作者/资源整理者介绍:

  刘崇宇:华南理工大学电子与信息学院在读硕士生。

  罗灿杰:华南理工大学电子与信息学院在读博士生。


免责声明:本文仅代表作者观点,不代表本公众号立场。



(长按识别上图二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存