本文总结了2012年以来在端到端场景文本检测与识别领域的14篇代表性论文以及6个常用数据集相关的资源,包含了5份论文开源代码, 49个实验结果以及超过200条统计信息。Github资源链接见文末。
许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术的飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测与识别和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。OCR(Optical Character Recognition) , 光学字符识别,是指对输入的拍照或扫描图像进行分析处理,检测并识别出该图像当中的文本信息。而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。端到端场景文本检测与识别(End-to-end Scene Text Detection and Recognition),是将场景文本检测和场景文本识别结合成一个整体的系统,能够同时得到文本检测与识别的结果,这也是场景文本分析与处理的最终目标。近年来,随着深度学习的发展,端到端场景文本检测与识别技术取得了突破性的进展。 本文整理了六个常用于端到端场景文本检测与识别的数据集,分别为:SVT、ICDAR 2003、ICDAR 2011、ICDAR 2013、ICDAR2015、Total-Text。详细对比内容,包括语种,图片以及文本数量(训练/测试),标注类型以及下载链接等信息请详见资源链接。
本小节整理并对比了端到端场景文本检测与识别14篇重要论文,对比内容包括代码是否开源、方法分类、出处、时间等。
本小节整理了端到端场景文本检测与识别领域14篇重要论文的在不同类型数据集上的评估结果。详细内容请见资源链接。
本文总结了2012年以来在端到端场景文本检测与识别领域的14篇重要论文、6个常用数据集、5份论文开源代码、 49个实验结果以及超过200条统计信息。此外,我们还总结了部分企业提供的OCR服务软件。详细内容见下列github链接。Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection
Scene Text Recognition: https://github.com/HCIILAB/Scene-Text-Recognition
End-to-end Scene Text Detection and Recognition: https://github.com/HCIILAB/Scene-Text-End2end
作者/资源整理者介绍:
刘崇宇:华南理工大学电子与信息学院在读硕士生。
罗灿杰:华南理工大学电子与信息学院在读博士生。
免责声明:本文仅代表作者观点,不代表本公众号立场。
(长按识别上图二维码加关注)