查看原文
其他

论文推荐|[ICCV 2019] CSVT: 大规模弱标注中文场景文本数据集及一种新的弱监督端到端文本识别新方法

刘家铭、孙逸鹏 CSIG文档图像分析与识别专委会 2022-07-11

本文介绍来自百度的一篇ICCV 2019论文“Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning”。该论文主要针对中文场景文字数据标注难、成本高的问题,构建一个新的大规模中文街景集合,包括部分精标注+大量弱标注的场景文字数据,同时设计全监督+弱监督的部分监督端到端文字识别算法,性能超越全监督端到端训练方法,同时大幅降低额外训练数据标注成本。对该集合进一步扩充后的ICDAR 2019-LSVT竞赛集合及榜单已开放,开发者可直接提交新结果进行榜单评测更新。


1、研究背景 

计算机视觉领域场景文字识别是重要的AI技术之一,打通了图像和文本的信息鸿沟,拥有广泛的应用场景和使用价值,近些年来受到学术界和工业界的广泛关注。现有学术界研究方法主要以研究英文文字检测识别为主,在视觉技术领域,东方文字,例如:中文场景文字识别问题尚未得到充分研究和关注。现有业界最好的文字检测识别方法应用中文文字识别场景,存在明显的性能效果损失现象。由于中文场景词表规模远大于拉丁字符类别,训练数据中大部分类别样本数量有限,同时不同类别之间存在长尾分布不均的问题,因此,中文文字识别需要更多的训练样本,具有极大的识别难度和挑战。标注困难高成本问题制约了真实场景数据的大规模扩增及数据训练。

针对上述问题,围绕中文大类别识别场景,我们引入弱标注数据的概念,针对街景场景只标注关键词信息,忽略非重要信息而无需精确位置标注,克服大量全监督训练数据标注高成本、低效率问题。

1)我们构建一个新的大规模中文街景文字数据集(C-SVT),总计43万张街景图片数据,其中包括3万张精标(标注所有文字框的位置+文字内容)和40万弱标注数据(仅标记图片中感兴趣文字内容),数据量是已有公开中文场景文字集的14倍及以上。

2)针对部分监督训练问题,本文提出一种端到端-部分监督学习算法,实现端到端中文场景文字识别。 充分利用大类弱标注数据,设计在线匹配模块在弱标注图片中定位匹配度最大的候选文字框,实现精标注、弱标注数据同时端到端训练。

3)基于端到端-部分监督学习方法,弱标注成本是精标注的1/90。弱标注数据量从零扩增到40万,CSVT测试集上单模型平均编辑距离AED错误率相对降低20%,显著优于全监督端到端训练效果。同时,端到端部分监督学习算法ICDAR2017-RCTW中文数据集、ICDAR2015公开英文数据集上,端到端评测单模型效果取得SOTA结果。 


图1 全监督端到端(End2End)vs. 部分监督端到端识别(End2End-PSL)
 
2、中文街景数据集CSVT 

数据集分包括3万精标注及40万弱标注数据。在完整标注部分中,所有词条的水平词条、竖直词条位置标注为四点,所有弯曲文字标注为多边形,采用多点进行位置标注。


图2 精标注样本示例(4点/多点位置标注 + 文字内容)

图3 弱标注样本示例(只标注关键信息文字,例如:地标名称,无需位置标注)

 
精标注数据按4:1:1 比例划分出训练、校验及测试集,其中水平、竖直、弯曲任意形状文字条的比例保持接近,同时类别间分布也保持接近。详细统计如表1所示。在部分标注样本中包括中文字符500万余个,可用来提升端到端的模型识别效果。

表1 精标注部分数据划分及统计信息


表2 文字识别数据集对比 


3、部分监督学习的端到端文字识别 
为了公平体现出基于弱监督的部分监督训练相比全监督端到端识别的收益,我们将简单易用的端到端全监督框架作为Baseline基准,包括:ResNet-50+FPN共享特征作为多任务训练主干,4点FCN位置回归作为检测分支,获取文字候选Proposal位置。通过透视RoI变换操作从主干特征中的文字Proposal区域变换为高度固定、变长的特征图,作为RNN+Attention序列识别分支的输入。对于弱监督数据,通过设计在线候选匹配Online Proposal Matching(OPM)分支计算给定的弱标GT文字与后续区域特征的相似度,对匹配度最大的候选特征Proposal计算识别Loss,得到弱标注样本的识别分支Loss为,实现弱标注数据训练过程中的反向计算。


图4 部分监督学习的端到端文字识别训练框架(左图);在线候选匹配模块OPM(右图所示).
 
最终将全监督训练部分Loss和弱监督部分进行累加得到,完成对整个部分监督训练网络Loss优化

更复杂的主干网络、精度更高的检测分支、识别分支特征增强都可以直接在该框架中直接升级,获得额外的叠加效果收益。

4、实验结果及可视化结果 
C-SVT数据集上评估现有算法性能,结果如下表所示。其中‘End2End-PSL’指提出的部分监督端到端学习算法,随着更多弱标注数据加入,端到端平均编辑距离AED从19.68降低到17.59。在考虑标注成本情况下,400k弱标数据成本与4.4k精标注成本相当,对比增加400k弱标数据及4.4k精标数据,部分监督端到端‘End2End-PSL’相比全监督‘End2End’识别端到端F-score提升4.03%,平均编辑距离AED绝对降低1.47。 

表3 CSVT数据集结果对比


图5 全监督端到端(第一行:End2End)vs. 部分监督端到端识别效果(第二行:End2End-PSL)

图6 绿色框为给定GT弱标输入时正确匹配到的文字框,红色框为未匹配到的文字候选框.
 
在ICDAR2017-RCTW中文数据集上,端到端模型通过部分监督学习方法在端到端效果上可以进一步提升,如表3所示。‘End2End-PSL’相比‘End2End’平均编辑距离AED指标上绝对降低3.3。多尺度测试降低到22.1,取得公开单模型SOTA效果。

表4 ICDAR 2017-RCTW数据集结果对比
 
端到端部分监督训练算法同样在英文集合也有明显收益,在ICDAR 2015英文数据上,采用ICDAR 2015训练集作为精标数据,将COCO-Text作为弱标训练数据(存在较多标注错误,原始位置标注不精确,弱标注训练无需位置信息),单模型单尺度效果在检测、端到端识别上都有明显提升达到SOTA效果。 

表5 ICDAR 2015数据集结果对比


5、总结 
本文建立了一个新的大规模中文街景数据集C-SVT,首次提出部分监督文字数据标注概念,数据规模业界最大。为了扩增真实训练样本量同时保持标注成本可控,采用弱标注方式标注400k张样本,并提出一种部分监督学习的端到端文字识别可训练方法,可在线挖掘弱标注数据实现精标+弱标数据在一个网络中的同步训练。C-SVT数据上的部分监督训练效果明显优于端到端全监督训练效果,在ICDAR2017-RCTW、ICDAR 2015中英文公开集合取得单模型SOTA效果。
 
六、相关资源

论文地址:Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, https://arxiv.org/abs/1909.07808

 

七、ICDAR 2019数据集 
[1] CSVT数据集是ICDAR 2019-LSVT大规模街景文字竞赛的子集,LSVT进一步扩增精标数据到5万,数据集下载、榜单提交结果地址 http://rrc.cvc.uab.es/?ch=16
[2] Y. Sun, et al,ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral, https://arxiv.org/abs/1909.07145 
[3] ICDAR 2019-ArT任意形状文字集中的中文部分数据来自CSVT数据集,竞赛数据下载、榜单提交结果地址见http://rrc.cvc.uab.es/?ch=14
[4] C. Chng, et al, ICDAR 2019 Robust Reading Challenge on Arbitrary-Shaped Text-ArT,in Prof. of ICDAR 2019 Oral, https://arxiv.org/abs/1909.07741
 
参考文献 

[1] Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri, Yixuan Li, Ashwin Bharambe, and Laurens van der Maaten. Exploring the limits of weakly supervised pretraining. ECCV, 2018.

[2] Xinyu Zhou, et al. EAST: An efficient and accurate scene text detector. In Proc. of CVPR, 2017

[3] Baoguang Shi et al. ICDAR2017 competition on reading Chinese text in the wild (RCTW-17). ICDAR, 2017.

[4] Xuebo Liu et al. FOTS: Fast oriented text spotting with a unified network. In Proc. of CVPR, 2018 



     撰稿:刘家铭、孙逸鹏

编排:高 学

审校:殷 飞

 发布:金连文 


免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (投稿邮箱:xuegao@scut.edu.cn)。




(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存