查看原文
其他

论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)

黄家荣 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICDAR 2021录用的论文“SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text Recognition Models”的主要工作。该论文提出了一种新的文本图片合成方法——SynthTIGER。该合成方法在单一的算法框架下整合了有效的合成技术。同时,该论文还提出了两种算法分别解决文本长度上的长尾问题和训练集中的字符分布问题。通过实验,作者验证了SynthTIGER相较于先前的文本图片合成方法,在场景文本识别任务中表现更好。算法已经开源于,链接请见文末。

一、研究背景



在深度学习时代,通过使用大量文本图片进行训练,OCR模型获得了显著的性能提升。通过算法合成文本图片,能够在短时间内得到大量的训练数据。而获取同等数量的真实文本图片则需要花费大量的成本进行采集和标注。

该论文提出的文本图片合成方法是用于场景文本识别任务中的。场景文本识别任务的训练数据是包含若干个字符的文本行图像,该任务要求合成数据覆盖在现实世界中可能存在的各种样式和文本内容。

在先前的合成方法中比较经典的是MJ[1]和ST[2](这两种方法与SynthTIGER合成图片的对比如图1所示)。MJ是典型的文本行合成方法,在合成时不会像从场景图中直接裁切下来的文本行图片那样可能会引入额外的文本噪声。而ST可以合成包含多个文本行于一张图的场景文本图片,其裁切下来的文本行可能会引入来自于其他文本行的文本噪声。但是,由于ST需要选择特定的区域放置文本,因此文本的样式(如文本的大小)可能会受到限制。 

图1 不同文本合成方法的合成效果比较

该论文提出的SynthTIGER结合了MJ和ST的优势,在引入了文本噪声的同时文本的样式不再受到限制。使用SynthTIGER合成的数据训练识别器时,识别器的性能要比使用MJ或ST合成的数据训练的要好,同时性能也与MJ和ST合成数据联合训练处于同一水平。

该论文也提出了两种方法来缓解字符频率和文本长度在数据中出现偏斜分布的问题。

二、方法原理简述



图2 SynthTIGER渲染过程图示

SynthTIGER的渲染步骤如图2所示,下文将会对每个步骤进行介绍。

(a)文本形状选择:从字体库随机选择字体后,该步骤生成的文本排布方式分为两种:一种是字符从左到右排布,一种是抛物线曲线排布。

(b)文本样式选择:在字体颜色选择上,作者参考ST的方法,使用K-means聚类从真实文本行图片中收集文本颜色和背景颜色的搭配,作为选择文本颜色的依据。考虑到真实场景中的文本颜色并不是单一的,SynthTIGER还选择纹理填充文本。同时,文本的边框和阴影作者也有所考虑。

(c)变换:SynthTIGER主要提供了拉伸、梯形、倾斜和旋转四种变换方式,并随机选择文本距离边界的距离。

(d)融合:在融合阶段,算法需要得到前景文本、干扰文本和背景。前景文本和干扰文本通过前面的步骤生成,而背景生成是通过选择从颜色库和纹理库中随机选择颜色和纹理得到的。融合时,首先由背景和干扰文本融合得到新的背景,再将前景文本和新的背景融合。融合方法有正常、乘法、加网、叠加、强光、柔光、减淡、除法、加法、差值、仅变暗和仅变亮等。SynthTIGER还通过Flood-Fill算法来剔除掉文本和背景混淆的图片。

(e)后处理:SynthTIGER的后处理方法包括高斯噪声、高斯模糊、尺寸调整、中值模糊和JPEG压缩等。

SynthTIGER还提供了两种额外的策略来控制合成数据集的文本长度分布和字符分布。

文本长度分布控制策略是通过给定文本长度的分布,随机决定一个文本长度并随机采样一条文本。当文本长度超过预定时,截断文本;反之则重复采样文本拼接到原文本后面至长度大于等于预定长度,再进行截断。

字符分布控制策略通过给定字符出现概率的分布,随机决定一个字符,然后随机选择一个含有该字符的文本作为前景文本。

三、主要实验结果及可视化结果



1. SynthTIGER合成图片的可视化效果 

图3 SynthTIGER合成的图片

2. 与其他合成方法比较

论文选用BEST[3]作为场景文本识别模型,并只使用合成的图片进行训练。结果如表1,2所示。其中表1中各个数据集的图片数量分别为(从上到下)8.9M、7M、15.9M和10M,表2中各个数据集具有相同的(字体、纹理、颜色、语料)来源,且数据集图片数量均为10M。

表1 通过不同的合成数据集训练后,BEST的表现 
表2 控制来源和数据集大小相同后,不同合成方法合成的数据集在BEST上训练后的表现 

可以看到,SynthTIGER的表现要好于MJ和ST,和MJ+ST混合训练相当。

同时作者还尝试在两种不同类型的语言:拉丁类文字(字符类型较少)和日文(字符类型较多),并在场景识别和文档识别上进行比较,结果如表3所示。

表3 场景和文档图像的拉丁类文字和日文识别性能 

3. 消融实验

作者通过减少SynthTIGER中的某些合成函数,比较减少这些模块后对场景文本识别性能的影响,证明了各个合成函数的有效性。实验结果如表4。

表4 SynthTIGER中合成函数的减少对场景文本识别表现的影响 

4. 文本长度分布控制策略和字符分布控制策略的效果 

图4 文本长度分布与其在场景文本识别中的效果 

图5 字符出现概率分布与其在场景文本识别中的效果

如图4(a)和图5(a)所示,在使用了文本长度分布控制策略和字符分布控制策略后,这两个分布的偏斜程度得到了一定的缓解。

作者通过实验对这两个策略的使用频率进行选择,实验结果如表5、表6和图4(b)、图4(c)所示。加入两个策略后,在高频率区间的识别准确率基本与原来持平,而在低频率区间的识别准确率明显好于不加入这两个策略。

表4 使用文本长度分布控制策略频率不同时的识别准确率,Optimized表示使用验证集的长度分布 

表5 使用字符分布控制策略频率不同时的识别准确率 

四、总结及讨论



SynthTIGER与现有的合成数据集相比,在场景文本识别模型训练中取得了更好的表现,同时其合成函数的有效性也得到了验证。同时实验还表明该论文提出的文本长度分布控制策略和字符分布控制策略有助于学习更通用的场景文本识别模型。最后,作者通过提供开源合成引擎和新的合成数据集为OCR社区做出贡献。

五、相关资源



  • SynthTIGER论文地址:https://arxiv.org/pdf/2107.09313

  • SynthTIGER开源代码:
    https://github.com/clovaai/synthtiger

  • SynthTIGER公开的数据集:https://drive.google.com/drive/folders/1faHxo6gVeUmmFKJf8dxFZf_yRjamUL96?usp=sharing

参考文献



[1] Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition[C]//Neural Information Processing Systems, 2014.

[2] Gupta A, Vedaldi A, Zisserman A. Synthetic Data for Text Localisation in Natural Images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2315-2324.

[3] Baek J, Kim G, Lee J, et al. What is Wrong with Scene Text Recognition Model Comparisons? Dataset and Model Analysis[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 4715-4723.



原文作者: Moonbin Yim, Yoonsik Kim, Han-Cheol Cho, Sungrae Park


撰稿:黄家荣

编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存