论文推荐|[ECCV2020]基于视觉特征匹配的自适应文本识别(有源码)
Fig. 1是该文章的整体结构,主要分为两个部分:第一部分(Encoder)提取出模板文本和输入文本的特征,在特征层面计算输入文本与模板文本的相似性矩阵;第二部分(Decoder)分为两步,首先通过Similarity Disambiguation模块对Encoder中得到的相似性矩阵进行歧义消除,然后使用Class Aggregator将相似度矩阵映射成概率矩阵进行文本行的输出。以下我将具体介绍每一个模块的具体细节。
Encoder
假定输入待识别文本为
Similarity Disambiguation
由Encoder获得的相似性矩阵过于粗糙,直接用于预测输出概率矩阵会影响最终的结果,因此作者对相似性矩阵进行歧义的消除。由于在特定的语言中,字符的宽高比往往是一致的,因此由于模板文本和输入文本高度一致,那么他们相同字符的宽度也就应该一致,因此在相似性矩阵中,作者认为对应字符的相似性应该是一个方形的高亮区域。因此作者将字符宽度、位置编码以及Encoder得到的相似性矩阵整合起来,通过多层感知器和几层Self-Attention进行相似性矩阵的增强,也就是获得一个歧义性消除的相似性矩阵
Class Aggregator
消除了歧义的相似性矩阵需要转换成为关于类别的概率矩阵来进行最后的文本行预测。因此作者根据模板文本的字符分布构建了一个转换矩阵
Training
模型训练的损失函数主要由关于输出概率矩阵的CTC Loss和关于相似性矩阵
数据集的构建
搜集MJSynth[2]数据集中用到的1400个字体,按其命名分为Regular、Bold、Italic、Light四类,剩余的字体划分为第五类,前四类字体用来合成训练集,第五类字体用来合成测试集,可视化效果如Fig.2所示。
一种有50个字母表的非拉丁文字,共计有1623个字符,每个字符由20个不同书写者书写。作者用30个字母表数据作为训练集,其余20个字母表数据做为测试集。
ICDAR2007年文档OCR的标准数据集,包含有英语、法语、意大利语、西班牙语,版面伴随有退化、模糊、阴影、墨迹、倾斜等情况。这个数据集全部用在测试。
主要实验结果分析
Table1的实验验证了模型中各个组件在不同大小训练集下的有效性。
在Table2中,R,B,L,I,OS分别代表不同字体风格的字体分组。消融实验以训练数据字体的逐渐丰富来进行,并与目前SOTA的文本识别方案进行比较。作者指出,SOTA方案使用R+B+L+I四组数据训练的CER与作者方案仅用R一组数据训练的效果是差不多的,作者以此表示自己所提的模型泛化能力更强;作者在加入非拉丁数据集OS进行训练的情况下,模型的性能还能进一步提升,作者以此证明他的模型是可以用无关的语种数据来训练的。表格的最后一行汇报的是作者使用测试集字体合成模板字体进行视觉特征匹配的效果,而倒数第二行汇报的是使用训练集字体合成模板字体进行视觉特征匹配的效果。作者指出这两组实验的效果在CER上是相近的,以此证明模型不需要额外的测试集信息就能有很强的泛化性。
Fig.5中,通过不断累加训练数据,在所有字体风格的测试集上,CER都呈递减的趋势。对于固定数量的训练集,在不同字体风格测试集上的CER都是接近的。作者以此说明模型对于字体风格这项属性是不敏感的。
Table 3中是作者的方案与其他SOTA方案在合成数据上训练,在Google1000数据集上测试的实验结果。LM指代是否使用语言模型。实验证明作者的模型在Google1000数据集上的泛化性更强,且能应对版面退化、模糊、阴影、墨迹、倾斜等情况。
Fig.6中,作者在英文场景合成数据R+I+B+L以及非拉丁字符OS中训练自己的模型和基于CTC的SOTA文本识别模型。并将测试集设置为其他的语言,例如法语、意大利语、西班牙语。作者所提出的模型并不需要额外的数据进行Fine-tuning,仅需要有一个新的字母表来合成对应的模板文本。而基于CTC的SOTA文本识别模型,每个字符则需要至少5张(意大利语)、至多16张(法语)来Fine-tuning才能达到差不多的效果。作者以此证实了模型在语种间的泛化能力。
最后,作者在英文场景合成数据R+I+B+L以及非拉丁字符OS中训练自己的模型以及其他SOTA文本识别模型,在非拉丁字符数据集OS上进行测试。实验表明其他SOTA的模型并不能得出合理的结果,而作者所提出的模型可以达到CER=1.8%/7.9%,WER=7.6%/31.6% (With LM/Without LM)的效果,证实了作者的模型甚至可以泛化到非拉丁语系中。
作者所提方案可以很好地泛化到新的视觉风格场景中(例如新的字体、新的背景、新的颜色),也不受限于一个固定字母表或者固定语种。其在新的字体风格场景、新的语言场景中具有比其他SOTA方案更强的鲁棒性;
作者所提方案通过视觉特征的匹配进行文本识别,甚至可以利用特殊字符、非拉丁语系字符来训练;
作者所提方案可以较好地迁移到新的语种中,而无需额外的数据Fine-tuning,只需要提供对应语种字符表的模板文本。
MJSynth论文地址:https://arxiv.org/pdf/1406.2227.pdf. Adaptive Text Recognition through Visual Matching论文、代码、数据、模型地址:http://www.robots. ox.ac.uk/~vgg/research/FontAdaptor20/.
原文作者:Chuhan Zhang, Ankush Gupta, AndrewZisserman
审校:殷 飞
发布:金连文
论文推荐|[ECCV 2020] 文本检测识别中的字符区域注意力机制(有源码) 论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别 论文推荐|[IEEE TIP 2020]EraseNet:端到端的真实场景文本擦除方法 演讲录播 | 文本检测与识别再思考【CSIG-DIAR 2020学术年会系列报道6】 演讲录播 | 通用文档理解预训练模型【CSIG-DIAR 2020学术年会系列报道5】 演讲录播 | 基于编码-解码模型的数学公式识别研究【CSIG-DIAR 2020学术年会系列报道4】 论文推荐|[ICFHR 2020] 基于风格GAN联机手写样本合成数据增广的手写OCR性能改进方法 演讲录播 | 文字图像图形生成技术研究进展【CSIG-DIAR 2020学术年会系列报道3】 论文推荐|[SIGGRAPH 2020] Attribute2Font:从属性创建所需的字体 演讲录播 | 2020年场景文字那些事【CSIG-DIAR 2020学术年会系列报道2】
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)