论文推荐|[ECCV2020]基于视觉特征匹配的自适应文本识别（有源码）

Original 张家鑫 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV 2020录用论文“Adaptive Text Recognition through Visual Matching”的主要工作。该论文来自大名鼎鼎的VGG实验室，它抛弃了现有主流识别模型基本框架，通过文本的视觉特征匹配来进行文本行识别。通过视觉匹配的方式，该模型比起其他主流识别模型具有更强的泛化性，可以较好地泛化到新的字体、新的语言，甚至可以不需要额外数据进行Fine-tuning.

一、研究背景

随着对于场景理解的需求不断增加，场景文本识别受到广泛的关注。近几年来，国内外学者对文本识别进行了大量的研究并取得了突破性的进展。现有的主流识别模型，已经证实了在很多场景下具有非常好的效果，但是这些模型的泛化能力（例如泛化到新的字体，新的语言）是不够强的，除非有足够数量的目标域数据进行Fine-tuning。该文章立足于上述难点，通过文本视觉匹配的方式，提出了一个泛化性能更强的文本识别模型。

二、原理简述

Fig.1. Overall architecture

Fig. 1是该文章的整体结构，主要分为两个部分：第一部分（Encoder）提取出模板文本和输入文本的特征，在特征层面计算输入文本与模板文本的相似性矩阵；第二部分（Decoder）分为两步，首先通过Similarity Disambiguation模块对Encoder中得到的相似性矩阵进行歧义消除，然后使用Class Aggregator将相似度矩阵映射成概率矩阵进行文本行的输出。以下我将具体介绍每一个模块的具体细节。

Encoder

假定输入待识别文本为，输入模板中的每个字符为并堆叠成为了。通过一个共享的卷积神经网络提取出输入文本和模板文本的特征分别为，其中，指代该卷积神经网络而指代其下采样步长。输入文本与模板文本的每一个特征向量之间都依下述公式计算一次Cosine相似性，得到如图的相似性矩阵。

Similarity Disambiguation

由Encoder获得的相似性矩阵过于粗糙，直接用于预测输出概率矩阵会影响最终的结果，因此作者对相似性矩阵进行歧义的消除。由于在特定的语言中，字符的宽高比往往是一致的，因此由于模板文本和输入文本高度一致，那么他们相同字符的宽度也就应该一致，因此在相似性矩阵中，作者认为对应字符的相似性应该是一个方形的高亮区域。因此作者将字符宽度、位置编码以及Encoder得到的相似性矩阵整合起来，通过多层感知器和几层Self-Attention进行相似性矩阵的增强，也就是获得一个歧义性消除的相似性矩阵。

Class Aggregator

消除了歧义的相似性矩阵需要转换成为关于类别的概率矩阵来进行最后的文本行预测。因此作者根据模板文本的字符分布构建了一个转换矩阵，其中是字符的类别数，，值为1的区域是代表第个字符的理论覆盖区域。最后通过就可以得到关于类别的概率矩阵。

Training

模型训练的损失函数主要由关于输出概率矩阵的CTC Loss和关于相似性矩阵的交叉熵损失函数组成，并在λ = 1的情况下进行训练。

三、数据集的构建和主要实验结果分析

数据集的构建

1、FontSynth：

搜集MJSynth[2]数据集中用到的1400个字体，按其命名分为Regular、Bold、Italic、Light四类，剩余的字体划分为第五类，前四类字体用来合成训练集，第五类字体用来合成测试集，可视化效果如Fig.2所示。

Fig. 2. FontSynth splits

2、Omniglot-Seq：

一种有50个字母表的非拉丁文字，共计有1623个字符，每个字符由20个不同书写者书写。作者用30个字母表数据作为训练集，其余20个字母表数据做为测试集。

Fig. 3. Omniglot-Seq

3、 Google1000

ICDAR2007年文档OCR的标准数据集，包含有英语、法语、意大利语、西班牙语，版面伴随有退化、模糊、阴影、墨迹、倾斜等情况。这个数据集全部用在测试。

Fig. 4. Google1000 printed books dataset

主要实验结果分析

Table 1 Model component analysis

Table1的实验验证了模型中各个组件在不同大小训练集下的有效性。

Table 2 Generalization to novel fonts with/without known test glyphs and increasing number of training fonts. R, B, L and I correspond to the FontSynthtraining splits; OS stands for the Omniglot-Seq dataset。

注：表中参考文献参见原文。

在Table2中，R,B,L,I,OS分别代表不同字体风格的字体分组。消融实验以训练数据字体的逐渐丰富来进行，并与目前SOTA的文本识别方案进行比较。作者指出，SOTA方案使用R+B+L+I四组数据训练的CER与作者方案仅用R一组数据训练的效果是差不多的，作者以此表示自己所提的模型泛化能力更强；作者在加入非拉丁数据集OS进行训练的情况下，模型的性能还能进一步提升，作者以此证明他的模型是可以用无关的语种数据来训练的。表格的最后一行汇报的是作者使用测试集字体合成模板字体进行视觉特征匹配的效果，而倒数第二行汇报的是使用训练集字体合成模板字体进行视觉特征匹配的效果。作者指出这两组实验的效果在CER上是相近的，以此证明模型不需要额外的测试集信息就能有很强的泛化性。

Fig. 5. Cross matching on FontSynth

Fig.5中，通过不断累加训练数据，在所有字体风格的测试集上，CER都呈递减的趋势。对于固定数量的训练集，在不同字体风格测试集上的CER都是接近的。作者以此说明模型对于字体风格这项属性是不敏感的。

Table 3 Generalization from synthetic to real data

注：表中参考文献参见原文。

Table 3中是作者的方案与其他SOTA方案在合成数据上训练，在Google1000数据集上测试的实验结果。LM指代是否使用语言模型。实验证明作者的模型在Google1000数据集上的泛化性更强，且能应对版面退化、模糊、阴影、墨迹、倾斜等情况。

Fig. 6. Transfer to novel alphabets in Google1000

Fig.6中，作者在英文场景合成数据R+I+B+L以及非拉丁字符OS中训练自己的模型和基于CTC的SOTA文本识别模型。并将测试集设置为其他的语言，例如法语、意大利语、西班牙语。作者所提出的模型并不需要额外的数据进行Fine-tuning，仅需要有一个新的字母表来合成对应的模板文本。而基于CTC的SOTA文本识别模型，每个字符则需要至少5张（意大利语）、至多16张（法语）来Fine-tuning才能达到差不多的效果。作者以此证实了模型在语种间的泛化能力。

最后，作者在英文场景合成数据R+I+B+L以及非拉丁字符OS中训练自己的模型以及其他SOTA文本识别模型，在非拉丁字符数据集OS上进行测试。实验表明其他SOTA的模型并不能得出合理的结果，而作者所提出的模型可以达到CER=1.8%/7.9%,WER=7.6%/31.6% (With LM/Without LM)的效果，证实了作者的模型甚至可以泛化到非拉丁语系中。

四、总结及讨论

作者所提方案可以很好地泛化到新的视觉风格场景中（例如新的字体、新的背景、新的颜色），也不受限于一个固定字母表或者固定语种。其在新的字体风格场景、新的语言场景中具有比其他SOTA方案更强的鲁棒性；
作者所提方案通过视觉特征的匹配进行文本识别，甚至可以利用特殊字符、非拉丁语系字符来训练；
作者所提方案可以较好地迁移到新的语种中，而无需额外的数据Fine-tuning，只需要提供对应语种字符表的模板文本。

五、相关资源

MJSynth论文地址：https://arxiv.org/pdf/1406.2227.pdf.
Adaptive Text Recognition through Visual Matching论文、代码、数据、模型地址：http://www.robots. ox.ac.uk/~vgg/research/FontAdaptor20/.

参考文献

[1] Zhang, Chuhan, Ankush Gupta, and Andrew Zisserman. "Adaptive Text Recognition through Visual Matching." European Conference on Computer Vision. Springer, Cham,2020.

[2] Jaderberg, M., Simonyan, K.,Vedaldi, A., Zisserman, A.: Synthetic data and artifificial neural networks for natural scene text recognition. In: Workshop on Deep Learning, NIPS (2014).

原文作者:Chuhan Zhang, Ankush Gupta, AndrewZisserman

撰稿：张家鑫

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

论文推荐|[ECCV2020]基于视觉特征匹配的自适应文本识别（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

生成图片，分享到微信朋友圈

论文推荐|[ECCV2020]基于视觉特征匹配的自适应文本识别（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣