ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
一、研究背景
艺术字是一种由设计师或艺术家精心设计的美化文字,由各种风格的字体结合文字效果,同时融合背景元素而形成的。艺术字广泛出现在广告、标语、杂志、贺卡、展览中。然而,艺术文字识别是一个被忽略的却极具挑战性的任务:① 字符外观随着不同的字体、艺术设计效果和形变而产生极大的变化;② 字符间存在很多复杂的连接和重叠,使得识别过程很难关注到每一个独立的字符或笔画;③ 艺术字设计往往融合了背景元素,导致识别受背景干扰严重。然而,现有的场景文字识别模型很难直接胜任这项任务,规则文字识别方法无法处理各种形变和艺术效果,基于矫正的方法只能处理文本行形变而非字符形变,基于注意力的方法无法获得艺术字符的准确位置。手写文字识别模型所处理的场景虽然存在各种字体和连笔,但其背景十分单一且没有艺术特效。因此,有必要设计模型以学习更加鲁棒的、更具表示性的视觉特征。
二、研究动机
鉴于上述问题,本文从三个层面建模图像特征。(1)字符内部局部特征:为了显式地建立字符的不变性特征,文中引入角点来抑制外观和形变,同时利用角点图的离散性切断字符间的连接和覆盖,利用稀疏性抑制背景干扰。
三、方法简述
给定一张图像,首先利用一个角点检测器生成一张角点图,然后分别送入两层卷积网络得到初级特征。一方面,图像的特征将通过多头自注意力机制进一步建模全局特征,另一方面,角点图的特征将通过多头交叉注意力机制与图像全局特征融合。编码器的输出和字符序列Embedding输入Transformer解码器获得特征序列,最终应用两个线性层分别计算两个损失。
1.角点引导的编码器
通常,对于一个特定字符,无论其外观发生怎么的变化,该字符的最关键的角点总是可以被检测到,而且角点之间形成的结构关系也总是相近的。这些点是图像中包含视觉信息最丰富的的位置。因此,本文利用角点图作为辅助输入提供一个不变性视觉特征。
具体地,对于输入图像,模型使用一个经典的角点检测器,Shi-Tomasi检测器生成角点图,该检测器改进了Harris Detector,可以提供更高质量更稳定的角点结果。角点图是一个和图像大小一致,单通道的稀疏矩阵,由大量0和少量1构成,其中值为1的位置表示该位置为角点。获得角点图后,考虑到角点间存在联系,首先使用卷积层建模角点之间的局部相关性,随后将角点和图像特征进行融合。文中采用了一种基于角点查询的交叉注意力机制,将图像特征作为Key和Value,将角点特征作为Query:
该方式可以让角点自动寻找它所感兴趣的图像特征点,让模型将更多的注意力集中于字符的位置。例如,对一个文本图像中的字符“A”,它的顶点的尖端位置更倾向于关注该字符的其他位置,而不是图像中的其他字符。
图4表明,引入该机制后,编码器可以准确地关注到每个字符的位置,尽管存在形变、连笔、弯曲等挑战,更重要的是,有时还可以关注到更加细粒度的特征比如字符笔画信息,尽管并没有提供任何字符级或笔画级的标注。
2.字符对比损失
艺术文字中同类字符的不同实例差异巨大,有必要在训练过程中为每一类字符学习一种统一的表示。受对比学习思想的启发,本文提出了一个字符对比损失(CC Loss),简言之,对于一个Minibatch中的一个字符,它的正样本为该Minibatch中与它同类别其他字符,负样本为其他不同类别的字符:
则模型完整的优化目标为:
图5表明,字符对比损失可以在特征空间中将每一类聚在一起,将不同类分离。
图5:编码器输出的字符特征分布
四、WordArt数据集
为了评估不同方法的艺术字识别性能,本文构建了一个艺术字识别数据集,包含6316张艺术字图像,其中训练集4804张,测试集1511张。图像来自海报、贺卡、封面、手写字等各种场景。
图6:WordArt数据集统计信息,(a) 包含不同文本长度的图片数量 (b) 数据集中全部字符的频率分布
五、实验结果
1.消融实验
为了验证模型中每一部分设计的有效性,文中实施了四组实验,分别验证角点图的有效性、不同角点检测器对性能的影响、不同融合策略的影响以及字符对比损失中超参数的影响。实验结果表明,在去掉角点分支且维持参数量不变的情况下、以及把角点分支的输入换成其他输入时,都会造成性能损失;使用不同的角点检测器会对结果造成轻微差异,但都好于不使用角点的情况,而且模型对角点检测的质量具有一定的鲁棒性;传统常用的融合方式并不能充分发挥角点的作用,而角点查询机制可以显著改善模型性能;字符对比损失可以显著改善识别性能,但不同的超参数对该损失函数的影响较大,文中选取了一组近似最优的参数设置。
2.艺术字识别结果
文中对比了CornerTransformer与若干代表性的文字识别方法,得益于基于角点的设计和提出的损失函数,该方法实现了最佳的识别准确率。由图7可以看出,一些困难的样例也可以被成功识别,如包含复杂字体、连笔、极度弯曲和形变的艺术字。
3.场景文字识别结果
为了进一步验证CornerTransformer的泛化性,本文在6个常用场景文字识别数据集上对比了十几种方法。值得一提的是,所提出的方法在SVT、SVTP、IC15上达到了SOTA的性能,这些数据集的共性是模糊、噪声严重、图像质量差,但是,基于梯度的角点检测对这些因素的干扰是鲁棒的。
六、总结
本文致力于艺术字识别这个新的挑战性任务,并提供了一个WordArt数据集。为了解决该任务面临的难点,作者引入了角点图作为一种鲁棒的表示,并设计了角点查询交叉注意力机制来让模型实现更准确的字符注意力。文章还提出了一个字符对比损失函数,来学习字符的不变性特征。实验结果表明了本文方法在艺术字和不规则、低质量场景文字识别中的优越性。作者希望WordArt数据集能够激励更先进的文字识别模型的出现,基于角点的设计可以为其他有挑战的识别任务提供灵感。
资源
代码和数据集链接:https://github.com/xdxie/WordArt
相关文献
原文作者:Xudong Xie, Ling Fu, Zhifei Zhang, Zhaowen Wang, and Xiang Bai
撰稿:谢旭东
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)
[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)
[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯