论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
本文简要介绍发表在IJCV 2021的论文”Letter-Level Online Writer Identification”。笔迹识别是生物特征识别领域的一个重要分支,旨在通过笔迹来识别书写者的身份。现有的笔迹识别研究多是基于完整的文档或者文本行,这限制了笔迹识别技术在实际应用中的延展性和灵活性。所以文章关注了字母级别的联机笔迹识别任务,只需要少数手写字母的轨迹作为识别线索。由于手写字母的类内风格差异较大,文章利用多分支编码器来捕获不同风格,并引入了新型的归一化层和层次注意力池化模块来转化和聚合不同输入字母的特征。大量的对比实验也证明了该框架的有效性。
一、研究背景
二、方法原理简述
如图2所示,该文提出的模型框架主要由多分支编码器、归一化层和层次注意力池化层组成。文章利用多分支编码器,从输入的每个字母轨迹中捕获不同手写风格的特征,并利用字母和风格适配(Letters And Styles Adapter, LSA)模块来归一化不同的风格特征和筛选不同的字母特征,最后利用层次注意池化(Hierarchical Attention Pooling, HAP)模块来聚合丰富的中间特征。对于每个输入的字母轨迹,HAP模块融合了具有代表性的风格特征和时序特征。此外,该模块还根据每个手写字母的可靠性对所有输入字母的特征进行聚合,具体如下:
图2 该文模型的结构概述
多分支编码器的主干网络是由一维卷积神经网络和长短时记忆网络组成的,分别负责提取字母序列的片段特征和长笔划特征。不同编码分支的学习方式不同,因此可以刻画不同的书写风格。通过不同分支的不同转换,可以将每个字母的手写风格拆分为N个不同的基本风格,其中每个特定的分支单独提取一种特定的风格特征。
LSA模块包含对特征分布的归一化操作和对不同字母的特征选择操作,将该模块置于卷积神经网络和长短时记忆网络之后,用于减少不同字母的书写风格差异。文章认为不同字母的不同书写风格的编码差异在于它们的特征分布差异,因此可通过特征分布归一化来减少风格方差。此外,由于不同的特征维度对区分不同的字母笔迹的作用不尽相同,因此文章针对不同字母的编码,赋予不同的可学习权重和可学习偏置。
图3 HAP模块的结构示意图
三、主要实验结果
该论文使用了三个基准的手写字母数据集,包括经过剪切修改的IAM数据集、LetWriterDB数据集[1]及其扩增后的LERID数据集,性能评估标准采用的是Rank-1和Rank-5准确率。实验协议考虑了开集和闭集两种场景:1)闭集设置下,每位书写者的每种字母的样本按3:1被划分为训练集和测试集;2)开集设置下,随机选择314位书写者的样本进行训练,其余100位的样本用于测试。更多实验细节可详见原文,下面是一些实验结果。
表1、表2分别在闭集和开集设置下对比了该文模型和已有方法的笔迹识别结果。可以看到,与基于人工设计的传统模型相比,该文模型的表现更为出色,说明该模型可以捕获到更有利于字母笔迹识别的书写线索。与深度模型相比,该文模型的改进也很明显,这主要是因为该模型在LSA模块考虑了手写字母的类内风格差异和不同字母的特定特征,在HAP模块中利用注意力池化来保留重要的信息,同时削弱次要或异常的信息,并分层地聚合所有特征。
该文还做了丰富的消融实验,证明了LSA模块、HAP模块以及分支编码结构的有效性。表3给出了对LSA模块采用不同组合策略时的不同识别结果,可以看到该文采用的字母分离和风格分离的学习策略表现最好,结果提升了高达40%。在后续的多个鲁棒性测试实验中,作者还探索了关于字母组合、字母排列方式以及字母种类的不同实验设置,该模型依旧能保持良好且稳定的笔迹识别性能。
图4给出了一些示例样本的字母注意力权值的统计直方图,第一行是干净的数据,第二行是带有错误输入的噪声数据。该文的模型可以稳健地识别出图中字母样本的书写者,即使在带有错误字母的情况下,该模型也能通过分配较少的注意力权值而忽略错误的字母。
四、总结和讨论
参考资源
https://link.springer.com/article/10.1007/s11263-020-01414-y
参考文献
原文作者: Zelin Chen, Hong-Xing Yu, Ancong Wu, Wei-Shi Zheng
撰稿:江佳佳
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: