查看原文
其他

论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别

江佳佳 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍发表在IJCV 2021的论文”Letter-Level Online Writer Identification”。笔迹识别是生物特征识别领域的一个重要分支,旨在通过笔迹来识别书写者的身份。现有的笔迹识别研究多是基于完整的文档或者文本行,这限制了笔迹识别技术在实际应用中的延展性和灵活性。所以文章关注了字母级别的联机笔迹识别任务,只需要少数手写字母的轨迹作为识别线索。由于手写字母的类内风格差异较大,文章利用多分支编码器来捕获不同风格,并引入了新型的归一化层和层次注意力池化模块来转化和聚合不同输入字母的特征。大量的对比实验也证明了该框架的有效性。 

图1 该文模型在LERID数据集上的笔迹识别效果图

一、研究背景



笔迹识别技术旨在通过手写样本,从给定的候选群体中识别出笔迹的书写者。笔迹识别是刑事司法系统、银行账户认证系统等安全领域的一项重要任务,是生物生理特征识别的重要补充方法,尤其是在其他设备不可用的情况下。智能手机等电子手写设备的流行,也促进了笔迹识别技术的发展和应用。然而,现有的笔迹识别技术局限于文本行或者文档级别的分析,需要长文本或完整的文档来进行识别,这限制了该技术的延展性和灵活性,从而阻碍了它的实际应用。例如,在智能手机上,手写篇幅级别的文档是非常不方便的。因此,研究字母级别的笔迹识别技术是具有重要意义的,可以进一步促进它的实际应用,只需要几个简单的手写字母就能实现笔迹识别。然而,手写字母存在明显的类内风格差异,同一书写者通常会写出带有不同速度、压力信息和形状结构的字母,所以字母级别的联机笔迹识别任务具有较大的挑战性。

二、方法原理简述



如图2所示,该文提出的模型框架主要由多分支编码器、归一化层和层次注意力池化层组成。文章利用多分支编码器,从输入的每个字母轨迹中捕获不同手写风格的特征,并利用字母和风格适配(Letters And Styles Adapter, LSA)模块来归一化不同的风格特征和筛选不同的字母特征,最后利用层次注意池化(Hierarchical Attention Pooling, HAP)模块来聚合丰富的中间特征。对于每个输入的字母轨迹,HAP模块融合了具有代表性的风格特征和时序特征。此外,该模块还根据每个手写字母的可靠性对所有输入字母的特征进行聚合,具体如下: 

图2 该文模型的结构概述

多分支编码器的主干网络是由一维卷积神经网络和长短时记忆网络组成的,分别负责提取字母序列的片段特征和长笔划特征。不同编码分支的学习方式不同,因此可以刻画不同的书写风格。通过不同分支的不同转换,可以将每个字母的手写风格拆分为N个不同的基本风格,其中每个特定的分支单独提取一种特定的风格特征。

LSA模块包含对特征分布的归一化操作和对不同字母的特征选择操作,将该模块置于卷积神经网络和长短时记忆网络之后,用于减少不同字母的书写风格差异。文章认为不同字母的不同书写风格的编码差异在于它们的特征分布差异,因此可通过特征分布归一化来减少风格方差。此外,由于不同的特征维度对区分不同的字母笔迹的作用不尽相同,因此文章针对不同字母的编码,赋予不同的可学习权重和可学习偏置。 

图3  HAP模块的结构示意图

HAP模块将代表不同字母和风格的丰富的中间特征聚合成一个紧凑的特征。它的结构如图3所示,包括风格注意力池化层、时序注意力池化层和字母注意力池化层。顾名思义,不同的注意力权重作用于不同的对象,但每个注意力权重都是通过VGG网络对静态字母图像的深度编码得到的。其工作流程具体如下:首先,HAP合并了输入字母轨迹的不同风格编码;然后进行时序注意力池化,选择不同的时序片段进行聚合;最后根据不同字母的可靠性,将所有输入字母的编码聚合成一个紧凑的特征向量。

三、主要实验结果



该论文使用了三个基准的手写字母数据集,包括经过剪切修改的IAM数据集、LetWriterDB数据集[1]及其扩增后的LERID数据集,性能评估标准采用的是Rank-1和Rank-5准确率。实验协议考虑了开集和闭集两种场景:1)闭集设置下,每位书写者的每种字母的样本按3:1被划分为训练集和测试集;2)开集设置下,随机选择314位书写者的样本进行训练,其余100位的样本用于测试。更多实验细节可详见原文,下面是一些实验结果。

表1、表2分别在闭集和开集设置下对比了该文模型和已有方法的笔迹识别结果。可以看到,与基于人工设计的传统模型相比,该文模型的表现更为出色,说明该模型可以捕获到更有利于字母笔迹识别的书写线索。与深度模型相比,该文模型的改进也很明显,这主要是因为该模型在LSA模块考虑了手写字母的类内风格差异和不同字母的特定特征,在HAP模块中利用注意力池化来保留重要的信息,同时削弱次要或异常的信息,并分层地聚合所有特征。

表1 在闭集设置下与已有方法的Rank-1准确率对比 
表2 在开集设置下与已有方法的准确率对比 

该文还做了丰富的消融实验,证明了LSA模块、HAP模块以及分支编码结构的有效性。表3给出了对LSA模块采用不同组合策略时的不同识别结果,可以看到该文采用的字母分离和风格分离的学习策略表现最好,结果提升了高达40%。在后续的多个鲁棒性测试实验中,作者还探索了关于字母组合、字母排列方式以及字母种类的不同实验设置,该模型依旧能保持良好且稳定的笔迹识别性能。

表3  对LSA模块采用不同组合策略的识别结果对比 

图4给出了一些示例样本的字母注意力权值的统计直方图,第一行是干净的数据,第二行是带有错误输入的噪声数据。该文的模型可以稳健地识别出图中字母样本的书写者,即使在带有错误字母的情况下,该模型也能通过分配较少的注意力权值而忽略错误的字母。 

图4 示例样本的字母注意力权值分布

四、总结和讨论



该文提出了一种新的深度框架,包括多分支编码器、字母和风格适配模块(LSA)和层次注意池化模块(HAP),可以实现字母级别的高精度笔迹识别,提高了笔迹识别技术的灵活性和实用性,例如在移动设备上的应用。此外,文章还提出了一个大规模的联机手写字母数据集LERID,便于对模型进行深入的评估。大量的实验表明,该文模型能够挖掘到有效的笔迹识别线索,并减轻了手写风格类内差异的影响。即使在只使用几个字母的设置下,该模型也能实现鲁棒且精确的笔迹识别。

参考资源



论文网址:
https://link.springer.com/article/10.1007/s11263-020-01414-y

参考文献



[1] Zelin C, Hong-Xing Y, Ancong W, et al. Level Writer Identification[C]// 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). 2018: 381-388.


原文作者: Zelin Chen, Hong-Xing Yu, Ancong Wu, Wei-Shi Zheng


撰稿:江佳佳

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存