查看原文
其他

论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)

赖松轩、江佳佳 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍TPAMI 2021录用论文”SynSig2Vec: Forgery-free Learning of DynamicSignature Representations by Sigma Lognormal-based Synthesis and 1D CNN”,该论文针对联机签名认证任务中伪造签名数据难以收集的问题,提出了一个基于合成样本进行特征学习(Learning-by-synthesis)的动态签名认证方法:SynSig2Vec。该方法根据书写运动学理论,基于模板签名合成出不同形变程度的签名样本,并提出了一种有效的卷积神经网络签名特征表达模型Sig2Vec来提取签名的定长特征表示,然后通过优化签名相似度排序的平均准确率(Average Precision,AP)指标进行特征学习。SynSig2Vec方法在MCYT-100和SVC-Task2两个业界广泛采用的基准数据集上大幅度降低了认证错误率,并在目前最大的公开联机签名认证数据集DeepSignDB[1]上取得最为领先的结果。该方法的一个亮点是即使没有使用任何伪造签名训练数据(负样本),但相比于目前使用伪造训练数据的其它SOTA方法,SynSig2Vec仍能保持较大性能优势。论文方法代码已开源,下载链接见文末。

图1 SynSig2Vec进行动态签名特征学习的示意图

一、研究背景



手写签名是社会认可度最高、应用最为广泛的身份认证方式,在行政管理、银行办公等场景中十分常见。手写签名认证研究的一个最大难点在于伪造签名攻击(skilled forgery attacks),即他人刻意伪造某一用户的签名以实施诈骗。随着深度学习的发展,联机签名认证方法开始逐步从基于特征工程与模板匹配的方法向深度学习方法过渡[2][3],在降低伪造签名认证错误率方面取得了一定进展。然而,这些方法存在着几点不足。首先,它们需要伪造签名作为训练数据。我们理应知道,手写签名作为一种生物信息以及个人隐私数据,其采集十分困难;伪造签名的采集,更是需要书写者反复练习其需要仿造的签名,成本十分昂贵。因此,利用伪造签名作为训练数据不具备可拓展性。其次,这些方法缺乏一个合适的数据增广方式。常规的数据增广方式,例如仿射变换等,无法对联机签名的动态特性做出合理调整,也无法反映实际签名过程的固有变化。此外,目前的损失函数没有考虑细粒度的相似度信息,制约着特征学习的有效性。该论文针对上述存在的问题,提出了SynSig2Vec的解决方案。

二、方法原理简述



联机签名合成的关键在于书写运动学理论及其Sigma Lognormal模型[4]。该理论认为,人的神经肌肉系统具有对数高斯脉冲响应;当人在进行快速书写的时候,笔尖的速度由一系列对数高斯信号叠加而成,其中每个信号由6个参数进行控制。如图2所示,一个联机签名的速度信号可以分解为多个对数高斯信号;通过算法获取对数高斯信号的参数之后,可以重构出原始的速度和轨迹信息。通过对参数引入适当程度的扰动,则可以实现签名的合成。参数的扰动范围通过视觉图灵测试和一些初步实验确定。

图2 联机签名可分解为多个对数高斯信号,并借由其参数实现重构 

该论文利用合成签名进行特征学习的关键思路如下。对于一个给定的真实签名样本,可以选取两个不同的参数扰动范围,从而生成如图3所示的两组不同形变程度的合成签名。显然地,高形变程度的签名(称为G2)与原始签名相似度较低,低形变程度的签名(称为G1)与原始签名相似度则较高,可以分别将其视为仿造签名和数据增广后的真签名。利用这个信息,便可以使用测度学习、孪生网络等学习方法。为了充分利用细粒度的签名相似度信息,SynSig2Vec提出使用排序学习的方法进行特征学习,并优化签名相似度排序的AP指标。这么做的好处有两点,一是可以在排序列表中保留和利用相对的相似度信息,不易过拟合,二是AP指标与认证性能直接相关,优化AP指标能够提升认证性能。由于AP指标对于神经网络参数不可微,该论文借助了[4]中提出的广义梯度理论计算近似梯度。

图3 不同模板签名的合成样本的可视化结果,  每个方框里的每行依次为模板签名、G1、G2) 


Sig2Vec特征提取过程如图4所示,论文设计了6层的一维卷积网络对签名序列进行初步的特征提取和跨层的特征聚合,接着利用选择性池化(Selective Pooling,SP)模块从卷积层任意长度的输出中提取固定长度的特征向量。相比于循环神经网络(RNN)和动态时间规整算法(DTW),一维卷积网络更能够节省特征提取过程的时间。SP模块受启发于多头注意力机制[6],将输入映射到维的子空间(记为SP)),并为每个子空间设置一个可学习的查询参数,来引导注意机制的作用过程。SP模块可以根据上下文信息为不同位置分配不同的权重,并利用不同的子空间捕获签名不同局部结构的属性(如图5所示)。除了优化AP指标,文中还优化签名分类交叉熵损失函数。前者目的在于提升对于仿造签名的认证性能,后者目的则在于提升对于随机假签名的认证性能。

图4 Sig2Vec特征提取模型的结构图

三、主要实验结果



该论文使用了DeepSignDB、MCYT-100和SVC-Task2基准数据集,并在DeepSignDB上训练Sig2Vec模型;测试时录入1个或4个真实签名作为参照样本(1vs1和4vs1),考虑不同的伪造签名类型(熟练伪造和随机伪造)和不同的手写输入场景(Stylus:手写笔输入;Finger:手指输入),以认证等错误率为性能评价指标,依次探究了签名合成、AP损失函数、SP模块的有效性。

表1 Stylus场景下是否引入合成签名结果对比

表2 Finger场景下是否引入合成签名结果对比
首先,基于AP损失函数,为了探究签名合成的有效性,论文对比了如下三种情形:1.G1为真实签名,G2为伪造签名;2.G1G2均为合成签名,并引入合成的抬笔轨迹(pen-ups,详见[7]);3.G1G2均为合成签名,不引入合成的抬笔轨迹。实验结果如表1、表2所示:合成签名和真实采集的签名对于特征学习来说是同样有效的,原因在于,合成签名能够反映真实书写过程中神经肌肉系统的固有变化;此外,在有可靠的抬笔轨迹信息时,合成虚拟的抬笔轨迹对认证效果的提升是有帮助的。


其次,基于真实签名或合成签名,分别使用AP、BCE、Triplet损失函数进行特征学习。在整个DeepSignDB上的实验结果如表3所示:在熟练伪造场景中,AP损失都能够取得更低的认证错误率,这说明它能学到更为有效的特征。当用真实的手写签名训练Sig2Vec时,AP损失会提高随机伪造场景的等错误率结果;当使用合成签名训练Sig2Vec时,AP损失则对结果影响不大,这是因为G2中的合成签名总是“熟练的”,而一些真实的手写伪造签名却不那么熟练,可以被认为是简单的随机伪造样本。 

表3 AP、BCE与Triplet损失函数的对比

表4 SP模块和平均池化的对比

此外,论文还对比了平均池化和不同设置下的SP模块对认证结果的影响。实验结果如表4所示,在熟练和随机伪造场景中,SP模块都比平均池化操作取得了更好的效果,更大的子空间数目也可以提高性能。图5展示了对第二个SP模块的注意力权重的可视化结果,注意力权重较大的位置用较深色的点进行标记,可以观察到,不同的子空间捕获到了签名轨迹不同局部结构的属性。此外,论文还利用距离鉴别比对SP模块学习到的表征的鉴别能力进行了探究,验证了SP模块的有效性;并对样本进行了错误分析,发现当模板签名的持续时间较短时,错误分类的情形会发生得更频繁,这也印证了简单的签名更容易被模仿的直觉。


图5 第二个SP模块的注意力权重的可视化结果 

论文还对比了Stylus、Finger场景下DTW(经典的传统方法), TA-RNN(SOTA的深度模型)和SynSig2Vec在DeepSignDB上的认证结果,手写笔输入场景和手指输入场景的结果分别见表5和表6。在这两种情况下,SynSig2Vec都取得了最领先的结果。值得一提的是,SynSig2Vec在训练时是不需要真实的手写伪造签名的(别的方法均需要),这有利于在不收集伪造签名的情况下开发新的基于深度学习的动态签名认证系统。 

表5 Stylus场景下DTW, TA-RNN和SynSig2Vec的结果对比

表6 Finger场景下DTW, TA-RNN和SynSig2Vec的结果对比

表7列出了SynSig2Vec方法与当前领先方法在MCYT-100和SVC-Task2基准数据集上的结果对比,可以看到,SynSig2Vec较大幅度地降低了认证错误率,特别是在只有一个签名作为参照样本的情形下。这证明了SynSig2Vec确实学习了非常有效和通用的签名表征。由于SynSig2Vec是在DeepSignDB数据集上进行训练的,所以结果也得益于大规模的训练数据集。

表7 SynSig2Vec方法与当前SOTA方法的对比


四、总结和讨论



本文的主要贡献包括:
  • 提出了一种卷积神经网络签名特征表达模型Sig2Vec,来有效的提取签名的定长特征表示;
  • 针对联机签名认证任务中伪造签名数据难以获取的难题,提出了一种基于书写运动学理论的签名合成方法和能够有效学习动态签名表示的SynSig2Vec模型;
  • 并且使用排序学习的方法进行特征学习,更好的利用了细粒度的签名相似度信息;
  • 无需任何仿冒签名训练数据,该方法在多个基准数据集包括迄今规模最大的联机签名数据集DeepSignDB上取得了领先的结果。 

该论文存在几个可以改进的方面:一是签名合成的参数扰动范围存在优化空间,二是目前只考虑签名合成过程中的运动学特性,而忽略了签名的形状和结构信息,在未来的工作中,可以虚拟笔画目标纳入签名合成算法,以便直接控制签名形状,生成更加多样化的签名;三是本文优化AP指标的算法稍显复杂,可以考虑对其进行简化,或者采用其他排序学习方法,例如ListNet等。

五、相关资源



  • 论文下载地址:
    https://ieeexplore.ieee.org/document/9448392
  • 论文源码:
    https://github.com/LaiSongxuan/SynSig2Vec

参考文献



[1] Tolosana R, Vera-Rodriguez R, Fierrez J, et al.Do you need more data? The DeepSignDB on-line handwritten signature biometric database[C]//2019 International Conference on Document Analysis and Recognition(ICDAR). IEEE, 2019: 1143-1148.

[2] Tolosana R, Vera-Rodriguez R, Fierrez J, et al.Exploring recurrent neural networks for on-line handwritten signature biometrics[J]. IEEE Access, 2018, 6: 5128-5138.

[3] Lai S, Jin L. Recurrent adaptation networks foronline signature verification[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(6): 1624-1637.

[4] Plamondon R. A kinematic theory of rapid human movements[J]. Biological cybernetics, 1995, 72(4): 295-307.

[5] Song Y, Schwing A, Urtasun R. Training deepneural networks via direct loss minimization[C]//International Conference on Machine Learning. 2016: 2169-2177.

[6] Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[7] Lai S, Jin L, Lin L, et al. SynSig2Vec:Learning representations from synthetic dynamic signatures for real-world verification[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020, 34(01): 735-742. 



原文作者: Songxuan Lai, Lianwen Jin, Luojun Lin, Yecheng Zhu, Huiyun Mao


撰稿:赖松轩、江佳佳编排:高  学审校:连宙辉发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存