[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
图1 总体框架图
一、研究背景
签名认证是一种重要的身份认证技术,它的认证对象是书写者的签名或其简写,因经常书写而具有较强的个人风格。与人脸、虹膜、指纹、声纹等特征相比,手写签名能够通过非侵入式、更加用户友好的方式进行采集,因此签名认证已被广泛应用于商务活动、银行办公、安全认证等场景。进入信息时代以来,随着电子设备的普及,联机手写签名认证技术得到了广泛的发展,获取媒介从最初办公场景的专用设备演变到当前的智能手机、电子平板等移动终端。在这些场景中,书写者可以灵活地选择手写笔输入(Stylus)或者手指输入(Finger)。然而,联机手写签名在跨时间和跨设备的场景下通常会呈现出较大的类内差异,容易遭受仿冒签名的攻击,这给联机签名认证任务带来了很大的挑战。
二、方法原理简述
该框架的工作机制具体如下:首先,提取联机签名序列的多维时间函数。其次,将各时间函数送入CRAN进行非线性特征建模和上下文建模。接着,计算待比较的签名对之间的Soft-DTW距离,并将其加入到三元组损失函数中进行训练。最后,在测试阶段使用原始DTW来计算签名对之间的距离,并利用基于距离的分类器得到最后的认证结果。
提取签名的时间函数表示[3],包括:水平与竖直方向速度、速度、角度、压力、速度和角度的一阶差分、对数曲率半径以及向心加速度。每个时间函数都归一化至 0 均值 1 方差。通过人工提取时间函数,为网络输入尽可能多的信息,有利于网络的学习。
图2 DsDTW模型的结构图
CRAN结构从输入时间函数中提取特征序列,其结构如图2绿色框所示,主要包括两个卷积层、两个循环层以及一个全连接层。卷积层的激活函数为 ReLU,两个卷积层之间插入了一个最大池化层,对序列进行两倍下采样。循环层由门控自回归单元GARU[4]构成。与常用的GRU相比,GARU只采用重置门,而移除了更新门,在该任务上其表现优于GRU和LSTM。
计算签名对的Soft-DTW距离。给定两个联机签名的时间函数表示
其中,
其中,
Soft-DTW是原始DTW的平滑化表达,当𝛾=0时,Soft-DTW恢复为原始的 DTW,即
迟池化策略。一般来说,联机签名对的时间分辨率越高,则认证精度也越高,同时计算量与内存消耗呈平方级增长。为了权衡认证精度和计算量与内存消耗,论文还提出了如下的迟池化策略。具体的,记CRAN为函数𝑓(⋅),以及任意的一阶池化函数为𝜑(⋅)。对于签名样本对𝑋和𝑌,在训练阶段采用如下距离:
其中|⋅|表示签名序列的长度。而在测试阶段使用如下距离:
池化函数𝜑(⋅)仅在训练阶段使用,并作用于CRAN的输出序列,这样能够在训练阶段降低显存要求的同时,在测试阶段恢复序列的时间分辨率,相比于在 CRAN中插入池化层,较大幅度提升了模型的认证精度。
基于三元组的损失函数。记每个数据批采样
其中ξ为非负间隔参数。将签名对的soft-DTW距离融入到第k位用户的损失函数中:
总体损失函数为:
其中,第二项表示真实签名的类内差异,使得模型在保持真实签名类内紧凑的同时,区分开真实签名与伪造签名。
图3 基于归一化得分
分类器构建与距离归一化策略。在认证阶段,论文使用基于式5所示距离的分类器进行真伪签名认证。具体的,给定任一用户k的𝑛个真实签名
如图3,给定一个阈值th,若
三、主要实验结果
该论文使用了四个数据集进行实验,包括DeepSignDB、MCYT-100、SVC-Task1以及 SVC-Task2。DeepSignDB数据集是目前最大规模的联机签名数据集,由五个子集构成,分别是MCYT、BiosecurID、 Biosecure DS2、E-BioSign DS1以及 E-BioSign DS2,共含有来自1526位用户的69972个签名,采集自多个不同型号的数字平板与移动设备,书写工具分为手写笔(Stylus)以及手指(Finger)。论文遵循DeepSignDB 数据集的实验协议,使用前N个真实签名作为模板(N vs 1),以等错误率(EER)作为评价指标。
论文针对Soft-DTW、迟池化策略以及基于归一化距离的分类器等进行了丰富的消融实验,证明了所提出方法的有效性,还探究了Soft-DTW中平滑参数𝛾、迟池化策略𝜑(⋅)的影响,并给出了详尽的分析。其中,Soft-DTW的消融结果如表1所示,在大多数场景,使用Soft-DTW(γ取5)比使用DTW(γ取0)取得了更优的认证结果,即论文所提出的Deep Soft-DTW方法优于Deep DTW方法。
对于基线结果,论文将DsDTW与传统的DTW、DeepSignDB的基准模型TA-RNN进行了比较,结果如表2所示。与TA-RNN相比,DsDTW在熟练伪造场景取得了明显更低的等错误率;与DTW相比,除了Finger输入的随机伪造场景,DsDTW均大幅优于DTW,证明了基于soft-DTW的CRAN结构能够学到有效的深度时间函数。相比于TA-RNN,DsDTW的优势在于序列对齐是基于深度特征进行的,故而对于原始时间函数中的噪声或离群值更为鲁棒。
图4 DTW与DsDTW对于两个签名的对齐路径
图4可视化了 DTW与DsDTW对于两个签名的对齐路径,可以看到,经过 CRAN的特征学习,DsDTW与DTW有着较为不同的对齐方式。为了量化对齐效果,论文计算了DsDTW与DTW的直接匹配点数量,发现在DeepSignDB上,DsDTW的平均直接匹配率(63%)比DTW的平均直接匹配率(60%)高了三个百分点。这表明DsDTW可以提升签名序列的局部稳定性,从而减少了匹配歧义,达到更好的序列对齐效果。
论文进一步地在MCYT-100、SVC-Task1与SVC-Task2数据集上进行测试,以便与更多现有工作进行比较。结果如3所示,可以看到DsDTW在三个数据集的熟练伪造场景上均取得了领先的结果。在SVC-Task1与SVC-Task2数据集上,DsDTW没有经过任何微调即大幅降低了等错误率,表明CRAN学到了十分有效的联机签名表征。此外,论文还针对计算量和推理速度对已有方法进行了比较和分析,详见原文。
在ICDAR 2021的联机签名认证竞赛SVC 2021上,DsDTW模型以明显的优势获得了比赛冠军。该比赛提出了一个新的测试集SVC2021 EvalDB,覆盖了Stylus场景、Finger场景和Stylus/Finger混合场景。表4总结了在该测试集上各个模型的认证结果,可以看到,DsDTW在所有三个任务中都取得了最好的结果。与基线方法DTW相比,DsDTW在三个任务分别相对改善了74.54%、50.34%和58.83%。TA-RNN模型也取得了相对令人满意的结果,但仍然落后于DsDTW。比赛结果充分证明了DsDTW模型在联机签名验证领域的巨大潜力。
表4 ICDAR 2021 SVC签名认证竞赛结果对比
最后,论文还将拓展到了其他的联机手写笔迹分析任务上,并取得了令人满意的结果。如表5所示,在基于联机手写数字的身份认证实验上,DsDTW大幅度领先于已有方法。如表6所示,在基于联机手写字母的书写者识别实验上,DsDTW也取得了令人满意的结果。
四、总结和讨论
该文提出了一个端到端可训练的DsDTW模型,大幅提高了DTW方法的联机签名认证精度。与已有方法不同的是,该方法计算签名之间的Soft-DTW距离,并将其纳入损失函数进行优化。由于Soft-DTW可微,整个系统是端到端可训练的,从而能够令深度神经网络与DTW得到有效结合。DsDTW模型在DeepSignDB、MCYT-100、SVC-Task1、SVC-Task2等数据集上均取得了业界领先的结果,在其他的联机手写分析任务上也具有较强的拓展性。
五、相关资源
论文链接:https://ieeexplore.ieee.org/abstract/document/9787558
代码链接:https://github.com/KAKAFEI123/DsDTW
参考文献
Cuturi M, Blondel M. Soft-dtw: a differentiable loss function for time-series[C]//International conference on machine learning. PMLR, 2017: 894-903.
Wu X, Kimura A, Iwana B K, et al. Deep dynamic time warping: end-to-end local representation learning for online signature verification[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1103-1110.
Martinez-Diaz M, Fierrez J, Krish R P, et al. Mobile signature verification: Feature robustness and performance comparison[J]. IET Biometrics, 2014, 3(4): 267-277.
原文作者:Jiajia Jiang†, Songxuan Lai†, Lianwen Jin, Yecheng Zhu
撰稿:江佳佳、赖松轩
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)
[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)
[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法
[CVPR2022] 端到端的场景文字检测与版面分析统一框架
[AAAI 2022] BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)
[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer
[CVPR 2022] TATT:用于场景文本图像超分辨率的文本注意力网络
[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯