查看原文
其他

论文回顾|[ICDAR 2019] DeepSignDB:大规模联机签名数据集

赖松轩 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICDAR 2019论文“Do You Need More Data? The DeepSignDB On-Line Handwritten Signature Biometric Database”所贡献的一个大规模联机签名数据集。长期以来,在联机签名认证任务中,存在签名数据难以获取的难题,这对深度学习方法的应用带来了很大的挑战。这篇文章最大的贡献在于,作者整合了以往多个非公开可获取的联机签名数据集(图1),作为单一数据集DeepSignDB向学界免费公开。数据集地址:https://github.com/BiDAlab/DeepSignDB。

图1 DeepSignDB数据集(包括五个子集,签名数据经多种输入设备采集得到)

一、研究背景

手写签名是社会认可度最高、应用最为广泛的身份认证方式之一,在行政管理、银行办公等场景中十分常见。因此,手写签名认证研究具有很大的现实意义。然而,受限于签名数据难以获取的难题,当前的联机签名认证主流方法仍是DTW模板匹配,深度学习方法的应用受到了极大的约束(以往学界的许多签名数据集,例如BiosecurID等,出于隐私保护和个人信息安全的考虑,无法公开获取)。因此,一个大规模、可公开获取的签名数据集,对于深度学习时代签名认证的研究,无疑具有十分重要的意义。

该论文作者Ruben Tolosana等来自西班牙BiDA生物信息认证实验室,整合了以往多个非公开可获取的联机签名数据集,作为单一数据集DeepSignDB向学界免费公开,并给出了基于DTW和BGRU 孪生网络的基准认证结果。


二、数据集信息

DeepSignDB共包含5个子集,分别为MCYT,BiosecurID,Biosecure DS2,E-BioSign DS1,和E-BioSign DS2,具体信息分别如下:

MCYT:该子集共包含330个用户。每个用户有25个真实签名与25个仿冒签名,共计16500个签名样本。采集设备为Wacom Intuos A6数位板,采样频率为100 Hz。

BiosecurID:该子集共包含400个用户。每个用户有16个真实签名与12个仿冒签名,共计11200个签名样本。数据分为4个阶段采集,相邻两个阶段间隔2个月。采集设备为Wacom Intuos 3数位板,采样频率为100 Hz。

Biosecure DS2:该子集共包含650个用户。每个用户有30个真实签名与20个仿冒签名,共计32500个签名样本。数据分为2个阶段采集,期间间隔3个月。采集设备为Wacom Intuos 3数位板,采样频率为100 Hz。

E-BioSign DS1:该子集共包含65个用户,由5台不同的设备采集(3台数位板+2台智能手机)。对于每台设备,每个用户有8个真实签名和6个仿冒签名,共计4550个签名样本。数据分为2个阶段采集,期间间隔至少3个星期。数位板采样率为200 Hz,手机采样率不定。

E-BioSign DS2:该子集共包含81个用户,由3台不同的设备采集(1台手写板+2台智能手机)。对于每台设备,每个用户有8个真实签名和6个仿冒签名,共计3402个签名样本。数据分为2个阶段采集,期间间隔至少3个星期。手写板采样率为200 Hz,手机采样率不定。

DeepSignDB共计有1526个用户,68152个签名样本。另外应该指出,数位板均采用手写笔(Stylus)进行书写,而智能手机既可使用手写笔书写,也可直接使用手指(Finger)。MCYT、BiosecurID和Biosecure DS2里的签名均为手写笔书写,而E-BioSign DS1和E-BioSign DS2中的签名既有手写笔书写的,也有手指书写的。


三、基准结果

作者给出了DeepSignDB数据集划分和评估的协议,并给出了基于DTW和BGRU 孪生网络的基准认证结果。该方法的工作流程如下:

(1)首先,用DTW算法进行输入样本与模板样本的序列匹配,检测输入样本是否为Random Forgery(随机仿冒签名)。

(2)如果输入样本并非Random Forgery,则与模板样本共同输入到BGRU孪生网络,判断其为真实签名还是Skilled Forgery(熟练仿冒签名)。

基准结果如图2所示。4vs1意为,对于1个测试样本,供对比的模板样本有4个;1vs1意为,对于1个测试样本,供对比的模板样本只有1个。可以看到,基准方法对于Skilled Forgery的认证错误率并不理想,存在较大的改进空间。同时,手指书写的签名相比于手写笔书写的签名,认证错误率更高,这也是值得思考和研究的一个点。

 
图2 DeepSignDB基准认证结果

   

数据集地址


  •  https://github.com/BiDAlab/DeepSignDB 


参考文献
[1] J.Ortega-Garcia, J.Fierrez-Aguilar, and et al., “MCYTBaselineCorpus: A Bimodal Biometric Database,” Proc. IEEE Vision, Imageand Signal Processing, Special Issue on Biometrics on the Internet, vol. 150,no. 6, pp. 395–401, 2003.
[2] J. Fierrez, J. Galbally, J. Ortega-Garcia, M.Freire, F. Alonso-Fernandez, D. Ramos, D. Toledano, J. Gonzalez-Rodriguez, J.Siguenza, J. GarridoSalas et al., “BiosecurID: A Multimodal Biometric Database,” Pattern Analysis and Applications, vol. 13, no. 2, pp. 235–246,2010.
[3] J. Ortega-Garcia, J. Fierrez, and et al., “The Multi-Scenario MultiEnvironment BioSecure Multimodal Database (BMDB),” IEEETrans. on Pattern Analysis and Machine Intelligence, vol. 32, no. 6, pp. 1097–1111, 2010.
[4] R. Tolosana, R. Vera-Rodriguez, J. Fierrez, A.Morales, and J. Ortega Garcia, “Benchmarking Desktop and Mobile Handwriting across COTS Devices: the e-BioSign Biometric Database,” PLoS ONE, vol. 12, no.5, pp. 1–17, 2017.


原文作者:Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez, Aythami Morales, and Javier Ortega-Garcia


撰稿:赖松轩

编排:高 学

审校:连宙辉

发布:金连文


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾




欢迎加入中国图象图形学学会!(附入会攻略)




征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存