查看原文
其他

论文推荐| [AAAI 2021]DeepWriteSYN:基于深度短时表征的联机笔迹合成方法

江佳佳 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍被AAAI 2021录用的论文“DeepWriteSYN: On-Line Handwriting Synthesis via Deep Short-Term Representations”。长久以来,手写笔迹是身份认证的常见方法之一,其应用可以扩展到许多不同的身份验证场景,例如书写者识别[1]、签名[2]、手写密码[3]和涂鸦[4]等。然而由于隐私和法律原因,目前尚缺乏大规模的公开手写数据集,影响了基于手写应用的身份验证系统的性能发挥。所以,该论文提出了DeepWriteSYN这一新型联机笔迹合成方法,可以利用深度短时表征快速地合成逼真的联机手写文本。该方法可以根据给定的笔迹,生成带有自然结构变化的合成样本。  

(a)                          (b)

图1 使用该文模型生成的不同手写数字(a)、手写签名(b) 

一、研究背景



受益于大规模公开数据集和快速发展的深度学习技术,许多领域都有了突破性的进展。然而,仍然有许多任务因为缺少训练数据而影响了性能表现,比如零样本、单样本、少样本学习任务等。针对这一问题,研究者提出了不同的办法,其中比较主流的方法便是人工合成数据。在基于图像的场景中,生成性对抗网络[5]和迁移学习技术[6]很好地解决了数据匮乏的问题。但是,在基于时间序列的场景中,数据合成的方法仍然还没有被广泛地探索,例如手写场景。与人脸、指纹、虹膜等生理生物特征相反,手写场景的笔迹是一种行为生物特征,这意味着每一次书写都是不同的[7],所以存在较大的类内差异。因此,本文针对手写场景里的联机时间序列,给出了一种有效的笔迹合成方法。

二、方法原理简述



该文模型主要由两个模块组成:(1)可选的时序分割模块,该模块可以在时域上将长笔迹分割成较短的序列片段,例如将签名分割成单独的笔划;(2)短序列的在线合成模块,该模块是基于循环神经网络(RNN)的变分自编码器。图2展示了DeepWriteSYN联机手写合成方法的示意图,包括手写数字、手写签名的合成过程,具体如下: 

图2  DeepWriteSYN模型的示意图 
由于在线合成模块只能处理短序列,所以,当输入是超过300个采样点的长序列(比如签名)时,该文先利用时序分割模块将长序列分割为短序列(比如单独的笔划),以便输入后续的合成模块,生成全新或者形变的笔迹结构。当输入是短序列(比如采样点在100以下的手写数字)时,则直接将其输入合成模块执行结构变换。

图3  基于书写速度曲线的时序分割模块 
在可选的时序分割模块中,长序列被分割为短时表征[9]。根据书写速度的均值和标准差,可以确定三个阈值,将速度曲线划分为四个区域。每当速度超过三个阈值中任意一个时,就从原始笔迹中提取一个笔划。图3展示了该方法的分割示例,可以看出,该方法可以提取由直线和短曲线组成的简单笔划。
短序列在线合成模块采用的是Sketch-RNN[10]中变分自编码器的结构,开源代码详见于[11]。如图4,合成模块由一个编码器和解码器组成的。编码器是一个双向循环神经网络(BRNN),将输入的时间序列转换成128维的高斯分布,并进行随机采样得到特征向量z。解码器的结构基于自回归RNN,可以根据编码器产生的特征向量,输出生成序列。解码器可以通过温度参数控制输出序列的随机形变程度,范围在区间[0,1]之间。当= 0时,模型会根据概率密度函数中最可能的点生成固定的合成样本。
编码器和解码器的训练是端到端进行的,学习过程受到了重建损失和KL散度损失的监督[12]。KL散度损失的系数是一个可调的参数。若= 0,该模型就退化为一个简单的自动编码器(AE),训练后可以合成和输入序列相同的笔划。

图4  变分自动编码器图示 

三、主要实验结果



该论文在DeepSignDB联机手写签名数据集[13]和eBioDigitDB 手写数字数据集[14]上进行实验,分别验证了该模型合成长序列和短序列的有效性。性能评估标准采用的是等错误率(Equal Error Rate)。更多实验细节可详见原文,下面是一些实验结果。
签名认证实验的结果显示,基于DeepWriteSYN的所有实验都优于不使用合成样本的基线结果,结果改善了高达23%。图5展示了在单样本学习场景中合成样本的生成数量对在线签名验证系统性能的影响。当增加合成样本的数量(最多12个)时,可以观察到系统性能的改善。当= 0,并使用12个合成样本时,EER结果改进了超过50%,证明了DeepWriteSYN算法的有效性。 

图5  使用不同数量合成签名时在验证集上的实验结果 
图6分别展示了真实手写数字、DeepWriteSYN合成数字的t-SNE可视化结果。可以看出,该方法合成的手写数字能够更密集地填充特征空间,并且仍然保持原始特征空间的类分布。 

图6  使用真实手写数字和DeepWriteSYN合成数字的t-SNE分布

四、总结和讨论



该文提出了DeepWriteSYN这一基于深度短时表征的联机手写合成方法。由于该合成过程是在较短的时间序列上进行的,因此也适用于开集的一般笔迹合成。文章还在签名和数字两种不同的在线手写场景下进行了深入分析,取得了良好的视觉效果和定量实验效果,表明DeepWriteSYN在具有挑战性的单样本学习场景中具有很高的潜力。

在未来,值得探索的一个方向是长序列的合成方法。目前文章对于长序列的处理方式是,将其分割成短序列后执行序列变换,再通过拼接恢复序列长度,这样处理与现实情况不总是相符的。因此,可以考虑将序列分段方法与其他策略结合,更好地去模拟手写的长时依赖性。另外,作者还计划进一步探索有关序列复杂度的配置参数,以及合成不同形变程度的签名。 

参考文献



[1] Zhang X Y, Xie G S, Liu C L, et al. End-to-end online writer identification with recurrent neural network[J]. IEEE transactions on human-machine systems, 2016, 47(2): 285-292.

[2] Diaz M, Ferrer M A, Impedovo D, et al. A perspective analysis of handwritten signature technology[J]. Acm Computing Surveys (Csur), 2019, 51(6): 1-39.

[3] Tolosana R, Vera-Rodriguez R, Fierrez J, et al. BioTouchPass2: Touchscreen password biometrics using time-aligned recurrent neural networks[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 2616-2628.

[4] Martinez-Diaz M, Fierrez J, Galbally J. Graphical password-based user authentication with free-form doodles[J]. IEEE Transactions on Human-Machine Systems, 2015, 46(4): 607-614.

[5] Goodfellow, Ian, et al. “Generative Adversarial Nets.” Advances in Neural Information Processing Systems 27, vol. 27, no. 5, 2014, pp. 2672–2680.

[6] Tan, Chuanqi, et al. “A Survey on Deep Transfer Learning.” International Conference on Artificial Neural Networks, 2018, pp. 270–279.

[7] Jain, Anil K., et al. “50 Years of Biometric Research.” Pattern Recognition Letters, vol. 79, no. 79, 2016, pp. 80–105.

[8] Graves A. Generating sequences with recurrent neural networks[J]. arXiv preprint arXiv:1308.0850, 2013.

[9] Khan M A U, Niazi M K K, Khan M A. Velocity-image model for online signature verification[J]. IEEE transactions on image processing, 2006, 15(11): 3540-3549.

[10] Ha D, Eck D. A neural representation of sketch drawings[J]. arXiv preprint arXiv:1704.03477, 2017.

[11] https://github.com/magenta/magenta-js/tree/master/sketch.

[12] Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint arXiv:1312.6114, 2013.

[13] Tolosana R, Vera-Rodriguez R, Fierrez J, et al. DeepSign: Deep on-line signature verification[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2021.

[14] Tolosana R, Vera-Rodriguez R, Fierrez J. BioTouchPass: Handwritten passwords for touchscreen biometrics[J]. IEEE Transactions on Mobile Computing, 2019, 19(7): 1532-1543.



原文作者Ruben Tolosana, Paula Delgado-Santos, Andres Perez-Uribe, Ruben Vera-Rodriguez, Julian Fierrez, Aythami Morales
撰稿:江佳佳编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:D



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存