@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

论文推荐|[TNNLS 2022] SLOGAN——多样化手写体图像生成

罗灿杰 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍发表于TNNLS 2022的论文《SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text》。该论文针对手写图像收集和标注成本高昂的问题,提出生成多样化手写体图像的模型。该模型模仿人类书写行为,不仅取得了不错的视觉效果,还为数据驱动式模型提供了丰富的训练样本,进而提高识别模型在手写图像上的识别性能。在图灵测试中,由于该模型生成的图像十分逼真,志愿者们难辨真假。 

一、背景介绍



手写文字的出现,标志着人类从史前符号记事时代走向现代。如今,提笔书写是人类一种基本且独特的能力,即使在数字化时代,手写文字仍然有广泛的应用,例如临时的笔记、运算的手稿、商业交易中的签名认证等。由于手写文字的广泛应用,手写文字图像识别是计算机视觉领域的一个重要问题。

图1 手写风格的多样性。(a) 不同人书写;(b) 同一人书写

近年来,深度学习方法显著提高了手写文字的识别性能。然而,识别海量风格迥异的手写风格仍然是一个巨大的挑战。如图1所示,不同人手写同一个单词,手写风格显著不同;即使是同一个人,多次书写,其风格也会有变化。这表明,手写风格几乎是无穷无尽的。同时,我们研究主流训练集[1]中的风格分布。通过图2的可视化结果,我们发现训练集中的手写风格分布不均匀,频率上也有明显偏差。如此局限的训练数据,往往无法有效地训练深度学习模型,得不到良好的泛化性能。换言之,一个偏科的老师,很难指导出全面发展的学生。 

图2 手写风格分布不均,且频率有显著偏差。

解决上述问题的一个直观方案,是不计成本地收集和标注海量的样本作为训练集。然而,这是费时费力,并且不切实际的。为此,我们提出生成多样化的手写体样本,以丰富训练集,提高识别模型的稳健性。本文所研究的手写图像生成方法,属于“AI数据生成”技术。此类技术被《MIT科技评论》评选为2022年度“十大突破性技术”[2],足见其重要性。

 
图3 《MIT科技评论》:十大突破性技术之AI数据生成

二、方法简述



为了模仿人类书写过程,我们首先回顾人类感知环境与学习知识的机制。认知科学的相关理论[3][4]揭示了人类与周围环境的两种交互机制,即:从局部到整体、从整体到局部地观察,以形成丰富的视觉信号和生动的图像画面。这表明人类在感知环境时有局部和整体两种层次。在手写文字方面,人类既可以专注在单个字符上,也能顾及前后字符的排布关系和连笔关系。这启发我们对生成模型进行“单个字符”和“邻接连笔”两个层次的指导,以生成逼真的手写文字图像。

其次,我们重新考虑了对风格和内容的建模。(1)在风格上,我们使用书写者ID对已有手写风格进行参数化。训练完成后,随机调整风格参数,即可获得新风格;(2)在内容上,我们用印刷体图像作为内容输入。训练完成后,改变该图像上的文字内容,即可获得相应的手写文字图像。

整体框架如图4所示(数学建模过程请参阅论文,文末附论文链接)。 

图4 手写文字图像生成模型

三、实验结果



我们首先进行消融学习实验,验证了模型中各个模块的有效性: 

对比主流方法,我们的方法生成了更高质量的图像: 

当使用新的语料来生成图像时,我们的方法也有更突出的表现: 

接下来我们展示生成数据的多样性。我们改变输入的印刷体图像,即可得到相应的效果:实现不同的字符间隔和弯曲的文本行;使用单词图像训练的生成模型,可以生成任意长句子的图像。 

调整风格参数,可以在不同的手写风格之间过渡,或者改变其中的某种属性: 

通过可视化分析,我们发现生成的数据(绿色框标记)填补了训练集中的空白,丰富了训练样本: 

加入我们的生成数据后,可以训练得到错误率更低的识别模型: 

同时,数据生成方法可以与数据增广方法相结合:数据生成方法可以提供新的语料,数据增广方法可以进一步增加样本多样性。在互补效应下,识别模型的性能显著提升。 

此外,我们的方法可以使用特定的语料,根据特定场景生成有针对性的训练样本,提高识别模型的域迁移能力: 

在图灵测试中,我们随机生成的图像真假难辨,志愿者们的分类准确率接近50%,近似于随机分类;模仿特定书写者的图像也以假乱真。 

四、总结



本文提出了一种生成多样化手写文字图像的方法。我们在“单个字符”和“邻接连笔”两个层次上指导生成模型,成功地将印刷体图像转换为手写体图像。我们改变印刷体图像上的内容,手写体图像上也有相应的效果。我们利用书写者ID作为监督信息实现了手写风格的参数化。我们改变相应的参数,即可生成新的手写风格。实验表明,该方法可以显著提升训练数据的多样性,进而提高识别模型的泛化能力。目前,该方法正在被应用到实际业务中,在多语种手写体识别任务中发挥作用。

论文下载地址



https://ieeexplore.ieee.org/abstract/document/9722567

https://arxiv.org/abs/2202.11456

参考文献



[1].U.-V. Marti and H. Bunke, “The IAM-database: An English sentence database for offline handwriting recognition,” Int. J. Document Anal. Recognit., vol. 5, no. 1, pp. 39–46, 2003.

[2].《麻省理工科技评论:2022年“全球十大突破性技术”正式发布》, https://www.mittrchina.com/news/detail/10229, 2022-02-24.

[3].J. J. Gibson, “A theory of direct visual perception,” in Vision and Mind: Selected Readings in the Philosophy of Perception. Cambridge, MA, USA: MIT Press, 2002, pp. 77–90.

[4].M. Intaite, V. Noreika, A. Soliunas, and C. M. Falter, “Interaction of bottom-up and top-down processes in the perception of ambiguous figures,” Vis. Res., vol. 89, pp. 24–31, Aug. 2013.


原文作者: Canjie Luo, Yuanzhi Zhu, Lianwen Jin, Zhe Li, and Dezhi Peng


撰稿:罗灿杰

编排:高   学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



文章有问题?点此查看未经处理的缓存