论文推荐|[TNNLS 2022] SLOGAN——多样化手写体图像生成
一、背景介绍
手写文字的出现,标志着人类从史前符号记事时代走向现代。如今,提笔书写是人类一种基本且独特的能力,即使在数字化时代,手写文字仍然有广泛的应用,例如临时的笔记、运算的手稿、商业交易中的签名认证等。由于手写文字的广泛应用,手写文字图像识别是计算机视觉领域的一个重要问题。
图1 手写风格的多样性。(a) 不同人书写;(b) 同一人书写
近年来,深度学习方法显著提高了手写文字的识别性能。然而,识别海量风格迥异的手写风格仍然是一个巨大的挑战。如图1所示,不同人手写同一个单词,手写风格显著不同;即使是同一个人,多次书写,其风格也会有变化。这表明,手写风格几乎是无穷无尽的。同时,我们研究主流训练集[1]中的风格分布。通过图2的可视化结果,我们发现训练集中的手写风格分布不均匀,频率上也有明显偏差。如此局限的训练数据,往往无法有效地训练深度学习模型,得不到良好的泛化性能。换言之,一个偏科的老师,很难指导出全面发展的学生。
图2 手写风格分布不均,且频率有显著偏差。
解决上述问题的一个直观方案,是不计成本地收集和标注海量的样本作为训练集。然而,这是费时费力,并且不切实际的。为此,我们提出生成多样化的手写体样本,以丰富训练集,提高识别模型的稳健性。本文所研究的手写图像生成方法,属于“AI数据生成”技术。此类技术被《MIT科技评论》评选为2022年度“十大突破性技术”[2],足见其重要性。
二、方法简述
为了模仿人类书写过程,我们首先回顾人类感知环境与学习知识的机制。认知科学的相关理论[3][4]揭示了人类与周围环境的两种交互机制,即:从局部到整体、从整体到局部地观察,以形成丰富的视觉信号和生动的图像画面。这表明人类在感知环境时有局部和整体两种层次。在手写文字方面,人类既可以专注在单个字符上,也能顾及前后字符的排布关系和连笔关系。这启发我们对生成模型进行“单个字符”和“邻接连笔”两个层次的指导,以生成逼真的手写文字图像。
其次,我们重新考虑了对风格和内容的建模。(1)在风格上,我们使用书写者ID对已有手写风格进行参数化。训练完成后,随机调整风格参数,即可获得新风格;(2)在内容上,我们用印刷体图像作为内容输入。训练完成后,改变该图像上的文字内容,即可获得相应的手写文字图像。
整体框架如图4所示(数学建模过程请参阅论文,文末附论文链接)。
三、实验结果
我们首先进行消融学习实验,验证了模型中各个模块的有效性:
对比主流方法,我们的方法生成了更高质量的图像:
当使用新的语料来生成图像时,我们的方法也有更突出的表现:
接下来我们展示生成数据的多样性。我们改变输入的印刷体图像,即可得到相应的效果:实现不同的字符间隔和弯曲的文本行;使用单词图像训练的生成模型,可以生成任意长句子的图像。
调整风格参数,可以在不同的手写风格之间过渡,或者改变其中的某种属性:
通过可视化分析,我们发现生成的数据(绿色框标记)填补了训练集中的空白,丰富了训练样本:
加入我们的生成数据后,可以训练得到错误率更低的识别模型:
同时,数据生成方法可以与数据增广方法相结合:数据生成方法可以提供新的语料,数据增广方法可以进一步增加样本多样性。在互补效应下,识别模型的性能显著提升。
此外,我们的方法可以使用特定的语料,根据特定场景生成有针对性的训练样本,提高识别模型的域迁移能力:
在图灵测试中,我们随机生成的图像真假难辨,志愿者们的分类准确率接近50%,近似于随机分类;模仿特定书写者的图像也以假乱真。
四、总结
论文下载地址
https://ieeexplore.ieee.org/abstract/document/9722567
参考文献
[1].U.-V. Marti and H. Bunke, “The IAM-database: An English sentence database for offline handwriting recognition,” Int. J. Document Anal. Recognit., vol. 5, no. 1, pp. 39–46, 2003.
[2].《麻省理工科技评论:2022年“全球十大突破性技术”正式发布》, https://www.mittrchina.com/news/detail/10229, 2022-02-24.
[3].J. J. Gibson, “A theory of direct visual perception,” in Vision and Mind: Selected Readings in the Philosophy of Perception. Cambridge, MA, USA: MIT Press, 2002, pp. 77–90.
[4].M. Intaite, V. Noreika, A. Soliunas, and C. M. Falter, “Interaction of bottom-up and top-down processes in the perception of ambiguous figures,” Vis. Res., vol. 89, pp. 24–31, Aug. 2013.
原文作者: Canjie Luo, Yuanzhi Zhu, Lianwen Jin, Zhe Li, and Dezhi Peng
撰稿:罗灿杰
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
[ACM MM 2021] PIMNet:一种用于场景文本识别的并行、迭代和模仿网络(有源码)
论文推荐|[AAAI 2022]基于上下文的对比学习场景文本识别
[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
论文推荐|[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
竞赛冠军方法分享 | 基于多模态GCN和句子排序的POI生成方案
论文推荐|[ICDAR 2021]基于局部和全局金字塔掩模对齐的复杂表格结构识别(有源码)
论文推荐|[NeurIPS2021] 一个大规模开放域视频文本数据集和基于transformer的端到端文本识别算法(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: