查看原文
其他

论文推荐|[IEEE TPAMI 2020] TE141K:用于文字风格转换的大规模艺术文字数据库

本文简要介绍新近在IEEE TPAMI 2020发表的论文"TE141K: Artistic Text Benchmark for Text Effect Transfer"的主要工作。该论文主要针对文字字效迁移问题,首先搜集了大规模成对的字效数据库TE141K,然后提出了TET-GAN字效迁移模型,最后在14种图像风格化模型上进行了性能比较,建立了文字字效迁移问题的基准(Benchmark),以便于后续相关研究的性能评估和分析。


 图1. TE141K数据库


数据集与Benchmark网站可长按如下二维码:

一、研究背景

文字字效生成技术的目标是自动为文字增添诸如颜色、描边、阴影、反射和纹理等的艺术效果,使之看上去更生动更有吸引力。其中,字效迁移任务指为文字渲染指定的参考样例字效,可被广泛地应用于广告、杂志、海报等平面设计中。然而艺术字的人工制作过程繁琐,需要一定的技术。全自动字效生成方法具有巨大的商用价值。目前已有一些成熟的图像风格化算法在绘画风格迁移上取得优良的性能,并且围绕字效迁移也提出了诸如T-Effect、UT-Effect、TET-GAN等风格化模型。为了促进字效迁移相关研究的发展,亟待建立一个字效迁移的基准,提供可靠的数据和分析用以评价不同图像风格化模型在字效迁移任务上的性能。今天介绍的文章提出了新的大规模字效数据集,并建立了字效迁移的基准,其提出的字效迁移模型在不同的字效迁移任务中取得了不错的性能。

 

二、TE141K数据集及字效迁移任务


图2. TE141K数据库统计数据


如图2所示,TE141K总计包含141,081张成对的文字/字效图像,其中共计152种不同的字效风格,涵盖中英等不同的字形。根据字形,将整个数据库划分为三个子数据集:TE141K-E只包含英文字母,适合作为基础的训练集;TE141K-C训练集包含汉字,测试集既包含汉字又包含字母和数字,适合更进一步地考察风格化模型对字形的泛化性;TE141K-S包含中英文以外的小语种和特殊字符,在文章中用于作为单样本风格训练的数据考察模型对不同风格的适应性。

在风格方面,字效具有一定的多样性。在前、背景纹理方面涵盖了纯色、渐变色和复杂程度不同的纹理,在描边特效方面涵盖了不同粗细程度和规则与不规则的文字描边效果,在立体特效方面涵盖了浮雕、光照、阴影及其组合的3D效果。

该数据集的提出可以支持多种不同难易程度的字效迁移任务,其中这篇文章对以下3项任务在不同风格化模型上建立了基准。

1、监督的多风格字效迁移:模型在整个TE141K数据集上训练和测试。

2、监督的单样本字效迁移:模型可在TE141K-E和TE141K-C上训练,在TE141K-S上测试,测试提供目标风格的一张字效图像及其对应的文字图像作为风格参考,允许模型在该样本上微调。

3、无监督的单样本字效迁移:模型可在TE141K-ETE141K-C上训练,在TE141K-S上测试,测试提供目标风格的一张字效图像作为风格参考,不提供其对应的文字图像,允许模型在该样本上微调。

除此之外,TE141K还支持无监督/半监督的多风格字效迁移、少样本字效迁移等任务,可用于各类图像风格化模型的训练和测试。

 

三、TET-GAN字效迁移生成对抗网络
这篇文章同时提出了一个文字特效迁移模型。采用字形编解码器和字效编解码器构建了一个字效迁移生成对抗网络TET-GAN,并通过字形编解码,艺术字去风格化和文字风格化三个方面训练网络学习字效和字形特征的解耦与组合,从而支持单一网络同时处理多种字效风格。此外,文章提出了一种自学习的微调方案,允许网络在单样本上扩展新风格。感兴趣的读者可以参阅对TET-GAN的解读推文(https://mp.weixin.qq.com/s/I5WfG2aCMakao3IF30rLGg)。

 

四、主要实验结果

图3展示了用于比较的图像风格化算法,包含全局统计模型、局部图像块模型以及基于生成对抗网络的模型。评价指标包含传统的PSNR、SSIM,基于视觉感知的Perceptual Loss和基于Gram矩阵的Style Loss,同时还包含主观的用户打分。


图3. 比较算法概览


     图4-6分别展示了不同图像风格化模型在监督的多风格字效迁移,监督的单样本字效迁移,无监督的单样本字效迁移三个任务上的定量评价结果与主观视觉比较。

图4. 监督的多风格字效迁移的定量评价与视觉比较

 

在监督的多风格字效迁移任务中,AdaIN[2]和WCT[3]无法生成纹理细节,在主观评价和客观评价上都取得较低的分数。Doodles[7]难以保持文字字形,T-Effect[8]则出现纹理在全局的不一致性。Pix2pix[10]BicycleGAN[11]无法完全将样例图像中的风格调整到新的文字上,产生了许多鬼影。StarGAN[12]无法生成纹理细节。TET-GAN在各个指标上都取得了最优的分数。 

图5. 监督的单样本字效迁移的定量评价与视觉比较

 

在监督的单样本字效迁移任务中,Analogy[4]Doodles[7]无法保持文字字形,Pix2pix[10]则出现色偏,T-Effect[8]和TET-GAN取得最佳表现。 


图6. 无监督的单样本字效迁移的定量评价与视觉比较

 

在更困难的无监督的单样本字效迁移任务上,NST[1]、AdaIN[2]、WCT[3]、Quiting[5]、CNNMRF[6]、UT-Effect[9]等都无法有效建立风格与内容之间的映射关系,因此具有明显的风格差异。

此外,文章还分析了字效迁移的难度(以用户主观打分的分数衡量)与字效风格本身的关系,通过对用户打分与图2(b)中的字效种类进行回归分析,发现非对称的文字描边效果以及背景图中的复杂纹理是字效迁移的难点,而对于各类模型都最容易处理的特效为普通的文字描边效果,为后续字效迁移的改进方向指明了要点。


图7. 联合字形风格迁移与字效风格迁移的文字风格化


图7展示了将TET-GAN扩展到字形风格迁移的结果,通过将在字效数据集上训练的模型和在字形数据集上训练的模型组合使用,TET-GAN能同时迁移参考风格图像中的字形和字效风格,从而获得更一致的风格化结果。

 

五、总结及讨论
1. 搜集了一个大规模的字效数据集TE141K,能用于字效迁移、多领域迁移、图像转换等多种问题的研究。
2. 提出了一种基于字形字效特征解耦与重组的字效迁移方法,构建了字效迁移生成对抗网络TET-GAN,支持多种字效风格的迁移,字效风格和字形风格的联合迁移,以及便捷的风格扩展。
3. 建立了字效迁移的基准,在TE141K的基础上比较了具有代表性的图像风格化模型在三种风格化任务上的表现,为后续研究评价和分析字效迁移模型的性能提供有效支撑。

 

六、相关资源
  • TE141K论文网站及数据库:https://daooshee.github.io/TE141K/
  • TE141K评测模型代码:https://github.com/daooshee/TE141K/blob/master/Review.md
  • TET-GAN推文:https://mp.weixin.qq.com/s/I5WfG2aCMakao3IF30rLGg
  • TET-GAN论文网站:http://39.96.165.147/Projects/ys_aaai19/TETGAN.html
  • T-Effect论文网站:http://www.icst.pku.edu.cn/struct/Projects/TET.html
 
参考文献
[1] L. A. Gatys, A. S. Ecker, and M.Bethge. Image style transfer using convolutional neural networks. CVPR 2016.
[2] X. Huang and S. Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. ICCV 2017.
[3] Y. Li, C. Fang, J. Yang, Z. Wang, X.Lu, and M.-H. Yang. Universal style transfer via feature transforms. NeurIPS2017.
[4] A. Hertzmann, C. E. Jacobs, N.Oliver, B. Curless, and D. H. Salesin. Image analogies. SIGGRAPH 2001.
[5] A. A. Efros and W. T. Freeman. Image quilting for texture synthesis and transfer. SIGGRAPH 2001.7
[6] C. Li and M. Wand. Combining markov random fields and convolutional neural networks for image synthesis. CVPR 2016.
[7] A. J. Champandard. Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks. arXiv2016.
[8] S. Yang, J. Liu, Z. Lian, and Z.Guo. Awesome Typography: Statistics-Based Text Effects Transfer. CVPR. 2017.
[9] S. Yang, J. Liu, W. Yang, and Z.Guo. Context-aware text-based binary image stylization and synthesis. TIP 2019.
[10] P. Isola, J. Y. Zhu, T. Zhou, and A.A. Efros, Image-to-Image Translation with Conditional Adversarial Networks.CVPR. 2017.
[11] J.-Y. Zhu, R. Zhang, D. Pathak, T.Darrell, A. A. Efros, O.Wang, and E. Shechtman, Toward multimodal image-to-image translation. NeurIPS 2017.
[12] Y. Choi, M. Choi, M. Kim, J.W. Ha,S. Kim, and J. Choo. StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation. CVPR 2018.
[13] S. Azadi, M. Fisher, V. Kim, Z.Wang,E. Shechtman, and T. Darrell. Multi-content GAN for few-shot font style transfer. CVPR 2018.




原文作者:Shuai Yang, Wenjing Wang, Jiaying Liu

 

撰稿:杨 帅

编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存