查看原文
其他

论文推荐|[AAAI 2019]TET-GAN: 文字效果迁移与文字风格化和去风格化(有源码)

本文简要介绍AAAI 2019论文“TET-GAN: Text Effects Transfer via Stylization and Destylization”的主要工作。该论文主要针对文字字效迁移问题,首先建立了成对的字效数据库,然后训练网络对艺术字图片进行字形特征和字效特征的提取,通过对字形特征和字效特征的组合,网络能完成文字特效迁移和艺术字去风格化两个任务。


 本文方法生成的艺术字

一、研究背景 
文字风格化是一种为文字设计特效,将之渲染为独一无二的艺术字的过程。添加了字效的文字能更准确地反映设计者想要传达的思想和感情,吸引观看者驻足欣赏。因此,字效被广泛地应用到广告、杂志、海报等平面设计中。然而艺术字的人工制作过程繁琐,需要一定的技术。全自动字效生成方法具有巨大的商用价值。今天介绍的文章提出了基于字形字效编解码的神经网络结构对文字进行风格化,并建立了相应的字效数据集,得到了不错的结果。

二、TET-GAN原理简述 

 

2 网络整体框架图
如图2所示,TET-GAN的网络框架包含字形编码器,字形解码器,字效编码器,字效解码器,字形判别器和字效判别器。在训练阶段,对网络从字形编解码,艺术字去风格化和文字风格化三个方面进行训练。
字形自编码器:如图2(b)所示,字形编码器Ex和字形解码器Gx组成了自编码器网络结构,通过训练网络使之对文字图片进行自编码,就能提取到有效的字形特征。
去风格化子网络:如图2(c)所示,字形编码器Eyc和字形解码器Gx以及字形判别器Dx组成一个生成对抗网络结构,从艺术字图像中提取字形特征并解码为文字图像。除正常的生成对抗网络之外,还要求Eyc提取的字形特征尽可能接近由Ex提供的Ground Truth的字形特征。
风格化子网络:如图2(d)所示,字形编码器Ex,字效编码器Eys,字效解码器Gy和字效判别器Dy组成一个生成对抗网络结构,Ex和Eys分别从文字图像和艺术字图像中提取字形和字效特征,串联后输入到Gy解码为一张全新的艺术字图像,完成风格的迁移。
在测试阶段,网络可以完成两个任务:去风格化,即输入艺术字图像,通过去风格化子网络得到对应的文字图像;风格化,即输入参考艺术字图像和目标文字图像,通过风格化子网络将参考艺术字图像的特效迁移到目标文字上,得到对应的艺术字图像。
对于用户指定的在训练集中没有出现的艺术字风格,论文还提供了一个有效的微调方案,只需要一对参考艺术字图像及其文字图像,就能让网络学会迁移新的风格。如图3所示,对于输入的一张参考艺术字图像,采用随机裁剪的方式,生成多张图像用于上述的三方面训练对网络进行微调。在数据库上提前训好的网络已经学会了根据文字结构进行大致的风格化,而再通过这样的微调,网络能更好地关注纹理细节,使得生成的结果与参考风格更加一致。该微调方案使得网络具有更好的适用性。

图3 微调网络来学习新的艺术字风格
 
三、主要实验结果及可视化效果 



数据库概览


图5 字效迁移的视觉比较


图6 微调TET-GAN迁移新风格的结果


图7 文字艺术风格插值。四个角落为参考艺术字图像,中间为风格插值的迁移结果。
 
图4展示了论文搜集的字效数据库。该数据库一共包含64种不同种类的文字特效,对每种风格,分别渲染了775张汉字图像,52张英文字母图像,10张阿拉伯数字图像。每张艺术字图像的大小为320*320,并提供对应的不带风格的文字图像。图5展示了视觉上的比较结果。第二列是TET-GAN的去风格化结果。(c)-(h)比较了不同方法的风格化结果,主要包括基于GAN的算法Pix2Pix[1]和StarGAN[2],基于传统块匹配的T-Effect[3],基于特征域块匹配的Neural Doodle[4],以及经典的图像风格化方法Neural Style Transfer[5],其中为了使Pix2Pix能处理多种风格,将目标文字与参考风格串联起来作为其输入。可以看出Pix2Pix和StarGAN无法很好地迁移纹理细节。T-Effect会出现一些颜色突变,Neural Doodle无法保持字形,而Neural Style Transfer则风格比较混乱。比较而言,TET-GAN取得了最好的结果。图6展示了输入训练集中没有出现的艺术字风格,通过在一对图像上微调得到的风格迁移结果。可以看到,即使只有一张参考风格图像,TET-GAN也能生成不错的结果。图7展示了TET-GAN的一个应用,风格插值。通过对从不同艺术字图像提取到的字效特征进行插值,然后再与字形特征串联解码回图像域,就能得到融合了不同艺术风格的字效。
 
四、总结及讨论 
  1. TET-GAN提出了一种基于字形字效特征解耦与重组的字效迁移方法。显式的字形和字效特征提取,使得在同一个网络中进行多种字效的迁移与去除成为可能。

  2. TET-GAN提出了一个新的字效数据库,包含了上千的成对的文字-字效图片。

  3. TET-GAN提出了一种有效的网络微调方法,最少只需要一张字效图用于微调,就能够使网络能处理新的字效风格。

 
五、相关资源 
  • TET-GAN论文网站:http://www.icst.pku.edu.cn/struct/Projects/TETGAN.html
  • TET-GAN论文代码:https://github.com/williamyang1991/TET-GAN
  • T-Effect论文网站:http://www.icst.pku.edu.cn/struct/Projects/TET.html
  • TE141K字效数据库:https://daooshee.github.io/TE141K/
 
参考文献 
[1] P. Isola, J. Y. Zhu, T. Zhou, and A. A. Efros, Image-to-Image Translation with Conditional Adversarial Networks.CVPR. 2017.
[2] Y. Choi, M. Choi, M. Kim, J. W. Ha,S. Kim, and J. Choo, StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. CVPR. 2018.
[3] S. Yang, J. Liu, Z. Lian, and Z.Guo. Awesome Typography: Statistics-Based Text Effects Transfer. CVPR. 2017.
[4] A. J. Champandard. Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks. Arxiv. 2016.
[5] L. A. Gatys, A. S. Ecker, and M. Bethge. Image Style Transfer using Convolutional Neural Networks. CVPR. 2016
 

原文作者:Shuai Yang, Jiaying Liu, Wenjing Wang, Zongming Guo


撰稿:杨 帅

编排:高 学

审校:连宙辉

 发布:金连文


免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。



(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存