论文推荐|[IEEE TPAMI 2020] TE141K:用于文字风格转换的大规模艺术文字数据库
本文简要介绍新近在IEEE TPAMI 2020发表的论文"TE141K: Artistic Text Benchmark for Text Effect Transfer"的主要工作。该论文主要针对文字字效迁移问题,首先搜集了大规模成对的字效数据库TE141K,然后提出了TET-GAN字效迁移模型,最后在14种图像风格化模型上进行了性能比较,建立了文字字效迁移问题的基准(Benchmark),以便于后续相关研究的性能评估和分析。
图1. TE141K数据库
文字字效生成技术的目标是自动为文字增添诸如颜色、描边、阴影、反射和纹理等的艺术效果,使之看上去更生动更有吸引力。其中,字效迁移任务指为文字渲染指定的参考样例字效,可被广泛地应用于广告、杂志、海报等平面设计中。然而艺术字的人工制作过程繁琐,需要一定的技术。全自动字效生成方法具有巨大的商用价值。目前已有一些成熟的图像风格化算法在绘画风格迁移上取得优良的性能,并且围绕字效迁移也提出了诸如T-Effect、UT-Effect、TET-GAN等风格化模型。为了促进字效迁移相关研究的发展,亟待建立一个字效迁移的基准,提供可靠的数据和分析用以评价不同图像风格化模型在字效迁移任务上的性能。今天介绍的文章提出了新的大规模字效数据集,并建立了字效迁移的基准,其提出的字效迁移模型在不同的字效迁移任务中取得了不错的性能。
图2. TE141K数据库统计数据
如图2所示,TE141K总计包含141,081张成对的文字/字效图像,其中共计152种不同的字效风格,涵盖中英等不同的字形。根据字形,将整个数据库划分为三个子数据集:TE141K-E只包含英文字母,适合作为基础的训练集;TE141K-C训练集包含汉字,测试集既包含汉字又包含字母和数字,适合更进一步地考察风格化模型对字形的泛化性;TE141K-S包含中英文以外的小语种和特殊字符,在文章中用于作为单样本风格训练的数据考察模型对不同风格的适应性。
在风格方面,字效具有一定的多样性。在前、背景纹理方面涵盖了纯色、渐变色和复杂程度不同的纹理,在描边特效方面涵盖了不同粗细程度和规则与不规则的文字描边效果,在立体特效方面涵盖了浮雕、光照、阴影及其组合的3D效果。
该数据集的提出可以支持多种不同难易程度的字效迁移任务,其中这篇文章对以下3项任务在不同风格化模型上建立了基准。
1、监督的多风格字效迁移:模型在整个TE141K数据集上训练和测试。
2、监督的单样本字效迁移:模型可在TE141K-E和TE141K-C上训练,在TE141K-S上测试,测试提供目标风格的一张字效图像及其对应的文字图像作为风格参考,允许模型在该样本上微调。
3、无监督的单样本字效迁移:模型可在TE141K-E和TE141K-C上训练,在TE141K-S上测试,测试提供目标风格的一张字效图像作为风格参考,不提供其对应的文字图像,允许模型在该样本上微调。
图3展示了用于比较的图像风格化算法,包含全局统计模型、局部图像块模型以及基于生成对抗网络的模型。评价指标包含传统的PSNR、SSIM,基于视觉感知的Perceptual Loss和基于Gram矩阵的Style Loss,同时还包含主观的用户打分。
图3. 比较算法概览
图4-6分别展示了不同图像风格化模型在监督的多风格字效迁移,监督的单样本字效迁移,无监督的单样本字效迁移三个任务上的定量评价结果与主观视觉比较。
图4. 监督的多风格字效迁移的定量评价与视觉比较
图5. 监督的单样本字效迁移的定量评价与视觉比较
图6. 无监督的单样本字效迁移的定量评价与视觉比较
在更困难的无监督的单样本字效迁移任务上,NST[1]、AdaIN[2]、WCT[3]、Quiting[5]、CNNMRF[6]、UT-Effect[9]等都无法有效建立风格与内容之间的映射关系,因此具有明显的风格差异。
此外,文章还分析了字效迁移的难度(以用户主观打分的分数衡量)与字效风格本身的关系,通过对用户打分与图2(b)中的字效种类进行回归分析,发现非对称的文字描边效果以及背景图中的复杂纹理是字效迁移的难点,而对于各类模型都最容易处理的特效为普通的文字描边效果,为后续字效迁移的改进方向指明了要点。
图7. 联合字形风格迁移与字效风格迁移的文字风格化
图7展示了将TET-GAN扩展到字形风格迁移的结果,通过将在字效数据集上训练的模型和在字形数据集上训练的模型组合使用,TET-GAN能同时迁移参考风格图像中的字形和字效风格,从而获得更一致的风格化结果。
TE141K论文网站及数据库:https://daooshee.github.io/TE141K/ TE141K评测模型代码:https://github.com/daooshee/TE141K/blob/master/Review.md TET-GAN推文:https://mp.weixin.qq.com/s/I5WfG2aCMakao3IF30rLGg TET-GAN论文网站:http://39.96.165.147/Projects/ys_aaai19/TETGAN.html T-Effect论文网站:http://www.icst.pku.edu.cn/struct/Projects/TET.html
原文作者:Shuai Yang, Wenjing Wang, Jiaying Liu
编排:高 学
审校:殷 飞
发布:金连文
论文推荐|[CVPR2020] SwapText: Image Based Texts Transfer in Scenes 论文推荐|[CVPR 2020]: 基于深度关系推理图网络的任意形状文本检测(有源码) 论文推荐|汉字层次学习的自由基分析网络 论文推荐|[AAAI 2020] GTC: CTC引导训练实现有效准确的场景文本识别 论文推荐|用于算术习题自动批改的结构文本精确识别方法 10篇与文档图像分析识别相关的AAAI 2020论文(附下载链接) 论文推荐|[AAAI 2020] SynSig2Vec:无需任何真实仿冒签名数据亦可训练高性能笔迹鉴别模型 论文推荐 [SCIS 2020]面向场景文本识别的带聚焦注意力机制的convLSTM 论文推荐|[SCIS 2020]PRN:面向不规则文字识别的渐进矫正网络 论文推荐 |[AAAI 2020] 面向文本识别的去耦注意力网络
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)