独家揭秘！抖音爆款实时视频漫画变身特效背后技术

查看原文

其他

独家揭秘！抖音爆款实时视频漫画变身特效背后技术

Original 夕颜 CSDN 2020-12-18

记者 | 夕颜

出品 | CSDN（ID:CSDNnews）

动漫伴随着我们大部分人的青春，很多人悄咪咪地都有一个动漫梦，如果有一天能变身成为漫画中的人，感觉一定很奇妙吧？

还真就有人用技术手段帮我们实现了这个梦想。最近，抖音推出的一款漫画变身特效成为爆款，不论是高颜值的明星大咖，还是我等芸芸众生，都可以随手拍个视频，过把漫画瘾。

普世风格漫画脸的诞生

这款漫画特效这么火，与特效的操作简单，风格也比较符合大众审美有很大关系，左右滑动就能切换现实和虚拟漫画，效果也清新自然，符合大众用上之后就“变美”的心理预期。

不过，在确定最终特效风格之前，抖音团队也是考虑到不同年龄人群的喜好，搜集观看了大量的漫画风格，包括当下日漫、国漫、韩漫的主流风格的漫画、番剧，比如日系清新风

国漫萌萌哒风

还有这样的（不知道什么风😂）初期效果探索

但选到最后，团队锁定的效果方向为：具普世风格的漫画脸效果。

最终效果确定

这个所谓的具有普世风格的漫画脸，需要满足两个基本的要求——“像”和“美”。使用过这个特效的人应该对这两点没有什么异议，使用特效后，人物发型、脸型，甚至是表情和眼神都和真人神似，漫画脸也让人觉得莫名舒服，还挺好看。

实时视频处理背后技术独家揭秘

当然，除了好玩之外，这个特效背后的“技术”，才是我们最感兴趣的。

和其他此前火爆过的漫画效果相比，这个特效总结起来特别之处在于三个关键字：“实时”、“视频”和“漫画”。

之前，我们已经看过过很多漫画相关的技术应用出现，比如港中文、哈工大和腾讯优图合作的一篇论文中提出的方法，可以将将人脸照片转化成手绘版风格的卡通图，甚至反向把卡通图转换成真人版，很神奇。

华盛顿大学的照片唤醒技术，可以把动态图像转换成3D动态，让目标像是从画里走出来一般：

这些神奇的魔法，都与GAN技术相关。GAN（生成式对抗网络，Generative Adversarial Networks ）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。由于这样的特点，GAN成为各种生成技术的不二之选。

抖音这次推出的漫画变身特效主要技术也还是GAN，但与以往相比也有差异之处。

此前，变漫画功能基本都基于人脸表情跟踪，学界和工业界都没有千人千面的实时漫画生成方法，这次抖音推出的漫画特效是在视频中实时实现的，这项技术在全球也是首次落地。在视频中，可实现人脸和头发变漫画的效果，配合背景风格迁移技术，完成全屏漫画的实时生成，并且通过“手动滑杆”道具，能与真实视频随意切换。

实际上，抖音实时漫画特效在最终技术选型之前，曾对比过大量当前生成技术方法，包括生成漫画的方法，如 ugatit，也有做其他任务的方法，如 MUNIT 等。但经调研发现，当前的 GAN 用于漫画生成、风格迁移等任务存在一些问题，首先是训练不稳定，超参数进行一些微小的调整就可能对结果产生很大影响，而且还容易遇到梯度消失的问题。对此，抖音的改善方案是尝试多种 loss，包括WGAN、LSGAN等，但目前为止还是没有银弹，所以需要在实验过程中监控梯度的变化。

抖音技术团队告诉CSDN，在漫画视频技术探索过程中，技术团队在初期尝试中屡屡碰壁，在前期预研中，输出版本效果与图片版相差较大，且性能也未能达标。在几次尝试效果均不理想的情况下，团队内部一度对实时漫画的可行性也出现了怀疑。

但好在几次失败的尝试后，在总结经验时有人指出了关键所在：之前的模型结构单一，不同模型的优缺点不完全一致。于是，技术团队尝试了模型嫁接的方法，用不同的模块拼接出新模型，大幅提升了漫画的生成质量。在质量达标后，又通过计算每层的重要程度来裁剪模型，最终确定了实时版模型的结构。

效果产品团队也参与模型效果调优，总结出参数与效果之间的定量关系，通过微调参数优化模型。最终，行业首发的高清实时真人漫画风格处理爆款才得以诞生。

与静态图片处理相比，实现实时漫画处理究竟难在哪里呢，尤其是在手机端实现？

抖音技术团队表示，实时视频漫画处理难度还是挺高的，比如模型本身计算量需要非常小，在有限的计算量下要达到比较好的漫画效果，需要让每一次运算都要充分发挥其价值。其次，抖音的用户众多，用户使用的机型性能差距也非常大。为了满足不同层次用户的需求，抖音研发了复杂的模型下发策略，实现了模型的定制化下发，这在最终保证了实时漫画的成功上线，在效果和性能方面达到实时漫画的要求。

此外，抖音漫画特效启用了自研的推理引擎ByteNN，这个针对端侧算法快速落地的推理引擎不仅支持 CPU 和 GPU 的通用计算能力，也充分发挥了厂商 NPU/DSP 硬件的加速能力，端侧性能和功耗均处于业界领先水平，这也保证了实时漫画能够稳定支持抖音海量的用户群体。

当然，这个实时漫画特效目前的算法针对一些特殊场景还是有一定优化空间，在之后的迭代中也会从模型本身和推理引擎两个方面入手，提升模型效果的同时优化推理性能。

在泛娱乐场景，GAN还有更大发挥空间

从当前推出的一些漫画生成效果来看，GAN这个热门技术确实为娱乐领域注入了很多新小的血液，引入了一些新鲜的玩法。不仅限于漫画，泛娱乐领域中，GAN方法的应用潜力肉眼可见，未来，这项新兴技术还会有哪些技术发展趋势，或者研究热点呢？

抖音技术人员认为，GAN本质上是分布之间的迁移，只要能定义分布之间的映射，就能尝试GAN。至于未来GAN还可以在哪些方向上大有用武之地，他们认为真实感和非真实感的风格迁移可能是长期的热点。除此之外，生成网络与3D技术的结合也可能是未来的热点之一。

比如同时期在日本一款爆火的3D 姿态追踪漫画人物应用ThreeDPoseTracker，只需要使用一个USB摄像机或一段舞蹈视频来捕获运动，通过一种姿势预估模型（主干为Res-Net-34），就能让虚拟动漫人物跟着自己舞动，生成的动作效果十分精准、自然流畅。

抖音表示，这是一个有趣的应用，团队一直在关注一些前沿并且有趣的技术，事实上，抖音此前也已经上线了类似的特效，抖音搜索“召唤光头强”、“Line dancer”就可以体验。

正如抖音技术人员所说，GAN的能力不应仅局限于图片，3D的应用场景将给这项技术提供更大的展示舞台，期待在未来，GAN能够带给我们更多惊喜！

更多精彩推荐

☞时隔 15 年，苹果的自研 ARM 芯片为何能取代 Intel 处理器？

☞从微信「拍一拍」，我想到了那些神奇的一行代码功能

☞AI 又进阶！除了鉴别 PS 图片，还能一键卸妆！

☞无代码开发到底是不是伪需求？

☞程序员端午炫富指南~

☞Spring 从入门到入土——AOP 就这么简单！| 原力计划

☞硬核！国外开发者用 25 美元做了个区块链警佩相机！

你点的每个“在看”，我都认真当成了喜欢

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！

舞帝一哥被封！谁也没面子！阿哲回应外界舆论，放话：真金白银谁敢干！

吃仇恨票？小天天甩脸，秒挂舞帝！阿哲太权威了，仙洋KS喊话！白冰0人抢福袋遭群嘲！

炸瓜！举报全封！爆阿哲签约抖音条件之一！陈伯@哲旭，喊话粉丝：多学习呱呱和猴子！