进入哈利波特的世界，会说话的蒙娜丽莎什么样？

Original 药明康德AI 药明康德AI 2021-01-27

药明康德AI/报道

年尾将至，从各类盘点榜单看来，2019也是收获颇丰的一年，人工智能、疫苗、气候危机等是今年几大热词。“Altmetric百篇论文榜单”日前发布，该榜单包含了今年热议度高、讨论范围广的100篇研究，本文旨在介绍榜单中最受关注的一种AI视频合成系统，同时也是榜单中的Top 1，从发布指数来看其Altmetric指数达13557。

蒙娜丽莎，或许只在人头攒动的卢浮宫曾与她远远对望，相视一笑，抑或是在网上看一睹其“神秘”笑容，转发了几个恶搞表情包。可曾想过，神秘的蒙娜丽莎从传世名作中“复活”，并动起来了？这样的场景只在电影中见过，《哈利·波特》中格兰芬多休息室的胖夫人画像照进了现实。这项引起广泛关注的研究便要从“会动”的蒙娜丽莎说起。

▲ 开口讲话的蒙娜丽莎、焦虑的蒙娜丽莎，似乎没那么高冷了（动图来源：Egor Zakharov, Aliaksandra Shysheya）

这是真实头部说话神经模型的少样本对抗学习，没有3D建模，仅以一张静态图画就能训练制作出视频的技术，令人称奇。

今年5月，三星（Samsung）AI实验室以及俄罗斯斯科尔科沃创新中心（Skolkovo Innovation Center）的研究人员发篇题为 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的论文，概述了这种技术。该技术基于卷积神经网络（CNN），模型通过获得一个输入图像，从而可以模拟输出视频中目标对象的运动状态，也就是我们在上图所看到的。该研究5月预印发表，6月正式被计算机视觉领域顶级会议CVPR 2019收录。

其实此类想法和技术在此之前也不少见，已经有不少研究人员从事该类研究。2018年，华盛顿大学研究人员分享了他们创建的“真假奥巴马”——ObamaNet，该技术利用神经网络分析了数百万帧的视频，来确定奥巴马的面部表情如何变化。以及加州大学伯克利分校（University of California, Berkeley）研究团队使用YouTube视频训练AI，进而生成可以做后空翻等杂技动作的模型。大大小小研究不在少数，可为何独独这篇论文能吸引外界关注呢？

该研究的特殊之处便在于，其AI系统不需要经过大量数据集的训练过程，它只需看一次需要输出目标对象动作的静态图片就可以运行。研究人员将这种学习方式称为few-shot learning。在few-shot learning的基础上，研究人员采用元学习对VoxCeleb2（包含许多名人头像的数据库）数据集进行元训练（meta learning）。通过元训练，AI则学习到了怎样快速生成图像的能力，而不是具体生成某一特定类别图像的能力。

图片来源：Pixabay

接着，研究人员运用对抗学习（adversarial learning），创建了对抗神经网络，可以像“复制粘贴”的过程那样，将静态图中的面部信息“复制”到动图或视频中。它们分别是：

（1）嵌入式网络：可以将输入的静态图像中人像的眼耳口鼻等轮廓信息，转换为相关向量进而传给生成神经网络；

（2）生成神经网络：通过复制人像的面部标志（landmark），最终合成人在动态视频中的面部表情；

（3）鉴别神经网络：分别收集生成神经网络合成的面部图像、landmark和真实的动态视频的面部表情信息，通过对抗的方式提升生成神经网络的生成能力以及自身的辨别能力。

形象来说，生成神经网络是“造假方”，鉴别神经网络则是“打假方”，而嵌入式网络则像“帮凶”。一旦前两者能力达到平衡，基于对抗学习的AI模型的能力也就过关了。

▲ 3种神经网络的“对抗”示意图（图片来源：参考资料[1]

通过上述对抗学习的过程，加之元学习的方法，最终的AI模型能够在视频数据集上通过学习小量的样本，达到较强的学习能力，并可以运用此学习能力快速找到解决其他同类问题的方法。因此，最终的AI模型可以灵活的根据静态图片生成各式各样灵动的图像，并将这些图片装帧进而生成动态图像。

除了蒙娜丽莎之外，这项研究中，还有不少名人的静态头像也被研究人员用来进行相关研究。有穿越时空，与你进行科学对话的爱因斯坦。

图片来源：Egor Zakharov, Aliaksandra Shysheya

还有风情万千的玛丽莲·梦露重现魅力与光彩。

图片来源：Egor Zakharov, Aliaksandra Shysheya

从研究和技术层面来看，这是AI视频合成系统的一次突破发展。从社会性角度来看，同样引发不少热议，有人担心若是基于可观的转换率，视频通话是否因此会被造假？以假乱真会不会达到新高度？还有人表示未来流量演员会否因此仅靠一张张美图便闯荡影视圈？也有人在担心人脸支付的安全性。更有脑洞大开着希望凭借此技术，与曾经的中外智者进行平行时空的对话……

技术的更新迭代旨在便利造福人类，若是技术反而成为部分人的负担，并影响了社会秩序，那么技术合规必须被重视。Deepfake技术引发了广泛议论，让人“又爱又恨”，或许最近国家网信办出台的新规定，对AI技术换脸进行了明确约束，诸如这样的举措或许可以减少部分人的忧虑吧。

参考资料（可上下滑动查看）

[1] Few-Shot Adversarial Learning of Realistic Neural Talking Head Models Retrieved Dec 18, 2019 from https://arxiv.org/pdf/1905.08233v1.pdf

[2] Mona Lisa guest on TV? Researchers work out talking heads from photos, art Retrieved Dec 18, 2019 from https://techxplore.com/news/2019-05-mona-lisa-guest-tv-photos.html

[3] Samsung deepfake AI could fabricate a video of you from a single profile pic Retrieved Dec 18, 2019 from https://www.cnet.com/news/samsung-ai-deepfake-can-fabricate-a-video-of-you-from-a-single-photo-mona-lisa-cheapfake-dumbfake/

[4] http://www.sohu.com/a/315959168_129720

版权说明：欢迎个人转发至朋友圈，谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德AI」微信公众号后台回复“转载”，获取转载须知。

更多文章精选

点击图片阅读：今日《自然》：科幻级“触感皮肤”诞生，可远程感知亲友的抚摸

点击图片阅读：3D生物打印实现器官完全“自主存活”还要多久？

点击图片阅读：未来医院长什么样？投资20亿的新斯坦福医院告诉你答案

点“在看”，分享AI健康新动态

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）