其他

牛津大学最新研究:给我一张照片,就能让你开口讲话

2017-05-16 你说啥? 量子位

若朴 发自 凹非寺
量子位 报道 | 公众号 QbitAI

这句话你说过没有?不承认?我给你看证据!

于是你就看到一段视频,画面中的你开口说了一段你不曾讲过的话,口型自然、动作流畅。这是怎么回事?

来自牛津大学工程科学系视觉几何组的三位工程师,最近提出了一种生成聊天面部视频的方法。这个方法需要两个输入信息:

  • 一张静止的面部图像

  • 一个语音片段

可以得到的输出,是口型与语音片段同步且匹配的视频。这个方法可以实时工作,并且在运行时,可以应用于未曾见过的面孔和未曾听过的音频,也就是说,不是训练数据的情况下也能工作。

干说不如来段视频,一下就全明白了:

https://v.qq.com/txp/iframe/player.html?vid=i0503qedntp&width=500&height=375&auto=0

为了实现上述效果,牛津大学的团队提出了一种编码-解码CNN模型,使用面部和音频的联合嵌入,来生成合成的面部聊天视频帧。这个模型经过数十小时未标记视频的训练。

相关Paper在此:

【完】

招聘

量子位正在招募编辑记者、运营、产品等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。

One More Thing…

今天AI界还有哪些事值得关注?在量子位(QbitAI)公众号对话界面回复“今天”,看我们全网搜罗的AI行业和研究动态。笔芯~

另外,欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。

 扫码强行关注『量子位』

追踪人工智能领域最劲内容


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存