查看原文
其他

高启强畅谈罗翔普法,蒙娜丽莎一展歌喉!?阿里开发AI图生视频模型EMO

小松蘑 CGSOMO
2024-07-22
更高质量的CG模型网站

www.cgsomo.com


嗨!老铁们,我是你的好朋友小SOMO!

今儿讲讲阿里巴巴的EMO

一个可以让照片开口说话的AI工具!

起猛了,一觉醒来,高启强和罗翔老师梦幻联动讲起法律了!就连世界名画《蒙娜丽莎》都能讲几句莎士比亚诗集了,小李子都能在线来段Rap,这究竟怎么一肥事?

追根溯源,这一切都要从2024年2月28日那天说起......

继美国OpenAI公司推出Sora引爆全网、Stable Diffusion 3出头与之争霸后,中国互联网科技巨头阿里巴巴(Alibaba Group)以迅雷不及掩耳之势奋起直追!!

是的!在这天,阿里巴巴集团智能计算研究所团队推出了新技术-EMO!

EMO是什么?它能做什么?

官方称其为:在弱条件下使用音视频扩散模型生成富有表现力的人像视频!

它能做什么呢?如下图所示,只需要输入一段任意音频(说话、唱歌啥都行)+一张图片(真人肖像、AI生成的、动画类型的...)EMO就能生成会说话唱歌的AI视频。

在以往AI生成的头像视频中,人物只能动嘴,面部表情并不会有太大变化,甚至可以用僵硬来形容,就像简单拼凑出来的一张张表情图片一样,嘴是嘴,脸是脸!

EMO不一般,它可以还原真实且丰富的面部表情,包括微表情,连头部姿势的运动都十分的生动自然。并且呢,生成视频的长度和输入音频长度相匹配,支持任意语音、任意语速、任意图像...

生成视频案例

让肖像唱歌

角色:由dreamshaper XL生成的AI蒙娜丽莎,声音来源:Miley Cyrus - Flowers

下面这位“大姐大”熟悉不,就是前几日Sora官方发布视频中的AI Lady~EMO将它也拿出来“训练”了一番!现在她不止能在东京的街头走一走~还能表情丰富的高歌一曲!

角色:SORA中的AI Lady,声音来源:Dua Lipa - Don’t Start Now

不同语言和肖像风格

EMO支持各种语言的歌曲,如普通话、日文、粤语、韩语。以及各种不同的风格,它可以直观地识别音频中的音调变化,来生成动态、表情丰富的人像视频。

由于文章可放视频数量的原因,咱们就抽一个哥哥的视频,来看一下效果如何吧!

人物:张国荣 声乐来源: 陈奕迅 - Unconditional(粤语)

另外三个截图给大家看表情生动程度!

角色:由ChilloutMix生成的AI Girl,声音来源:陶喆 - Melody(普通话)

角色:AI Ymir from AnyLora & Ymir Fritz Adult声乐出处: 『冲撃』音乐录影带【TVanime「进撃の巨人」The Final Season エンディngテーマ曲】(日文)

角色:WildCardX-XL-Fusion生成的AI女孩,声音来源:JENNIE - SOLO,封面:Aiana(韩语)

快速节奏

就算节奏快也不怕,最快的歌词也能动态的角色动画同步,同时保证面部表情的丰富性。这唱Rap的小李子太帅了!

角色:莱昂纳多·威廉·迪卡普里奥,声音来源: EMINEM - GODZILLA (FT. JUICE WRLD) COVER

角色:坤坤,声乐来源:Eminem - Rap God

与不同的角色交谈

你以为仅仅限于处理唱歌的音频输入吗?

不,它还可以容纳各种语言的口语音频!除此之外,还能够将过去肖像、绘画以及3D模型、AI生成的内容制作成动画,注入逼真的动作和真实感!

角色:奥黛丽·凯瑟琳·赫本-拉斯顿,声音来源:采访剪辑
角色:蒙娜丽莎声音来源: 莎士比亚的独白

跨演员表演

这个就是文章最开始出现的高启强畅谈罗翔老师的法律视频方法啦,这个方法为角色扮演带来更多可能性。

角色:华金·拉斐尔·菲尼克斯 - The Jocker - 《Jocker 2019》,声乐来源:《黑暗骑士》2008

角色:由xxmix_9realisticSDXL生成的AI女孩,声音来源:itsjuli4发布的视频

EMO工作原理与技术实现

EMO成功生成了会唱歌的头像视频,效果自然并且呢十分生动!

那么,EMO的背后的工作原理与技术是怎样的呢?咱们一起来简单的聊一聊!

和传统的繁琐流程不一样,EMO采用直接从音频合成视频的方法,根本就不需要中间的3D模型或面部标记点的使用,简化生成过程的同时,还可以保持超高的表现力和自然逼真性。其框架的核心在于它运用了一个名为Stable Diffusion(SD)的文本到图像模型,这个模型能够将输入的音频信号与图像特征结合起来!

在技术方面,请看:

这个方法主要分为两个阶段:

  • 第一阶段:“帧编码”阶段(Frames Encoding),在这个阶段,使用 ReferenceNet来从参考图像和运动帧中提取特征。

  • 第二阶段:进入“扩散过程”阶段(Diffusion Process),在这一阶段,预训练的音频编码器处理音频嵌入,此外,面部区域的蒙版与多帧的噪点数据结合在一起,来控制面部图像的生成。

随后,使用Backbone Network来执行去噪处理。在Backbone Network中,主要运用了两种关键的注意力机制:参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。

这两种机制对于角色的面部特征保持一致和调整角色的面部运动都至关重要。最后,利用了时间模块来调节图像的时间维度,使角色的运动速度进行调整。这些组合在一起构成了整体框架。

反正呢,背后原理太复杂了,说了这么多专业的,大家还是云里雾里,那翻译过来总结一句大白话就是:EMO通过深度学习算法,对输入的图片和音频进行深度的分析和处理,提取出人物的面部特征和语音信息!然后,将这些信息融合在一起,就生成了一个动态的视频。

另外为了训练模型,团队构建了一个庞大而多样化的音视频数据集,包含超过250小时的视频和超过1.5亿张图像。这个数据集超级丰富,包含了演讲、电影和电视剧片段以及歌唱表演,语言种类也很多,有中文英文日文等....正是因为有这么多丰富的训练材料,才能更加确保模型能够更加精准的捕捉到人类表情与声音风格!

总之呢,EMO的推出,毫无疑问的像整个世界展示了阿里巴巴在AI领域的强大!并且也为各行各业带来了新的机遇。随着今年各项AI的发展,相信还会有更多让人目瞪口呆的神器应用出现!

EMO在公开课论文的同时宣布开源,编编去GitHub上看了看,目前除了自述论文,并没有其他,但肯定也不会等太久啦!

今天的文章就到这里结束了,编编在想,等EMO可以使用了,面对枯燥乏味的课程,可以换一张自己偶像的脸,那肯定就能认认真真淌着哈喇子听完全程了!

那大家呢?还能想到用EMO做些什么呢?说出来讨论一番呀!

论文:
https://arxiv.org/pdf/2402.17485.pdf
GitHub:
https://github.com/HumanAIGC/EMO


我的好朋友小SOMO,高质量CG模型哪里找?



当然是(cgsomo.com)啦!!点击文末“阅读全文”免费CG模型等你带走~


看了这么久设个星标,再走哦~


- End -


【模型分享】破旧车类3D模型


Blender大神带你穿越30年前的老式PS游戏,快进来吸吸“多巴胺”!


看着挺过瘾!各路大神用UE渲的超写实人像,太炸裂了!


Sora对手?Stable Diffusion 3强在哪?


继续滑动看下一个
CGSOMO
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存