让四郎开口唱“朕EMO啦”,硬刚Sora的国产AI视频工具爆红!
“嬛嬛,朕emo啦!”
此前,一位名为“奶茶小肥仔”的博主靠模仿陈建斌的声线唱歌走红,“朕emo啦”“朕能不能睡中间”等网络热梗广为流传。新榜旗下数据工具新抖显示,“奶茶小肥仔”在抖音半年粉丝量飙升370万。
在他的视频中,网友往往只能看到《甄嬛传》的素材剪辑,如今,一款EMO模型的出现,让网友直接看到了“皇上开口唱歌”这一毫无违和感的画面。
近期,阿里通义实验室研发的AI视频生成模型“EMO”上线通义APP“全民舞台”频道,经测试,只需上传一张大头照,就可以让人物照片动起来,根据App预置的音频模板生成演唱视频。
这款被外媒誉为“Sora之后最受期待的大模型之一”,真实使用效果究竟如何?Sora引发新一轮AI视频生成浪潮,国内大厂中为什么频频出圈的是阿里?“头号AI玩家”进行了一番探究。
想让《甄嬛传》的四郎开口唱“嬛嬛朕想睡中间”?安排!
以上两段视频,都是在通义App中用一张图片自动生成的。
4月25日,EMO模型正式上线通义App,EMO是Emote Portrait Alive的缩写,作为一款音频驱动的肖像视频生成框架,EMO可以根据输入视频的长度生成任意持续时间的视频。今年2月,阿里巴巴发布了这款全新的生成式AI模型EMO并公布了技术论文(链接已同步至文末)。
论文信息显示,在EMO之前的肖像说话(Talking Head)技术需针对人脸或身体部分做3D建模,通义实验室率先提出了弱控制设计,无需建模就可驱动肖像开口说话,大大降低了视频制作成本;
此外,EMO还学习并编码了人类表达情绪的能力,可以匹配音频内容和人物的表情、嘴型,还能将音频语气特征和情绪色彩呈现到人物微表情上。
通义实验室给出了诸多视频案例,比如,重温张国荣开口唱歌的魅力;为高启强配上罗翔老师的讲法律的语音,演一出遵纪守法的小课堂。
目前,通义App上线了80多个EMO模板,包括“啊哈哈”李玉玲语音、“钵钵鸡”等网络热梗语音素材,还有《上春山》《野狼disco》等热门歌曲。
打开通义App,进入“全民舞台”频道,选择相应音频模板,上传人物大头照,就可以制作出打破次元壁的视频。
有网友打开脑洞,让兵马俑穿越到现代,唱起《科目三》;还有网友让蒙娜丽莎和玛丽莲梦露开口说起中文;甚至让灭霸唱起《野狼Disco》。
据头号AI玩家观察,语音模板时长集中在10秒到20秒之间,EMO刚上线时需排队数小时,目前一条视频的制作等待时间在十分钟到二十分钟左右。
玩家实测制作了十余条视频发现,通义App生成的AI视频人物的不仅嘴型和声音贴合自然,连眨眼细节也处理得不错,表情生动栩栩如生,堪称毫无违和感。
但若反复观看,仍能看出AI的痕迹,人物的情绪与台词贴合不够紧密,比如马斯克笑着唱“不想上班”,山姆奥特曼略带凶狠地喊“你算是踢到棉花啦”。
虽然EMO对人类情绪的学习捕捉能力仍有进步空间,但当下的AI视频已经达到以假乱真的程度,存在被滥用的风险。
据澎湃新闻报道,为防止对口型技术被滥用,通义实验室团队在应用内预置了经过审核的音频模板,暂不开放用户在EMO中自定义音频功能和API(应用程序编程接口);此外,平台会对用户生成内容进行算法和人工两道审核,确保内容安全。
大厂逐鹿AI视频生成赛道,为什么阿里能屡屡破圈?
如今,国内各大平台上涌入了大量“全民舞王”生成的舞蹈视频。
顶流之一莫过于这只舞姿妖娆动人的奶牛猫。
目前,话题#会跳舞的奶牛猫#在小红书上已有9000万次浏览。
围绕萌宠跳舞,不少博主出的制作教程都获得了不错的流量。此外,一些网友不仅将跳舞的奶牛猫制作成了表情包,还通过绿幕抠像将其运用在了猫meme视频的创作中,促进了内容二次传播。
2024中国生成式AI大会上,薄列峰提出了一个关于AIGC内容的思考:很多生成的视频画质是OK的,模型可以生成这个世界上不存在的物种也很有意思,但你会长期去消费这样的内容吗?
“我觉得在做AIGC内容生成之前,不管是基础研究还是应用思考,大家都在高速迭代,每个人都有自己的思考和对这个问题的答案。”薄列峰表示。
从“全民舞王”到如今的“全民唱演”,阿里或许给出了问题的答案,让AI技术与用户建立起真正的联系,与人们的生活、娱乐和社交紧密联系在一起,才是AIGC内容发展的长远之道。
EMO技术论文:
https://humanaigc.github.io/emote-portrait-alive/?ref=top.aibase.com
「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。