AI生成视频是行业颠覆吗?大家要警惕这些现象,小心被骗!
大家好,我是科学羊🐑,这里是AI专辑~
我们继续来聊AI。
在数字创意的天地里,视频制作不再是简单的剪辑和拼接。
Sora,一款前沿的视频生成工具,已经把这个界限推向了新的高度。
通过它,我们可以见证文字转化为生动画面的魔法,不仅仅是一两秒的短片,而是长达一分钟的连贯故事。
视频由AI生成,来自OpenAI
让我们深入探究一下Sora的神奇之处。
在AI视频生成的领域,短暂的几秒钟视频一直是标准,但Sora破旧立新,用它的算法绘制出40至60秒的视频长卷。
这样的视频不仅内容丰富,风格统一,而且在真实感上也达到了令人叹为观止的水平。
更令人称奇的是,Sora能够仅凭一段简短的文字描述,就能勾勒出如此精彩的影像。
Sora的能力不止于此。
它还可以根据一张图片生成视频,打破了传统的创作边界。
想象一下,仅仅通过一张赛车的照片,Sora就能生成一段紧张激烈的赛车比赛视频。
而且,Sora还拥有独特的功能,能够根据已有的视频片段,改变场景或者故事发展,创造出全新的视觉体验,这是其他工具无法比拟的。
Sora还能进行所谓的“向前扩展视频”制作,这意味着它不仅能从当前画面向后编织故事,还能反向延伸,创造视频的开头部分,确保整个故事的连贯性。
更加神奇的是,Sora能够将几段看似毫无关联的视频片段有机结合,创造出一个完整的故事。
这一切的背后,是OpenAI对视频内容深度理解和高度数据化处理的成果。不仅仅是教会AI如何生成视频,更重要的是,让AI理解并创造出一个连贯、真实的世界。
这种理解不是基于物理定律的直接计算,而是通过对大量数据的分析和学习,对世界的细节和规律有了深刻的把握。
在Sora的世界里,视频制作变得如此生动和真实,仿佛它已经掌握了那些默会的世界规则:物体的持久存在、运动的连续性、以及物体固有的重量感。
所有这些,都是我们从小到大习以为常的常识,现在却被AI巧妙地应用于视频创作之中,让我们对“可能”的界限有了全新的认识。
接下来,科学羊给大家看几个案例,大家一定要警惕
昨天!也就是2024年2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。
EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。
EMO 不仅仅能让角色开口唱歌,还支持各种语言的口语音频,将不同风格的肖像画、绘画以及 3D 模型和 AI 生成的内容制作成栩栩如生的动画视频。比如奥黛丽赫本的谈话。
请见下图:
角色: 蒙娜丽莎
声音来源: 莎士比亚的独白 II As You Like It: Rosalind“ Yes,one; and in this way。”
角色: 张国荣
声音来源: 陈奕迅-无条件
角色: 来自 SORA 的 AI 女士
声音来源: Dua Lipa-Don’t Start Now
角色: 奥黛丽·赫本
声音来源: Ed Sheeran-Perfect,由 Samantha Harvey 负责
原理:
框架主要由两个阶段组成。
在初始阶段,称为帧编码,参考网是部署提取特征的参考图像和运动帧。
随后,在扩散处理阶段,预先训练的音频编码器处理音频嵌入。
面部区域掩模与多帧噪声相结合,控制面部图像的生成。其次是使用骨干网络,以促进去噪操作。在骨干网络中,注意机制有两种形式: 参考注意和音频注意。
这些机制对于保持角色的身份和调节角色的运动分别是必不可少的。此外,时间模块被用来操纵时间维度,并调整运动速度。
以上部分我们只做了解,所以大家一定要警惕未来文字和视频的骗局,以后看到视频前一定要先思考是不是AI生成的。
PS:
对于AI领域不熟或者想未来在AI领域学到技能,甚至想通过AI盈利的朋友,可以私我入群,我可以给大家免费详解关于GPT等工具的使用手册以及Sora相关前沿文档,AI方面的知识库。
扫码进群,仅限对AI感兴趣的朋友加入
参考文献:
[1].《卓克*科技参考*3》
[2]. https://humanaigc.github.io/emote-portrait-alive/
往期推荐