查看原文
其他

视频大模型激战180天:Sora“高冷隐身”,国产巨头狂卷落地

雷科技AI硬件组 雷科技
2024-09-06

来源:雷科技AI硬件组 | 编辑:大月亮 | 排版:GUAN

2024年上半年,AI视频生成领域迎来了一系列令人瞩目的突破。
今年2月OpenAI发布了全新的文生视频模型Sora,率先开启了AI视频生成的ChatGPT时刻;3月26日,字节跳动旗下剪映Dreamina开放内测;4月27日,AI企业生数科技发布了号称国内首个自研视频大模型的Vidu;6月6日,快手可灵AI正式开放内测......
AI视频生成赛道在全球的高度关注下催生出一个又一个新技术成果,与此同时,国内外类Sora创企们也开始活跃起来。仅仅在今年上半年,爱诗科技、生数科技、Pika等AI企业就完成了多轮亿元级别的融资,成立于2018年的老牌AI视频生成企业Runway也传出新一轮的融资计划。
海量资金加持下的AI视频生成赛道必定会给我们带来更多惊喜,不过在此之前,借着这个年中时刻,小雷带大家来一起回顾下今年上半年的AI视频大模型产品,看看各家大模型发布了哪些新产品,它们在产品方向又有了什么新变化。

Sora持续隐身,

快手可灵AI火爆全网

1、Sora:引领视频生成技术路线创新
说实话,说实话,将Sora置于产品队列中讨论并不合适,因为Sora至今也没有对公众开放,只有业界和设计界的极少数人受邀使用。但考虑到Sora的出现推动了AI视频生成技术在全球范围内的迈进,为了方便大家理解,小雷认为还是有必要对其进行回顾。
在OpenAI发布Sora模型之前,代表着行业领先水平的是Runway、Pika Labs,以及谷歌VideoPoet这一批老牌AI视频生成玩家。它们没有引起全球关注的最大原因是生成视频的技术难度非常高。

图源:Sora
制作视频不仅需要依赖于先进的算法和强大的计算能力,还必须解决包括一致性、连贯性、物理合理性以及逻辑合理性在内的多种复杂问题。这些因素共同确保了视频内容的流畅性、真实性和可信度。
Runway们早期主要依赖于GAN(生成式对抗网络)和VAE(变分自编码器)两种模型进行视频生成,之后演变出两种技术路线,分别是扩散模型和Transformer模型,两者各具优劣,可以说是各有千秋。
而根据OpenAI在发布Sora当天给出的技术解释,Sora正是扩散模型和Transformer模型的结合。虽然在Sora发布之前,结合方案已成为业内普遍尝试的方向,但OpenAI作为首个发布Demo的企业,已经在AI视频生成领域确立了行业地位。

按照目前情况来看,OpenAI丝毫没有公开Sora的意思。在竞争日益加剧的AI视频生成领域,Sora的持续隐身会给其他竞争对手带来追赶甚至超越的机会。
2、快手可灵AI:国产AI国外爆火,高频更新值得期待
在2024年世界人工智能大会(WAIC)上,快手高级副总裁于越介绍了可灵AI的部分产品更新以及最新数据。作为一款刚刚发布一个月的产品,可灵AI的更新可谓是相当频繁。产品从内测时的App端,扩展到了Web端;功能也从文生视频,陆续更新了图生视频、视频续写、多尺寸选择、高画质版、首尾帧控制、镜头控制等新功能。
据快手披露的数据显示,可灵大模型上线一个月以来,累计申请用户数50万+,开通用户数30万+,生成视频数700万。同时,可灵AI凭借大幅度运动的合理性和物理世界特性的高度模拟能力在国内外社交媒体和技术社区受到广泛讨论。

图源:可灵AI生成
不少海外科技爱好者、专业从业者体验后纷纷表达了对中国AI的看好。美国著名创业投资公司Y Combinator CEO在海外社交媒体平台转发并称赞了可灵生成的Demo;英国开源人工智能公司Stability AI前CEO Emad Mostaque则表示:“中国的AI技术有自己的优势。”
自从OpenAI发布ChatGPT开始,大众普遍认为OpenAI代表着AIGC领域的领先水平。哪怕Sora迟迟未上线,类似的观点也没有太大改变。但作为内测体验过可灵AI的亲历者,小雷可以明确表示可灵AI无论是生成时长、效率,还是视频质量,都是目前AI视频生成产品的第一梯队,尤其是真实风格场景上的表现令人印象深刻,许多AIGC视频如果不细看,甚至无法发现是AI生成。
在Sora未正式发布前,外界很难判断孰优孰劣,但快手可灵AI的出现让我们看到了在AI视频生成领域超越的可能。此外,快手方面还宣布其首部AIGC短剧《山海》将在本月上映,期待可灵AI给我们带来新的惊喜。
3、字节即梦AI:进步明显,AIGC短剧带来行业新机遇
同样试水AIGC短剧的还有即梦AI。在今年的上海国际电影节上,抖音联合博纳影业出品制作的AIGC科幻短剧集《三星堆:未来启示录》正式亮相。
纯AI制作是该剧的最大亮点,借助包括AIGC剧本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等十种AIGC技术,或将解锁传统影视公司与AIGC技术产品合作、发展的新路径。

图源:即梦AI生成
即梦AI是字节旗下的一站式AIGC内容专业创作平台,支持文生视频和图生视频,提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等AI编辑功能。
今年5月,剪映Dreamina正式更名为即梦AI,小雷也在第一时间进行了体验相比于成熟的AI作图,即梦AI当时的AI视频水平是有些让人失望的,文生视频的自然语言理解能力没有问题,但视频质量确实有待提高,特别是真实物理特性方面,即梦还需要继续努力。
而图生视频由于给AI框定了方向,省去了想象组合步骤,视频质量要比文生视频好得多,但视频主体大幅运动的情况下,还是会出现闪现、扭曲的问题。

当然小雷体验的只不过是即梦AI的最初版本,经过一段时间的发展,即梦AI已经达到能生成AIGC短剧的水平,进步之大让人惊喜。小雷期待已久的故事创作模式相信不久就会正式对外开放,届时或许普通用户也能创作自己的AIGC连续剧。
4、Runway:Gen-3重磅更新,演示效果不输Sora
作为老牌AI视频生成厂商,Runway的视频生成模型Gen-1和Gen-2在初期收获了不少好评,随着竞争对手陆续推出搭载最新视频生成模型产品,Runway因为模型落后,在很长一段时间内饱受争议。
今年6月,Runway连夜发布了基于最新视频生成模型Gen-3生成的各种演示视频,电影级的画面细节直接震惊了全体网友。7月2日,Runway宣布Gen-3向所有用户开放使用,小雷原本也想尝试一番,但每月12美元的会员费把我劝退了,因此我也只能从演示视频画面来分析一二。
官方展示视频时长为10秒,人物生成中的人物面部细节和情感营造方面比较细腻,场景、风景生成中的元素、光影没有太大的违和感。比如这个视频,女子乘坐车辆穿过明暗交替的街道,外部光源照射在面部的变化十分自然,车外穿梭的车辆也没有出现断层等违和场景。

图源:Runway生成
官方公布视频的效果称得上是惊艳。虽然不知道正式使用的效果如何,但就目前来说,个人认为不输Sora。
5、Dream Machine:视频质量波动大,使用成本高
6 月 12 日,初创公司 Luma AI 发布了新的 AI 视频生成模型 Dream Machine(造梦机器),并且面向公众开放测试。很快,不仅官方放出的一系列样片,社交网络上还出现了一大堆由网友通过“造梦机器”生成的视频。
坦率地讲,“造梦机器”官方视频给小雷的第一印象还是挺惊艳的,除了人物主体和背景的一致性,最让人惊讶的可能是光照的变化,包括亮度的变化也符合基本的物理规律。
但在实际网友创作和分享的内容中,即便是在那些相当惊艳的少数作品中,你也能看到或多或少的错误。小雷也试着用“造梦机器”创作了一段视频,实际效果还是比较糟糕的:人物诡异的倒退,在背后拿着伞的怪异举动,还有飞起来的雨伞。

图源:Luma AI生成
“造梦机器”每月为普通用户提供30次免费生成机会,除了免费用户,“造梦机器”还提供三档付费选项,包括29.99美元的标准档、99.99美元的专业档以及499.99美元的高级档,区别是每个月可以生成视频的次数。
对于普通用户来说,这些定价比Runway的12美元还离谱,或许官方目标群体是那些通过“造梦机器”创作视频在TikTok上赚钱的创作者吧。

更长、更真实、更多元

AI视频不断进化

首先,今年AI视频最大的突破之一,就是生成视频长度的延长。要注意的是,小雷指的是模型极限区域的时长,而不是消费端时长。之前Runway和Pika都只能生成出3-4秒的视频,对于行业和用户来说,实在是太短了,根本无法满足长素材的需求。
小雷梳理了已对外公布的大模型视频生成时长,其中Sora为60秒,Vidu为32秒。快手就厉害了,它提供的视频续写功能支持连续多次续写视频内容,在保证视频一致性的前提下,最长生成3分钟视频,在视频时长这块,快手可以说是遥遥领先。
其次,是视频大模型产品输入方式的多元化。用户不再局限于文字输入,而是可以选择图像、视频作为输入,模型会根据用户的输入来生成视频。比如,用户可以上传一张静态图,而视频大模型则会根据图片制作视频。
最后,是人们对AI视频最大的期待:足够真实。上文有提到,生成视频的技术难度远比生成图片高。此前,AI生成视频有两个硬伤。一是如何让生成视频符合物理规律,通常出现在人与人、或者人与物体之间进行复杂交互时;二是时间的连贯性,也就是让AI记住视频中的人和物体,即使被暂时挡住或移出画面,之后再出现的时候也能按照物理逻辑地让视频保持连贯性。
这两点在今年得到了很好的改善,比如这个快手可灵AI生成的视频,当饺子进入小孩嘴里,部分饺子被完全遮挡,当再出现饺子时,吃饺子留下的咬痕和被咬后的饺子形态也能保持自然地继续运动,保持了时间和物体的连贯性。

图源:可灵AI生成
这意味着视频生成模型已经初步具备了“理解”世界的能力,理解物体运动过程中的物理世界,也能预测视频下一步可能发生什么。

下半年,

AI视频生成领域会有什么新惊喜?

以目前的发展趋势来看,今年下半年,还会有更多企业加入到AI视频生成的技术竞赛中。毕竟,过去的半年里,有不少资本热钱涌进了行业,新老玩家们都忙着猛推产品落地。
在2024世界人工智能大会(WAIC)上,新壹科技展示基于了新壹视频大模型的系列产品及应用场景解决方案,并正式发布了新壹视频大模型2.0版本。目前,新壹科技已在文旅、金融保险、媒体、营销、出版、政务、教育、汽车、医疗等众多场景打造了落地方案,大幅提高了各垂直领域的创造力和生产力。

图源:新壹科技
这其实也是下半年的一大趋势,AI视频生成赛道也将从卷模型,升级为卷落地。下半年,我们有望看到更多基于视频生成大模型的AIGC落地应用,这也就意味着我们会在更多场景看到AIGC内容。
正如前面所说的,AI视频的使用场景如今在不断被拓展,在AIGC短剧之外增加了大量新场景。而随着无线网络、AI大模型等技术的不断发展,AI视频运用的场景和功能也会逐渐变化。很可能,未来我们看到的广告、短视频、影视等内容都将由AIGC生成,需要用到真人拍摄的机会将越来越少。
AI视频还有更大的潜力,等待被挖掘。
End



继续滑动看下一个
雷科技
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存