查看原文
其他

SORA七宗罪!现场演示翻车集锦

风清徐徐来 AI变现研习社 2024-06-01

等了一宿

传说中的 ChatGPT-4.5 没来

却等来了 SORA 翻车

咋回事?下面为你详细介绍

日前 OpenAI CTO Mira Murati 接受某电视台 SORA 专访,被记者现场要求输入提示词,生成了几段视频,如下:

结果,生成质量却大跌眼镜!

主要问题集中在:提示语相关性、画面连续性存在问题,屡屡抽卡失败!

这是生成式 AI 的通病!

怪不得 OpenAI 员工 Jason Wei 说《现在的 Sora = GPT2.0 时代》

下面和你详细分享:

问题 1:手部处理失败

在这个示例中,生成了两个职业女性

问题出在手指

手指处理不好是生成式 AI 通病,绘图 AI,MJ,SD 在早期版本中,经常出现 12 个手指,三条腿的情况

如下面这张 MJ 生成的三条腿小姐姐:

这种情况,只能通过输入负面提示词勉强规避!

不过最新的版本 MJ,SD,不设置负面提示词的话,也已经基本没有这个问题了

绘图软件如此,视频 AI 也有一个过程

预计 SORA 早期版本也应该有类似“负面提示词”的设置

问题 2 未完全遵循提示词

在另一个案例中,女主人给出的提示是“一个在纽约市人行道上拿着高端电影摄像机的女性视频制片人。突然,一个机器人把她手中的摄像机拽了出来。“

结果,sora 生成的视频,不是机器人把人类手中的摄像机拽出来,而是人类变成了机器人。模型并没有非常紧密地遵循提示

第一张:

第二张

第三张

问题 3 空间延续性存在误差

人们曾经对 Sora 空间的延续性大加称赞

在官方 demo 中,一个物体,离开了视线,但还是会继续运动,如同真实世界那样

但本次采访现场一次生成的却没有表现出这个特性

注意看

黄色的出租车改变了颜色!从黄色到灰色,然后后面又凭空出来了一辆出租车!

问题 4:物理性理解偏差

OpenAI 对 Sora 的定位是“真实世界模拟器”,从官方前期 DEMO 视频看,似乎知道物理世界的规律

比如,一个人咬汉堡,汉堡有咬痕,如下:

但在采访现场的一个闯进瓷器店的公牛来看

有些瓷器被牛踩了却没有损坏!质量是在太好了!

问题 5:没有声音

所有现场生成的 Sora 视频都没有声音,不过 Mira Murati 说,发布的时候,都会有声音。

问题 6:价格高

Mira Murati 在采访中提及,DALL-E(自家的 AI 绘图产品)在发布的时候,针对消费市场进行了优化,所以价格可以承担。现在 Sora 还是实验室产品,贵得多得多

问题 7:版权问题

在采访中,记者追着问,是否采用了公开视频训练 SORA,还拿传统媒体的动画片做了对比

左边是 Sora 生成的,右边是海绵宝宝动画片的。出奇的像啊

Mira Murati 支支吾吾,闪烁其词,最后说不确定用了哪些公开渠道的数据。

综上,从演示看,Sora 虽然远超其他视频 AI,但还是存在生成式 AI 的通病!

那就是连续性、稳定性不佳

问题来了,如果成本高,又面临生成质量问题,就很尴尬了

只能说,现在的 SORA 还是实验室产品,离正式发布还有一段时间

正如 Jason Wei 分享的,现在 SORA 还在 GPT2 时代,还需要大量优质视频来训练!

当年 GPT2.0 的推出,标志着能够产生流畅且语法正确文段的新时代。虽然 GPT2.0 无法完美撰写全篇文章,偶尔会出现逻辑不一致或是编造事实的情况,但它开启了模型迭代的新篇章。

在采访的最后,Mira Murati 承诺,这些 BUG 到发布的时候,都会修订,迎来 GPT-3 时代!

关于这次采访的更多信息,请看下面这篇文章。

ChatGPT之母​:SORA 2024年内铁定发布,支持音效!生成 20 秒长视频用时仅几分钟

我原来乐观估计 Sora 会在 4、5 月份发布,现在看了这段采访,我认为应该在 9、10 月份发布!

如果你还是一个 AI 小白,完全可以利用这段时间,从零开始,学习 AI 知识,等到 Sora 发布那天,你一定可以赶上这波 SORA 红利!

扫码加入免费学习群。

你也可以直接加入 VIP 微信群,学习氛围更好,



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存