查看原文
其他

OpenAI发布Sora可生成60秒视频 Sd Gemini纷纷撞车 只有它还能打

赵kk 赵KK日常技术记录
2024-10-08

Runway:KK

Pika:AA

Sora :王炸!!!

    凌晨2点,各个群便突然地炸起来了,Openai发布的Sora可以生成一个60S无闪动长镜头的视频,朋友圈纷纷刷屏,现实,不存在了~~

    其实无论Sora发布与否当下不乏有动辄百万的AI创意短片长片内容,通过剪辑配音达到一样短片大片的效果,即便Sora发布也是一样,共同需要的一点:创意

    有人说创意AI也能生成.....

    在昨晚的Sora讨论会上各位大佬也对当下的Sora发布做了分享,有人认为重创了影视行业,但带来了机遇和降本增效.....

近期热点

  1. OpenAI发布Sora可生成60S长视频

  2. Stability 发布视频SVD1.1 和新模型cascade,可在Comfyui中集成,优于SDXL速度和质量14%

  3. Sora一出能打的就剩它了

  4. GPT4总结Sora

官方公布视频混剪

没有上网条件的可以参考以下链接

https://yv4kfv1n3j.feishu.cn/docx/KOXHdpf6CoyYmaxwr4DcOVnMnze

Gemini和SD纷纷撞车

SVD1.1 和新模型cascade

     这是一个建立在Würstchen架构之上的创新文本到图像模型。Stable Cascade的显著特点在于其采用的三阶段方法,这种方法不仅在图像质量、灵活性和微调能力上达到了新的高度,而且极大地降低了对硬件的要求,使得在普通消费级硬件上进行训练和微调变得轻而易举。为了支持用户更深入地探索和利用这一新架构,我们提供了一系列的资源,包括检查点、推理脚本,以及专门用于微调和优化的ControlNet和LoRA训练脚本。所有这些资源都可以在Stability的GitHub页面上轻松获取。目标是通过Stable Cascade,进一步消除硬件限制,让更多研究者和开发者能够参与到这一领域的创新中来。此外,鼓励用户利用diffusers库中的推理代码,来进一步定制和优化模型,以实现更多样化的图像生成效果

技术细节

Stable Cascade 与我们的 Stable Diffusion 系列模型不同,它建立在由三个不同模型组成的流水线上:这种架构允许对图像进行分层压缩,在利用高度压缩的潜空间的同时实现出色的输出。让我们看看每个阶段,了解它们是如何组合在一起的


SD cascadeComfyui工作流

链接:https://pan.quark.cn/s/76fc9e2a88f8

Sora一出能打的就剩它了

在此之前,我们忽略了一个重要的工具,它的视频从始至终便没有闪动,从预发布开始到正式上线,功能所见即所得,指定任意人物可替换为任意角色,他就是王者Wonder Studio AI。唯一影响了他传播度的原因就是他太贵了

Wonder Studio AI是开放了但要我1000美元?替代品是什么?

Wonder Dynamics 推出了一个名为 Wonder Studio AI 的在线视频特效处理平台。该平台基于人工智能技术,能够让用户轻松将任何CG角色动画、灯光和合成到真实场景中,而无需使用任何动作捕捉、3D软件或制作硬件。

用户只需上传CG角色模型和拍摄的视频,Wonder Dynamics 的 AI 就能自动处理剩下的工作。此外,Wonder Studio AI 还具有多项特色功能,如无需动作捕捉和复杂的3D软件以及可以适应现有的流程等。

用gpt4总结了下官网发文

最后结尾他评价到:没有深入探讨模型更多技术细节

OpenAI的文章介绍了一个名为Sora的视频生成模型,该模型旨在模拟现实世界。以下是文章的主要内容概要:

统一的视觉数据表示:Sora是一个能够处理各种类型视觉数据的生成模型,包括不同时长、宽高比和分辨率的视频和图像。它的训练规模很大,类似于大型语言模型(LLMs)在互联网规模数据上的训练。

视频转换为补丁:模型通过将视频压缩到低维潜在空间,然后将其分解为时空补丁,来转换视频。这种方法的灵感来自于LLMs中的令牌化,补丁作为视觉等价物。

视频压缩网络:Sora包括一个减少视觉数据维度的网络,将原始视频转换为一个压缩的潜在表示,这个表示在时间和空间上都是高效的。

时空潜在补丁:这些补丁充当变换器令牌,并允许模型在具有变化特性的视频和图像上进行训练。在推断时,可以通过按所需大小排列这些补丁在网格中来控制生成视频的大小。

扩展变换器用于视频生成:Sora使用扩散变换器方法,这在各种领域都显示出了有效的扩展属性。随着训练计算量的增加,模型质量得到改善。

可变的时长、分辨率、宽高比:在原始大小的数据上进行训练而不是标准化它们,显示出了如采样灵活性和改进构图与排列等好处。

语言理解:模型使用高度描述性的视频字幕来提高文本忠实度和整体视频质量。它还利用GPT将用户提示扩展成详细的字幕,增强生成视频对用户输入的相关性。

使用图像和视频提示:Sora不仅可以用文本提示,还可以用现有的图像或视频进行提示,以执行各种编辑任务,如创建循环、使静态图像动起来或延长视频时间。

动画和延长视频:该模型可以使静态图像动起来或将视频向前或向后延长,以创建无缝循环。

视频到视频编辑:Sora可以应用基于文本提示的编辑技术,在视频中转换风格。

文章通过示例展示了Sora的能力,如根据DALL·E 2和DALL·E 3的图像进行动画制作,以及延长视频以创建无限循环。

这个概要捕捉了OpenAI文章的精髓,而没有深入探讨模型实现的更多技术细节,这些在报告中并未包含。

个人观点,仅供参考
继续滑动看下一个
赵KK日常技术记录
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存