查看原文
其他

SD3 正式开源 Sora同源架构

赵kk 赵KK日常技术记录
2024-10-08

    2月16日伴随着OpenAI世界大模型Sora的发布,stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向,一个是图像生成方向,那么两者没有必然的联系,但Sora和Stablediffusion3的架构是出奇的一致,核心部分都是采用了Difusion Transformer的方式(在Stablediffusion3中称之为DiT)。本次模型参数量不是很大就当8-12G起吧

SD3的更新特点

采用Diffusion Transformer(DiT)架构:Stable Diffusion 3.0采用了与Sora相同的DiT架构,这种架构设计使得系统的扩展性更强,能够处理多种类型的输入数据

支持生成视频、3D内容:Stable Diffusion 3.0发布时,将包含一套完整的工具,支持生成视频、3D以及更多类型的内容创作

模型参数量的增加:从之前的800M参数升级到8亿参数量,这意味着新的模型能够为用户提供更多扩展性选择,同时生成的图片效果更加惊人

图像质量的提升:Stable Diffusion 3.0在图像质量和色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强

    今天收到邮件即将在下周三进行模型放出,如果想要商用记得填写申请许可证申请。

确定了Stablediffusion3与Sora的架构是一致的

Stable Diffusion 3 Medium,我们最先进的文本到图像即将推出!从6月12日下周星期三开始,您将能够在Hugging Face上下载重量。

 

SD3 Medium 是一个 20 亿参数的 SD3 模型,专门设计用于在以前模型难以解决的领域表现出色。以下是一些突出的功能:

  • 照片级真实感:克服手部和面部的常见伪影,无需复杂的工作流程即可提供高质量的图像。

  • 字体排印学: 在排版方面取得稳健的结果,优于更大的最先进的模型。

  • 性能: 由于其优化的尺寸和效率,非常适合消费者系统和企业工作负载。

  • 微调:能够从小型数据集中吸收细微的细节,非常适合定制和创意。

如果您等不及了,您可以通过我们友好的聊天机器人 Stable Assistant、Discord 上的 Stable Artisan 或我们的 API 访问我们功能最强大的文本到图像模型的 3 天免费试用。

 

Stable LM2 12B 为我们最先进的语言模型 Stable Assistant 提供支持,通过其强大的文本生成功能增强您的内容。

 

Stable Artisan 是我们有趣的多模态生成式 AI Discord 机器人,它利用了 Discord 生态系统中 Stability AI Platform API 上的产品。可以在 Stable Diffusion Discord Server 上访问该机器人,与我们社区的其他成员一起生成和编辑图像。


修改于
继续滑动看下一个
赵KK日常技术记录
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存