SD3 正式开源 Sora同源架构
2月16日伴随着OpenAI世界大模型Sora的发布,stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向,一个是图像生成方向,那么两者没有必然的联系,但Sora和Stablediffusion3的架构是出奇的一致,核心部分都是采用了Difusion Transformer的方式(在Stablediffusion3中称之为DiT)。本次模型参数量不是很大就当8-12G起吧
SD3的更新特点
采用Diffusion Transformer(DiT)架构:Stable Diffusion 3.0采用了与Sora相同的DiT架构,这种架构设计使得系统的扩展性更强,能够处理多种类型的输入数据
支持生成视频、3D内容:Stable Diffusion 3.0发布时,将包含一套完整的工具,支持生成视频、3D以及更多类型的内容创作
模型参数量的增加:从之前的800M参数升级到8亿参数量,这意味着新的模型能够为用户提供更多扩展性选择,同时生成的图片效果更加惊人
图像质量的提升:Stable Diffusion 3.0在图像质量和色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强
今天收到邮件即将在下周三进行模型放出,如果想要商用记得填写申请许可证申请。
确定了Stablediffusion3与Sora的架构是一致的
Stable Diffusion 3 Medium,我们最先进的文本到图像即将推出!从6月12日下周星期三开始,您将能够在Hugging Face上下载重量。
SD3 Medium 是一个 20 亿参数的 SD3 模型,专门设计用于在以前模型难以解决的领域表现出色。以下是一些突出的功能:
照片级真实感:克服手部和面部的常见伪影,无需复杂的工作流程即可提供高质量的图像。
字体排印学: 在排版方面取得稳健的结果,优于更大的最先进的模型。
性能: 由于其优化的尺寸和效率,非常适合消费者系统和企业工作负载。
微调:能够从小型数据集中吸收细微的细节,非常适合定制和创意。
如果您等不及了,您可以通过我们友好的聊天机器人 Stable Assistant、Discord 上的 Stable Artisan 或我们的 API 访问我们功能最强大的文本到图像模型的 3 天免费试用。
Stable LM2 12B 为我们最先进的语言模型 Stable Assistant 提供支持,通过其强大的文本生成功能增强您的内容。
Stable Artisan 是我们有趣的多模态生成式 AI Discord 机器人,它利用了 Discord 生态系统中 Stability AI Platform API 上的产品。可以在 Stable Diffusion Discord Server 上访问该机器人,与我们社区的其他成员一起生成和编辑图像。