查看原文
其他

全网首发:Stable Diffusion 3 Medium SD3模型参见 附带Comfyui工作流

赵kk 赵KK日常技术记录
2024-10-07

    千呼万唤始出来,与Sora一致性的架构无关,就是单纯的Stable Diffusion(以下简称SD)最近大动作太少了,不管是StableCascade还是Playground V2.5,亦或是Stableforge更新,在SD3面前,还是存在感不够的,而现在它终于来了,这个收个开放的MMDIT世界文生图大模型。PS虽然只是一个Medium版本,优先推荐在Comfyui中使用。

Stable Diffusion 3 模型生成图像:

  • SD3 Medium - 20 亿参数模型

  • SD3 Large - 80亿参数模型

  • SD3 Large Turbo - 80 亿参数模型,推理时间更快

温馨提示公众号已开启留言功能哦

如果还没有申请到模型资格,后台回复【SD3】获取模型首发链接和申请链接,附带Comfyui工作流

往期精彩内容

SD3 正式开源 Sora同源架构

低调使用 SDXL Playground免费白嫖可直接使用Dall-E 3  和 Google Imagen

AI变声器chatTTS教程来了!5S夺走你的卧槽

性能对比

我们将稳定扩散 3 的输出图像与其他各种开放模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及封闭源代码系统(如 DALL-E 3、Midjourney v6 和 Ideogram v1)进行了比较,以便根据人类反馈来评估性能。在这些测试中,人类评估员从每个模型中获得输出示例,并要求他们根据模型输出在多大程度上紧跟所给提示的上下文("紧跟提示")、在多大程度上根据提示渲染文本("排版")以及哪幅图像具有更高的美学质量("视觉美学")来选择最佳结果。

根据测试结果,我们发现 Stable Diffusion 3 在上述所有方面都与目前最先进的文本到图像生成系统相当,甚至更胜一筹。

在消费级硬件上进行的早期未优化推理测试中,我们最大的 8B 参数 SD3 模型适合 RTX 4090 的 24GB VRAM,使用 50 个采样步骤生成分辨率为 1024x1024 的图像需要 34 秒。此外,在最初发布时,稳定扩散 3 将有多种变体,从 800m 到 8B 参数模型不等,以进一步消除硬件障碍。

架构细节

对于文本到图像的生成,我们的模型必须同时考虑文本和图像两种模式。因此,我们称这种新架构为 MMDiT,意指其处理多种模式的能力。与之前版本的稳定扩散一样,我们使用预训练模型来推导合适的文本和图像表征。具体来说,我们使用三种不同的文本嵌入模型--两种 CLIP 模型和 T5--来编码文本表征,并使用改进的自动编码模型来编码图像标记。

SD3 架构基于扩散变换器("DiT",Peebles & Xie,2023 年)。由于文本嵌入和图像嵌入在概念上有很大不同,因此我们对两种模式使用两套不同的权重。如上图所示,这相当于为每种模态设置了两个独立的变换器,但将两种模态的序列结合起来进行注意力操作,从而使两种表征都能在各自的空间内工作,同时也将另一种空间考虑在内。

我们利用重新加权的整流公式和 MMDiT 骨干网对文本到图像的合成进行了扩展研究。我们训练的模型从带有 450M 个参数的 15 个图块到带有 8B 个参数的 38 个图块不等,并观察到验证损失随着模型大小和训练步骤的增加而平稳减少(上排)。为了检验这是否转化为模型输出的有意义改进,我们还评估了自动图像配准指标(GenEval)和人类偏好分数(ELO)(下行)。我们的结果表明,这些指标与验证损失之间存在很强的相关性,这表明后者可以很好地预测模型的整体性能。此外,缩放趋势没有显示出饱和的迹象,这让我们对未来继续提高模型性能持乐观态度。

修改于
继续滑动看下一个
赵KK日常技术记录
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存