SD 3:已开源,附即用方案,附测试对比
长话短说
SD3 Medium 已开源
公告
https://stability.ai/news/stable-diffusion-3-medium
下载
https://huggingface.co/stabilityai/stable-diffusion-3-medium
费
其他信息
模型速览
模型为 2B,针对消费级 PC 和企业级 GPU 优化,擅长处理复杂提示并生成高质量图像。用户可以通过 Stability Platform、Stable Assistant 和 Stable Artisan 进行试用,并与 NVIDIA 和 AMD 合作优化性能。
独特之处
逼真度:解决了手部和面部的常见瑕疵问题,生成高质量图像,无需复杂工作流程。
精准理解:能够理解空间关系、构图元素、动作和风格的复杂提示。
字体生成:借助 Diffusion Transformer 架构,在生成文本时实现前所未有的效果,没有伪影和拼写错误。
资源高效:低显存占用,适合在标准消费级 GPU 上运行而不影响性能。
精细调优:能从小数据集中吸收细微细节,适合定制化需求。
投稿自大佬:ZHO
ZHO - 真 · 赛博菩萨
不用下载,开箱即用
(需 Colab Pro)
项目地址
https://colab.research.google.com/drive/1pcr1otfG5hs5N7IqpwZdxcj4EbbYF7ot
SD3 Medium Base工作流(已加入工作流合集)
https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO
SD3 Medium 说明
1)基础模型 1+3:(上图)
主模型:sd3_medium
文本编码器:clip_g、clip_l、t5xxl_fp16/t5xxl_fp8_e4m3fn
使用:在 ComfyUI 中使用时需分别通过模型加载器和CLIP加载器加载,t5xxl是非必要项
2)融合了文本编码器的模型 2 个:(下图)
无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l
有T5:sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn
使用:在 ComfyUI 中使用时直接用模型加载器加载主模型即可,无需CLIP加载器(如同之前的SD1.5或SDXL的基础工作流)
来自 Diffuseum 众测
我也是光荣一员
欢迎参与!!
https://wbe2qcwjls.feishu.cn/docx/ZGLcdZt7coQM1YxVmrpcBvb0nhb
宙宙
(需 Colab Pro)
之前听闻SD3开源版本和API表现效果会有差异,又看到开放的是一个不大的2B版本,所以接着更新了上次SD3 API和主流生图网站的测试对比文档。初步测试的感受:
开源版本和API效果差别不大,开源还是很有诚意的!!
Medium在2B的体量下语义理解能力不错,对于多个意象的控制和API差不多,相较XL都有明显的提升;后期可以再搭配社区的延伸,上限很高
开源版本的美学和API相比各有差异,艺术风格的表现上弱了点,但是写实类差别不大,甚至部分情形更佳
本版本在对齐和安全上花费了大量努力,可以看出屏蔽了不少概念,些许矫枉过正,会出现雕塑穿内衣的情况
Medium生成超长文字在画面上时有时候会崩,API更稳定一些
测试
还有更多,等你来测...