查看原文
其他

文生图王者登场:Stable Diffusion 3 Medium开源|SiliconCloud上新

SiliconCloud 硅基流动 2024-07-02

今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。
6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。它具有一些显著的优点:
  • 照片写实主义:克服手部和面部常见的瑕疵,无需复杂的工作流即可提供高质量的图像。
  • 提示遵循:理解涉及空间关系、构图元素、动作和风格的复杂提示。
  • 排版:在Diffusion Transformer架构的帮助下,在生成没有伪影和拼写错误的文本方面取得了前所未有的效果。
  • 资源高效利用:由于占用较低的VRAM空间,非常适合在标准消费者GPU上运行且不会降低性能。
  • 微调:能够从小数据集中吸收细微的细节,非常适合定制化。

现在,硅基流动团队在云服务平台SiliconCloud上线了
Stable Diffusion 3 Medium开源模型。
欢迎来玩儿:

https://cloud.siliconflow.cn/models/image/text-to-image/17885302526

(提示词:a small, plush cat figurine with orange stripes and large black eyes holds a billboard calld“ SiliconCloud” amidst a dreamy landscape of blue felt waves, pink felt hearts, and soft, hazy clouds glowing with a golden sunset, creating a whimsical, serene scene.)

(提示词:A dark-armored warrior with ornate golden details, cloaked in a flowing black cape, wielding a radiant, fiery sword, standing amidst an ominous cloudy backdrop with dramatic lighting, exuding a menacing, powerful presence. )

注意!!!除了最新的Qwen2、DeepSeek V2等语言模型,Stable Diffusion 3 Medium已进入“6.18购物狂欢节”福利包:“新用户送3亿token(等于1500张图片)”。
注册即可畅玩(截止6月18日23:59):

www.siliconflow.cn/zh-cn/siliconcloud


SD3 Medium 模型表现


Stable Diffusion 3 Medium是一个MMDiT的文生图模型,使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)


据Stability AI 此前介绍,他们Stable Diffusion 3的输出图像与其他各种开源模型(包括SDXL、SDXL Turbo、Stable Cascade、 Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL·E 3、Midjourney v6 和 Ideogram v1)进行了比较,并根据人工反馈评估效果。
在这些测试中,向人工评估者提供了每个模型的示例输出,并要求他们根据模型输出与所给提示的上下文的接近程度(“提示遵循”)、根据提示呈现的文本效果(“排版”)以及哪幅图像的美学质量更高(“视觉美学”)来选择最佳结果。
以SD3为基准,该图表基于人类对视觉美学、提示遵循和排版的评估,概述了它胜过竞对模型的领域。
根据测试结果,Stable Diffusion 3在上述所有领域都等同于或优于当前最先进的文生图系统。
在早期未优化的消费级硬件推理测试中,他们最大的SD3模型(8B)可用RTX 4090的24GB VRAM,使用50个采样步骤时需要 34 秒才能生成分辨率为1024x1024的图像。此外,Stable Diffusion 3的多个变体模型进一步消除了硬件使用的障碍。

关于SiliconCloud

SiliconCloud是集合主流开源大模型的一站式云服务平台,为开发者提供更快、更便宜、更全面的模型API。
目前,SiliconCloud已上架包括Stable Diffusion 3 Medium、Qwen2、GLM-4-9B-Chat、DeepSeek V2、SDXL、InstantID在内的多种开源大语言模型、图片生成模型,支持用户自由切换符合不同应用场景的模型。同时,SiliconCloud提供开箱即用的大模型推理加速服务,为生成式AI应用带来更高效的用户体验。
真正在乎大模型推理性能和成本的开发者,绝不会错过SiliconCloud。更何况,现在还送3亿token。
快试试吧
www.siliconflow.cn/zh-cn/siliconcloud

硅基流动致力于打造大模型时代的AI基础设施,通过算法、系统和硬件的协同创新,跨数量级降低大模型应用成本和开发门槛,加速AGI普惠人类。

扫码加入用户交流群

官方网站:www.siliconflow.cn
简历投递:talent@siliconflow.cn
商务合作:contact@siliconflow.cn
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存