Stable Diffusion 3 发布:模型与 Sora 同架构、解决文字乱码、更好理解物理世界
The following article is from 新智元 Author 新智元
2月23日凌晨,Stability AI放出了Stable Diffusion 3.0,采用了和爆火Sora同样的DiT架构,画面质量、文字渲染、复杂对象理解大提升。
与SDXL、MidJourney和Dall-E 3等类似结果的比较。从各种迹象来看,SD3在总体质量上优于竞争对手。AI生图效果,再次到达全新里程碑!
Prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy 提示(意译版):在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的「Stable Diffusion 3」字样,犹如夜空中最璀璨的星辰。
网友惊呼:这种prompt的一致性是我见过最好的!
目前,模型可选择的参数范围在800M到8B之间。
https://stability.ai/stablediffusion3
01
对物理世界的「理解」更进一步
Prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background. 提示(意译版):一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。
Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat 提示:一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。
1. 采用了与Sora类似的Diffusion Transformer技术,并结合了流匹配(Flow Matching)等多项技术改进。
2. 通过利用对Transformer的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。
3. 将以开源形式发布,通过预览版的测试来进一步提升系统的质量和安全性。
4. 发布时,将包含一套完整的工具。
5. 基于最新硬件技术打造的新平台,可以支持多种规模的版本。
6. 支持生成视频、3D以及更多类型的内容创作。
7. 需要更多的GPU来实现更强大的计算能力。
02
渲染能力再进化,解决图片内文字乱码
按照prompt生成指定文字,一直以来都是文生图模型的老大难问题。
Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk. 提示(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。
各种形式的文字渲染,SD3 都出色地完成了。
Prompt:Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic. 提示:厨房桌上铺着一块精美的绣布,上面绣着「good night」字样和一只可爱的小老虎。旁边,一支蜡烛静静燃烧,散发出柔和而略带戏剧性的光影。
Prompt:Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall. 提示:一台放在工作桌上的90年代的台式电脑,屏幕上写着「welcome」。在背后的墙面上,有一幅醒目的涂鸦艺术作品,写的是「SD3」。
Prompt: Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text "it's here!". In the background we see a big rain approaching. 提示:这是一幅充满动漫特色的插画,一个报刊亭坐落在一片绿意盎然的小山丘上,亭顶醒目地展示着「it's here!」的字样。而在这个宁静的场景背后,一场壮观的暴雨即将来临。
Prompt: Night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a huge road sign with the text "faster". 提示:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。
Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3. 提示:一张木桌上摆放着三个透明的玻璃瓶。从左至右,每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上,用数字1、2、3进行了标记。
Prompt: Photo of a rectangular orange neon sign with the text "even more stable", the sign is on the wall in a metro station, subway speeding by in the background, perspective photo.
宇航员骑着粉色芭蕾舞裙猪,除SD3竟然全军覆没?
下面这个prompt,着实难倒了一大片选手——
一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stable diffusion」。
Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"
03
和Sora同样的Diffusion Transformer架构
04
一些优秀作品展示
在图像质量上,SD 3.0也取得了令人震惊的进步。
Prompt:studio photograph closeup of a chameleon over a black background.
Prompt: Trees photographed under the Milky Way, the moon and twilight shine on the Valley. The full moon appears high in the sky and the twilight glow can still be seen.
05
Stable Video同时发力
https://twitter.com/EMostaque
GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?
如何看待谷歌开源大模型 Gemma:被迫入局、开源力度不够、2024 会有小模型黑马出现
比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?
7 万亿美元的芯片融资计划,Sam Altman 看到了什么,在害怕什么?
小伙子用ChatGPT找女友:聊了5239个女生,现在订婚了