查看原文
其他

Big Tech|Midjourney最强挑战者出现!15天拿下3200万融资,打入Grok内部

硅兔君 硅兔君
2024-10-21

作者|Xuushan,编辑|蔓蔓周



不少人期待它成为下一个Midjourney。


这可能是史上最具有执行力的AI创企。

刚刚成立15天,AI创企Black Forest Labs就已经拿下了3200万美元种子轮融资,并且发布文生图AI大模型FLUX.1系列模型。

不仅如此,就连马斯克刚出品的AI大模型Grok-2,也是在它的支持下,迅速上线文生图功能,引起百万网友参与互动。


而且与其他AI模型的文生图功能不同,Grok-2上生成图片几乎没有任何限制,而且相当逼真。

无论你想让乔布斯逗猫,还是让小扎和马斯克线下“八角笼”相见,Grok-2均能满足你的愿望。可以看出,该模型在语义理解能力、对齐能力以及图像生成等能力上均表现十分强劲(除了安全性)。


这家公司到底是什么来历?又是如何引得网友们为它疯狂,甚至马斯克都愿意选择它为自家核心产品助力?硅兔君经过一番深入调查,终于揭开了Black Forest Labs的神秘面纱。


01

15人集体从Stability AI出逃
Black Forest Labs连发三款AI模型

Black Forest Labs成立的契机,还要从另一家AI独角兽企业Stability AI说起。
事实上,Black Forest Labs如今的15人初创团队,全部来自Stability AI。可以说,Black Forest Labs的成立,是一场员工的集体出逃。


Black Forest Labs创始人Robin Rombach曾是Stability AI前研究科学家,是Stability AI两大核心顶梁柱之一。

他曾在海德堡大学学习物理,并在 2020 年开始在该大学计算机视觉组攻读博士学位。Robin一直专注于深度学习模型,尤其是文生图领域,之后随科研组于2021年加入了慕尼黑大学。


在Stability AI期间,他曾主导开发了文生图AI大模型Stable Diffusion。当初,Stable Diffusion可以称得上是AI文生图领域的霸主,引发行业震动。Stability AI的估值也冲破10亿美元,一举踏入AI独角兽行列,风头无量。

但Stability AI的发展却在2024年急转直下。据报道,Stability AI每年的成本支出约为9900万美元,但收入仅为1100万美元,收支严重不平衡。随后,Stability AI前任CEO Emad Mostaque今年3月带走了至少19名高管离开公司。

Robin Rombach也开始重新寻找出路。Black Forest Labs则是他新的开始,也是许多Stability AI前员工新的起点。在Black Forest Labs成立之时,不少Stability AI员工还兴奋地说道:“We‘re live!”。

目前,FLUX.1系列模型如今共有三个版本,开源和闭源都涉及。其中,FLUX.1 [pro]是性能最强的闭源版本,专为追求顶级性能的专业应用设计;FLUX.1 [dev]则是开源的AI模型,在图像质量和提示词提供更高效地服务,但不供商业使用;FLUX.1 [schnell]则是专为本地开发和个人使用设计的开源版本,是三个版本中速度最快的,所需内存也最小。


三款模型在Replicate、Models上均开放了试用版。短短半个月,FLUX.1 [dev]在Huggingface上的下载量已经超过了20万,FLUX.1 [schnell]的下载量更是超过了58万,体验次数达到3.8亿次。

注册体验链接:FLUX.1 [schnell]:https://replicate.com/black-forest-labs/flux-schnell


02

四大AI图像成器横评
Flux在细节、空间理解方面完胜

尽管FLUX.1系列模型是Stable Diffusion的原班人马打造,但这并非代表其是Stable Diffusion的翻版。

媒体将Flux、SD3 Medium和Auraflow以及Midjourney放在一起横评,可以看出当下较为优秀的文生图模型对同一文字提示生成的不同照片。
首先是提示一:“手绘插图,一只巨大的蜘蛛在丛林中追逐一个女人,极度恐怖、痛苦、黑暗和令人毛骨悚然的场景,带有恐怖、暗示的氛围营造。”


可以看出,Flux很好地运用了灯光和阴影营造恐怖感。蜘蛛的设计确实很吓人,蜘蛛腿很锋利,蜘蛛的脸部也很逼真。Auraflow的青色色调没有达到黑暗和恐怖的效果,整体图片风格化。SD3 Medium的黑白风格给人一种强烈素描般的感觉。蜘蛛的设计细致而又充满恐怖感,但人物刻画方面有些不协调。

第二次测评主要考察图像生成器们对空间理解的能力。文字提示为:“一只狗站在电视机顶上,屏幕上显示‘解密’字样。左边是一位身着西装的女性,手里拿着一枚硬币,右边是一个机器人站在急救箱上。整体场景超现实。”


Flux生成的图片最接近描述,它将所有元素都放在了所需的位置。整体构图均衡,各项元素的设计以及复古未来主义风格满足了超现实主义的要求。但它也有些不足之处,比如人物多了一只手。SD3 Medium排名第二,整体设计也满足了文字描述要求,但准确性方向还有所不足,如卡通风格的狗应该是站着而不是坐着。Auraflow则在文本理解的准确性以及呈现的图片质量上有所差距。

提示三则为“一张夜晚繁华的城市街道的高分辨率照片,霓虹灯照亮了场景,人们沿着人行道行走,汽车驶过,街头小贩卖热狗,灯光倒映在湿滑的路面上,整体风格超现实,注重细节和灯光,霓虹灯上写着‘解密’。”该提示主要查看各大图像生成器对现实主义的理解。


Flux生成的图片细节丰富,光线充足,该图像很好地描绘了繁忙的街道,重点标志清晰,行人形象鲜明。SD3也能够展现均衡的构图、逼真的灯光和精心整合的元素,但是对行人的刻画略显单薄。

最后,外媒Decrypt还将Flux和Midjourney放在进行两次测评,最后均判Flux更强。

第一次文字提示为:“一张黑白照片中,一位留着长直发的女士坐在现代沙发前的地板上,身穿全黑服装,凸显了她的曲线。她自信地对着镜头摆姿势,蹲下时露出了修长的双腿。背景采用极简主义设计,在浅灰色墙壁和深色服装的鲜明对比下,凸显了她优雅的姿势。她的表情散发着自信和成熟。由Peter Lindbergh使用哈苏 X2D 105mm镜头在 f/4 光圈设置下拍摄。ISO 63。专业调色增强了视觉吸引力。”


Decrypt认为Flux以自然的姿势、情境背景和细致的渲染捕捉提示的要求。从形态上讲,它是最准确的。Midjourney展现了生动的图片,以及图片中细节丰富,但缺乏像Flux一样的图像层次感,并且身体仪态的表现并不如Flux准确。

第二次的文字提示则为“一只白猫在弹钢琴,戴着太阳镜和帽子,穿着紫色夏威夷风格的衣服,在灰色工作室背景下的全身照,用于商业。”


Decrypt认为Flux满足了全身照、灰色摄影棚背景和指定服装等条件,构图专业精致,完全符合提示要求。Midjourney则是提供了特写镜头,图像具有表现力,但没有满足全身镜头和工作室背景等关条件。

可以看出,Flux无论是在照片细节、还是对空间、风格化的理解方面,已经站到了行业前列,可以和Midjourney一较高下,甚至某些方面比Midjourney更强。


03

想要干翻Midjourney?
Black Forest还需走好商业化

AI文生图领域,可以说是当下生成式AI领域最卷的赛道之一。目前,谷歌、Meta、OpenAI均该领域虎视眈眈。FLUX.1所展现出来的能力让不少人期待它成为下一个Midjourney。

但想要成为下一个Midjourney的关键,在于商业化。

同赛道的先行者Midjourney的基本计划费用为每年96美元,每月可生成约200张图片,相当于每美元可生成25张图片。Ideogram的基本计划费用为每年84美元,每月最多可生成400张图片,即每美元可生成50张图片。

而Black Forest已与开源模型Auraflow的开发商Fal AI合作,支持云生成。这些模型也可在Replicate.com上免费测试。一旦用户达到每日免费额度,可以选择花费1美金使用Flux Pro模型生成33张图像或使用Flux Schell生成333张图像需花费1美元。


相比较Midjourney和Ideogram,Black Forest给用户提供了更多的选择。但这并代表着Black Forest商业化成功,维持生成式AI模型的成本非常大。以Stability AI 为例,据《福布斯》报道,Stability AI 每月在成本和工资上的支出约为800万美元,但收入仅为120万美元,远远抵不过成本。如今,商业化也同样成为Ideogram、Pika Labs AI的“卡脖子”的环节。

因此,想要真正超越Midjourney,Black Forest如何平衡收入和开支将成为其坐稳文生图AI大模型霸主的关键。


04

不到半个月就违背初心?
Black Forest在文生图安全性态度模糊

Black Forest Labs与马斯克在打造“反觉醒AI聊天机器人”方面似乎不谋而合,均不希望对AI做过多的限制。

这里的“反觉醒AI聊天机器人”是指故意避免采纳某些政治正确或社会觉醒观点的AI聊天机器人,它在面对有争议的话题时都会不加过滤。Grok明显是马斯克“反觉醒AI聊天机器人”概念的载体。

在安全性评测上,尽管Grok有提及自己的六项“禁令”,包括内容限制、版权、图片处理复杂度等,实际从生成的照片来看Grok几乎是百无禁忌,名人、色情、暴力各类生成图片已经在社交平台X上开始泛滥。

尽管多家监管机构均对社交平台X表示不满,但马斯克似乎仍不以为意。Grok-2发布后,马斯克还允许用户直接在平台上发布Grok生成的AI 图像,并且不带任何AI生成或者Grok生成的水印提示。

马斯克2022年在社交平台X上提到为AI设立限制会降低AI模型的安全性。“训练AI容易被唤醒,换句话说,(AI)撒谎的危险是致命的。”有媒体推测,可能正是因为FLUX.1系列模型并未做出过多限制,导致马斯克选择让Grok接入FLUX.1系列模型。


据The Verge等多位媒体测评,同样带有“危险色彩”的提示词,谷歌同类型文生图AI模型Imagen、OpenAI 的DALL·E 3均拒绝生成,但Grok很快响应,并快速生成图片。

就在半个月前,Black Forest Labs刚成立之初,还宣布公司的目标是“增强人们对这些模型安全性的信任”。半个月后,Black Forest Labs就与马斯克站在了“对AI不设限制”的一边,打开了文生图AI模型的黑匣子。

面对诸多争议,Black Forest Labs如今选择避而不谈,试图议论焦点转移其他方向。其董事会成员Anjney Midha8月14日在社交平台X上抨击了谷歌 Gemini刚发布时在文生图领域有隐藏种族歧视等情况,并表示FLUX.1系列模型不会出现该类情况。


我们可以看到,在文生图能力方面,FLUX.1系列模型的确强大,已经能与Midjourney一较高下。但在安全性方面,Black Forest Labs似乎选择了与同赛道玩家与众不同的一条路。

“不设置安全护栏”会让Black Forest Labs成为文生图领域的绝对霸主吗?又或是会一举泼掉FLUX.1系列模型刚起的热度呢?我们拭目以待。

文末互动:
你喜欢“不设置安全护栏”的FLUX.1模型吗?欢迎评论区分享你的想法。

👇别忘了点关注👇



起底马斯克对Dojo的爱:连续5年站台,押注特斯拉下一个未来

Get Rich

点赞+在看,搞钱稳赚!



继续滑动看下一个
硅兔君
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存