查看原文
其他

AI绘画狂欢夜:Dalle3 VS Midjourney VS Controlnet XS

逗砂 AIGC研修社
2024-09-08
一大清早起来惊呆了,就在昨晚。Openai宣布即将发布 dalle3,然后 SD的重要插件controlnet又迭代出了 XS 版本,然后凌晨的MJ的周会上MJ预告了V6的功能规划。
所以这篇文章分为四个部分:
  • Dalle3究竟有哪些特别的地方?
  • Dalle3和现在的MJ的对比测试
  • Controlnet XD 是什么?
  • MJ的920周会详情与下一步的推测

   Dalle3 是什么?
说实话自从去年4月发布了Dalle2之后,openai几乎对这个产品没啥更新了,因为他们对产品的保守策略,所以让MJ快速抢占了市场。曾经的dalle2内测一号难求,到后来又贵又难用无人问津。我一度以为openai专注chatgpt去了,已经放弃了这个产品。
没想到啊😂  居然在时隔一年多又发布了dalle3。
Dalle3官网:https://openai.com/dall-e-3
发布时间:DALL·E 3 将于 10 月初向 ChatGPT Plus 和 Enterprise 客户提供。

Dalle3 的产品核心
在Dalle3网站的开头,有这么一段话:
现代文本到图像系统往往有忽略文字或描述的倾向,迫使用户学习如何更好地构建提示。DALL·E 3代表了我们在生成与您提供的文本完全一致的图像方面的能力上的一次重大飞跃。
本质上就是吐槽了现在的SD的插件和微调模型的方向,表明自己的产品可以只通过文字来完美的展示画面,完全通过文字来控制画面。
可以从这张官网的示意图上看到,Dalle3对于文字的精准呈现。
除此之外,Dalle3将会和Chatgpt结合,通过对话的形式实现交互。下面的官方的演示视频。
此外无论是风格还是人物肖像,Dalle3都做了更加严格的限定:他们不仅剔除了所有在世艺术家的图像,还可以保证把你用dalle生成的图像从模型中去掉。这是在打所有现在AI绘画模型的脸啊,但是如此没有原罪的模型的风格的表现上可能会大大的受限。

    Dall3 VS Midjourney 对比测试
虽然要等到十月份才能真正的使用,但是官网提供了很多提示词和相关的案例,那么同样的提示词下midjourney的表现如何呢?
推特网友 @MattGarciaEth 对此逐一做了测试:
提示词一
"An illustration of an avocado sitting in a therapist's chair, saying 'I just feel so empty inside' with a pit-sized hole in its center. The therapist, a spoon, scribbles notes."
"一幅插图,一个鳄梨坐在心理医生的椅子上,说着'我只是觉得内心空虚',中间有一个果核大小的洞。而治疗师,一把匙,正在匆匆记录着笔记。"

提示词二
An illustration of a human heart made of translucent glass standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds illuminating the heart revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon
一幅插图,是一个由半透明玻璃制成的人类心脏,矗立在汹涌的海洋中的基座上。阳光穿透云层照亮了心脏,揭示出其中微小的宇宙。地平线上以粗体字刻着引言:“在你内心找到宇宙。”

提示词三
"A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window"
一张充满活力的黄色香蕉形状的沙发坐在一个舒适的客厅中,它的曲线托起一堆五颜六色的靠垫。在木地板上,一块有图案的地毯增添了些许怪异的魅力,而一个盆栽植物坐落在角落里,朝向透过窗户射进来的阳光伸展。

提示词四
"A detailed oil painting of an old sea captain, steering his ship through a storm. Saltwater is splashing against his weathered face, determination in his eyes. Twirling malevolent clouds are seen above and stern waves threaten to submerge..."
一幅细致入微的油画,描绘着一位老海船长,正在驾驶他的船穿越风暴。咸水溅在他的风霜之脸上,眼中充满了坚决的决心。上方漩涡般的恶劣云层可见,严峻的波浪威胁着将其淹没...

提示词五
"An antique botanical illustration drawn with fine lines and a touch of watercolour whimsy, depicting a strange lily crossed with a Venus flytrap, its petals poised as if ready to snap shut on any unsuspecting insects."
一幅古老的植物插图,绘有精细的线条和一丝水彩的奇妙,描绘了一种奇特的百合与捕蝇草交叉的植物,其花瓣摆在那里,仿佛随时准备合上捕捉任何不经意的昆虫。

提示词六
"A vast landscape made entirely of various meats spreads out before the viewer. tender, succulent hills of roast beef, chicken drumstick trees, bacon rivers, and ham boulders create a surreal, yet appetizing scene. the sky is adorned with pepperoni sun and salami clouds."
一幅广袤的风景画,完全由各种肉类构成,展现在观众面前。嫩滑多汁的烤牛肉山丘、鸡腿树、培根河流和火腿巨石创造出一个超现实但令人垂涎的场景。天空装点着辣香肠太阳和萨拉米云朵。

提示词七
"An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula."
一幅富有表现力的油画,描绘了一个篮球运动员扣篮,呈现为一个星云的爆发。

提示词八
"A 2D animation of a folk music band composed of anthropomorphic autumn leaves, each playing traditional bluegrass instruments, amidst a rustic forest setting dappled with the soft light of a harvest moon."
一部二维动画,展现了一个由拟人化的秋叶组成的民谣乐队,每个叶子都演奏着传统的蓝草乐器,在一个充满乡村氛围的森林背景中,柔和的收获月光洒在其中。

总结
由上面这些测试图我们可以看出来,Dalle3在语义的理解和呈现上是完爆mj和现有的所有模型的,相比之下MJ就像是个傻子。但是DALLE3因为更加严格的风格限制,所以在画风上非常的单一,说直接点就是:有点土。
一种可能得解决方案是,用dalle2生成符合要求的画面大体结构元素。然后再用SD的controlnet来重绘风格。
说到controlnet,昨晚controlnet也有个重大更新。接下来就聊聊controlnet XS。

   Controlnet XS 是什么?
官方论文地址:https://vislearn.github.io/ControlNet-XS/
在这个项目中,我们研究了用于控制基于稳定扩散模型的图像生成过程的 ControlNet 的大小和架构设计。展示了一个新的架构,仅使用基础模型参数的1%,就可以实现最先进的结果,在FID分数方面远远优于 ControlNet。因此,我们称之为 ControlNet-XS。
效果并没有什么特别的,但是这个论文表明未来我们的模型将会越来越小。之前的controlnet的模型可能需要几个G,这里只需要几十MB就可以了。现在大家为了使用SD需要购买非常贵的机器和显卡,但是这个在不久的将来可能就不需要了。
官方演示了他们的小模型下的控制效果:

   MJ的920周会详情与下一步的推测

Midjourney Office Hours 2023年9月20日

网站
将分两个阶段启动
  • 第一阶段:可以查看、搜索等自己的图片
  • 第二阶段:将具有图像创建和社交功能

对v5的更新(v5.3?)
  • 个性化 - 将帮助您在无需使用各种设置的情况下制作您想要的内容
  • 放大器 - 测试正在进行中:可以将分辨率提高一倍
  • 一般美观性改进正在进行,更加连贯
  • 将很快发布;没有发布日期

v6
  • 与从v4到v5的跃升相比,跃升更大
  • 图像质量更好,文本提示更好
  • 不确定何时发布

3D
  • v6中没有3D(v6和v7之间)

  • 应该在接下来的6个月内推出,现在比以前进展更多

  • 3D模型生成,不确定网格质量是否会那么高

上周一个粉丝做的概念视频骗了好多人,大家都以为MJ要出3D版本了,这次周会确定了3D还早的很。至少在V6是没有的。大家还是欣赏一下这个脑洞视频吧:

其他
  • 新的/describe将在某个时候推出。不确定何时发布。
  • 正在制作一种新的虹状风格。
  • 正在尝试控制网络类型的东西。何时调整可控性旋钮或如何使事情变得更好。例如,色彩调色板
  • 改进了AI提示审核器,将继续更新它。

真是越来越卷了,那么你会选择MJ,Dalle3 还是 SD呢?
真是的,小孩子才做选择,我们当然是全都要。一个推特网友就把MJ和Dalle3做了结合,并且命名为 Chatjourney


修改于
继续滑动看下一个
AIGC研修社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存