查看原文
其他

Midjourney V5 与 V4 哪个更好?综合评测,Prompt 全公开!

CSDN 2023-03-30

【CSDN 编者按】最近 AI 绘画工具新版本 Midjourney V5 一经发布,便火爆朋友圈,今天我们就来评测一下 V5 与 V4 的区别~

原文链接:https://medium.com/@catmus2048/midjourney-v5-%E6%AF%94-v4-%E6%9B%B4%E5%A5%BD%E5%90%97-%E7%BB%BC%E5%90%88%E8%AF%84%E6%B5%8B-prompt-%E5%85%A8%E5%85%AC%E5%BC%80-bd8a1d909867

未经授权,禁止转载!

最近是不是被这张在网上转疯了的情侣照刷爆圈了。

第一眼是不是以为是真人拍摄。

但实际是 AI 生成的,来自 Midjourney V5 版本产出的一张 AI 绘画。

Midjourney V5 已发布多天,今天将做个全面评测:

  • V5 的惊艳之处:photograpy,CG rendering,HD film style 类生成。
  • Prompt 控制准确度的基本测试。
  • V5 比 V4 更好的地方:在 V5 里可以准确控制镜头语言,光影也更真实自然。
  • V5 相比 V4 倒退的地方:V5 会让构图更碎片化、产生更多不必要的细节,成像的锐利和清晰程度下降。

V5 的惊艳之处

下面是一些用 V5 生成的照片写实类 photo realism。
摄影一只爬行动物的美丽眼睛,蜥蜴的眼睛,蓝色和金色的瞳孔,特写视图,黑暗清晰的背景,极简主义,艺术,大气,杰作,HDR,超细节,500px
水下场景的表现非常不错,光影和水波反射的处理都非常真实。
水下泳池摄影,水下奔跑的马的照片,全身马,明亮,艺术,魔术时间,大气,杰作,生动的色彩,HDR,超逼真,锐利聚焦,超级细节,500px,8K,壁纸
水下泳池摄影,微笑的婴儿在水下游泳的惊人照片,高速摄影,HDR,艺术,极简主义,超现实,魔术时间,日落,金色闪耀,大气,杰作,8K,壁纸
美术摄影,美丽的眼睛,超逼真的瞳孔,特写视图,深色清晰背景,极简主义,艺术,大气,杰作,HDR,黄金比例构图,超详细,500px
摄影,一个透明的水晶立方体,高高地漂浮在天空, 动荡的大海,北冰洋,日落,魔术时间,HDR,极简主义,艺术,大气,未来派,超详细,8K壁纸,HDR,500px
美术摄影,祈祷之手,超级逼真,特写视图,深色清晰背景,极简主义,艺术,大气,杰作,HDR,黄金比例构图,超详细,500px
黑桃王牌和银弹的特写镜头,在旧西方沙龙橡木桌上的一杯威士忌旁边
金属材质的渲染
液态金属,流动 飞溅,深色和金色,丝带般的光泽,逼真,工作室光线,惊人的纹理,锐利的焦点(上)| 乔治·詹森(下)的作品
黑白胶片风格和电影风格的照片生成
城市景观

你可以用 a scene from the movie **** ,配合一个超宽的比例,生成很多电影场景,比如下面五张教父系列。

街景,小教堂,黑色电影,广角镜头,胶片照明,富士胶片,豪华,电影静止图像

人像生成

编辑风格的照片中特写镜头,一个年轻的黑发法国女人,坐在大理石桌旁,穿着黑色连衣裙和钻石项链,在装饰艺术风格的餐厅里,天鹅绒、黄铜和镜子装饰,宝石色调调色板,西榆树,枝形吊灯,餐厅,晚上,自然采光,富士胶片,豪华,历史,4k

肖像,半身,超细致,高品质
支持 image split (下面的生成看起来像是两张图,但实际上是一张,在 Prompt 里使用 image split into 2,就可以得到同一角色 + 同一服饰的在不同视角的两种生成结果。你也可以尝试 2 倍 以上的 split,然后再进行高倍 upscale)。
一张近景,一张膝高镜头。
V5 也支持 3:1 这种超宽比例,或是 1:3 超高比例。

CG 渲染类的生成

一只和猫说话的老人,赛博朋克,电影,超细节,虚幻引擎,自由度,超分辨率,百万像素,电影照明,抗锯齿,CGI,VFX,SFX,超极简主义,超逼真,体积,逼真,全彩,写实,16K,锐利聚焦
赛博朋克战士的半身肖像,超现实,半身,HDR,鲜艳的色彩,电影,超细节,虚幻引擎,自由度,超分辨率,百万像素,电影照明,抗锯齿,CGI,VFX,SFX,超极简主义,超逼真,体积,逼真,全彩,16K, 清晰聚焦
插画风格

未来主义城市景观,装饰艺术风格,老爷车

爵士乐演奏,艺术,褪色的蓝色

一个站在火中树前的男孩,长长的阴影,夜晚,矢量艺术,grphic风格,超详细(左)冬天,迷你主义者(右)


Prompt 控制准确度的基本测试

穿白衣服的男人坐在红椅子上拿着蓝色的水杯。最常见的染色溢出问题还是很严重。
V4 在上, V5 在下

一个穿着白色西装的男人坐在红色椅子上,手里拿着一个蓝色的杯子
“抱猫的机器人”, 这个 Prompt 用 V5 跑了好几次,每次都是猫头机器人,新版本中两个对象貌似出现了比 V4 更严重的混淆问题。
V4 在上, V5 在下

抱着虎斑猫的机器人

3 个柠檬和 2 个玻璃碗,数量依然不能精确控制。不过 V5 的水彩渲染要远好于 V4,但油画风格的渲染都一样不是很好。

V4 在上, V5 在下

静物油画,2个玻璃碗和3个柠檬
V4 在上, V5 在下

静物水彩画,2个玻璃碗和3个柠檬
马依然不能骑宇航员

一匹马骑在宇航员的背上
多物体的空间关系也仍然无法精确控制,不过 V5 起码每一张都生成了一把椅子。
V4 在上, V5 在下

一个球放在盒子里,盒子放在椅子下面


V5 相比 V4 的优势之处

V5 在镜头语言的控制上,相比 V4 实现了非常明显的进步,光影的渲染也更写实、自然。AI 感已经变得很弱了,几乎肉眼难辨。
POV 第一视角
V4在上,V5在下

三只猫看着POV镜头
俯拍镜头 overhead shot
V4在上,V5在下

3只猫看着俯拍镜头
低角度镜头
V5有一张做到了非常标准,V4 基本是不太标准。

V4在上,V5在下

3只猫看着超低角度镜头
高角度镜头
V4在上,V5在下

3只猫看着超高角度镜头

浅景深,V5 比 V4 自然得多。
V4在上,V5在下

3只猫看着浅景镜头
深景深
V4在上,V5在下

3只猫看着深景镜头
V4 在生成 bird eye view 的同时还生成了 bird 和 eye。
V4在上,V5在下

白色沙滩的鸟瞰图,海浪泡沫
全身像。大部分时候,用 V4 生成 full body 都不是真正的全身像(没有脚部或者膝盖以下),V5 表现的更好一些。
V4在上,V5在下

僵尸新娘的全身肖像
半身像。V4 一个很严重的问题是每组 4v1 生成的结构构图都过于接近,且人像太容易出现中心对称构图。V5 是增加了每批次 4 个种子的随机变量,每批结果的构图会更多样。
下面的对比可以观察到这个结果。
V4在上,V5在下

僵尸新娘的半身肖像
侧面像 + knee shot
V4在上,V5在下

僵尸新娘的侧视图肖像,膝盖拍摄
广角,场景和构图更多样
V4在上,V5在下

骑着马的牛仔在奔跑,全身,广角镜头


V5 相比 V4 的不足之处

虽然摄影类风格的生成更写实和自然,但比较下面放大的僵尸新娘和牛仔骑马场景,可以发现 V5 的生成都像打了柔光,都笼罩上了一层影楼滤镜或电影滤镜。相比V4,虽然 AI 感降低了,但也一定程度上牺牲掉了成像的细节,清晰和锐利程度都明显下降。
V4在上,V5在下
V4在上,V5在下
V5 倾向于照片化一切生成结果,而且有一种 “糖水感”。

V4在上,V5在下

令人惊叹的未来主义小屋漂浮在海平面上,动荡的大海,杰作


人物,水墨艺术,侧视图

下面两组都是艺术媒介测试,铅笔素描和版画风格的弗兰肯斯坦,V5 会过度添加细节,也基本丢失了艺术媒介的特征。所以想用 MJ 生成 fine-art 类作品的 (除了水彩)。

V4在上,V5在下

V5 生成构图更碎片化,同时也有明显的锐度丢失的倾向。
V5 会倾向于生成过多不必要的细节,对画面主题的美感和结构都有很负面的影响。
再次生成时,我去掉了 Prompt 里的 “super-detailed”,情况并没有得到改善。
以上对比评测都是用同样 Prompt 在两个版本里首次生成的结果,尽量避免了人为的 cherry picking。
在生成不同主题和风格的作品时,你是会选择 V4 还是 V5?希望这个对比评测能对你有所帮助。
参考链接:

☞Google Bard vs. ChatGPT 哪家强?结果一目了然
李彦宏:十年后不会写提示词或被淘汰;GitHub发布Copilot X,动动嘴就能生成代码;Vite 4.2 发布|极客头条
微软、Adobe 加入 AI 生成图像“内卷”大战,网友:用中译英文本之后,每次图片都有新惊喜!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存