Meta、Midjourney、Adobe、DALL·E:四大巨头的 AI 绘图模型综合评测
The following article is from 数字生命卡兹克 Author 数字生命卡兹克
在某种程度上,大模型时代,这句老话「如果你不花钱,你就是产品」有了全新的演绎。截至 2016 年,Instagram 用户每天上传超过 9500 万张照片,因此 Meta 用于训练其 AI 模型的数据集只是其整个照片库的一小部分。由于 Meta 表示它只使用公开的照片进行训练,因此在 Instagram 或 Facebook 上将照片设置为私有应该会阻止它们包含在公司未来的 AI 模型训练中(当然,除非它改变了该政策)。
Ars Technica 对 Meta 生成图片能力的评价是:
Meta 的模型通常可以很好地创建逼真的图像,但不如 Midjourney。它可以比 Stable Diffusion XL 更好地处理复杂的提示,但可能不如 DALL-E 3。它似乎并不擅长文本渲染,而且在处理不同的媒体输出,如水彩画、刺绣和钢笔画时效果参差不齐。它的人物形象似乎包含了种族背景的多样性。总体而言,就 AI 图像合成而言,它在当今算是中规中矩。
公众号「数字生命卡兹克」迅速体验了 Meta 的绘图模型,并且对比了 Meta Imagine,Midjourney,Adobe Firefly,Dalle 四家产品的不同能力。
以下内容转载自「数字生命卡兹克」,Founder Park 转载时有调整。
SDXL 之所以没放在里面是因为它毕竟是个开源模型,是靠后续大神们的微调和生态来玩的,而且原生的质量确实有一点点差……
所以主要来对比这四个大模型。
我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度 3 个 Prompt,同时每个 Prompt 我会在 AI 绘图模型中 roll 3 次,取效果最具有代表性的那个图,尽量减少偏见。
同时,为了有最后整体可视化的评分让大家看着更直观,所以我会进行打分。在每个案例中,第一名为 4 分,第二为 3 分,第三为 2 分,最后一名为 1 分,最后计算和。
01
细节质量
主要测试 AI 绘图对于细节的表现能力,比如人物面部皮肤的质感、比如织物纹理的细节、场景细微元素的细节等等,这个是对模型精度和输出质量一个非常重要的考量。
Prompt1:Portrait of a 2000s blonde woman posing on a sports car, white wired headphones, expressionless, 2000s hairstyle, 2000s fashion, sun rays, light teal and amber,Cinestill 50D
2000 年代金发女郎在跑车上摆姿势的肖像,白色有线耳机,面无表情,2000 年代发型,2000 年代时尚,太阳光线,浅青色和琥珀色,Cinestill 50D
明显可以看出,Adobe 在人物皮肤质感和衣服质感上最佳,Meta 和 MJ 其次,Dalle3 最差;耳机细节都有问题,Dalle3 取巧了所以没有 BUG,Meta 直接没给你画;背景的细节都差不多。
Adobe:4,MJ:3,Meta:2,Dalle:1。
Prompt2:Amazing photo of golden retriever chasing tennis ball underwater, close-up portrait
金毛猎犬在水下追逐网球的惊人照片,特写肖像
Meta 整体最好,MJ 其次,被水沾湿的细节都画出来了,Adobe 狗身上的细节少了一些,Dalle3 还是拉了,水的气泡的细节崩了。
Meta:4,MJ:3,Adobe:2,Dalle:1。
Prompt3:A girl with a bunny sitting and smiling in 1970s fashion in a field of flowers
一个带着兔子的女孩,穿着 1970 年代的时尚,坐在花丛中微笑
MJ 完胜,花和兔子、头发细节基本都没啥可挑的,Adobe 的细节很足但是裤子崩了,Meta 的面部皮肤质感很难受,Dalle 基本就没啥东西,一股子油画感。
MJ:4,Adobe:3,Meta:2,Dalle:1。
在细节质量上,总分如下:
02
审美
主要测试 AI 绘图的审美能力,一张图好不好看,是美是丑,除了细节之外,更多的还需要看模型的审美能力,比如构图、色彩、光影等等,审美强,出的图才好看。
Prompt1:Product shot of juicy burger, artisan, rustic, food photography, delicious, close-up
多汁汉堡的产品拍摄,工匠,质朴,食物摄影,美味,特写镜头
一张非常强调审美的图,Meta 的色彩几乎就不能看,让人毫无食欲,Dalle 的构图问题很大背景太乱,两个瓶子跟门神一样,MJ 也没有构图就一个大主体,Adobe 完胜。
Adobe:4,MJ:3,Dalle:2,Meta:1。
Prompt2:Dungeons and Dragons, Close up of a fire breathing flying dragon, cinematic shot
龙与地下城,喷火飞龙的特写,电影镜头
特写镜头,很强调构图,还有火与龙身的光影对比,Meta 的龙极其呆逼,其他所有的龙眼睛也都会发光来做强调,就它真画了个眼睛上去,色彩和构图也不太行,整体最佳还是 Adobe,色彩和构图都棒,其次是 MJ,再次是 Dalle,构图差点意思,太偏左上了,最次是 Meta。
Adobe:4,MJ:3,Dalle:2,Meta:1。
Prompt:Diagonal Shot. Constantinople, 1453, masked sorceress, in the style of biblical drama, movie scene, low saturation, muted colors, extreme detail, 8K
对角线拍摄。君士坦丁堡,1453 年,蒙面女巫,圣经戏剧风格,电影场景,低饱和度,柔和的色彩,极端细节,8K
MJ 的构图和色彩质感基本爆杀全场了,Adobe 完全没理解我最后的低饱和度,Dalle 的构图也很奇怪。
MJ:4,Meta:3,Adobe:2,Dalle:1。
在审美上,总分如下:
03
风格多样化
主要测试 AI 绘图对于风格的包容度,比如皮克斯风格、吉卜力风格、折纸艺术等等,理论上是需要大规模用几百个艺术风格去测成功率的,但是我个人精力有限,所以简单测试 3 个稍微常见一点但是不是那么烂大街的艺术风格吧。
Prompt1:an anime illustration of a samurai girl carrying a ninja sword, in the style of ethereal brushstrokes, ink painting, dark white and dark gray, fluid formation
拿着忍者剑的武士女孩的动画插图,风格空灵,水墨画,深白色和深灰色,流体形成
在水墨画这块,得神韵的还是 MJ 和 dalle,Meta 那个笔触就很诡异一点都不连贯断断续续得,Adobe 画出来就感觉一个日漫一样。
MJ:4,Dalle:3,Meta:2,Adobe:1。
Prompt2:small boy looking out of his bedroom window into a cyberpunk world, pixelated, 8 bit style
小男孩从卧室窗户望向赛博朋克世界,像素化,8 位风格
8bit 的像素画+赛博朋克,Adobe 和 Dalle 都画出了这种风格,Meta 差了一些,MJ 是完全没画出。在像素化上,Adobe 确实最好。
Adobe:4,Dalle:3,Meta:2,MJ:1。
Prompt3:Colorful logo of a French restaurant called "Khazix" with a flying seagull
一家名为「Khazix」的法国餐厅的彩色标志,上面有一只飞翔的海鸥
在做 Logo 上,Dalle3 的精准文字目前确实是独一档,无人可比,logo 的设计上,Dalle 最强,MJ 次之,Adobe 普普通通,Meta 的图形和细节简直稀碎。
Dalle:4,MJ:3,Adobe:2,Meta:1。
在风格多样化上,总分如下:
04
语义理解
主要测试 AI 绘图对于复杂语义的理解能力,能否将文本内容都能清晰的表达出来并保证生成图片的质量。
Prompt1:A cup of coffee sitting on a table in front of a window; outside the window is a futuristic city; a futuristic monorail can be seen close by; many lush plants around; shot from ground floor; clouds above
窗前的桌子上放着一杯咖啡;窗外是一座未来的城市;附近可以看到未来派的单轨列车;周围有许多茂盛的植物;从一楼拍摄;上面有云
MJ 崩了,是唯一没画出列车的,Adobe 画了列车但是轨道有 BUG,Meta 画出来了但是很乱,Dalle 完美。
Dalle:4,Meta:3,Adobe:2,MJ:1。
Editorial photography of astronaut cooking Christmas colorful chocolate honey cookies on spaceship, Christmas honey cookies floating around astronaut, no gravity, in spaceship, levitated
宇航员在宇宙飞船上烹饪圣诞彩色巧克力蜂蜜饼干的编辑摄影,圣诞蜂蜜饼干漂浮在宇航员周围,没有重力,在宇宙飞船中,悬浮
Dalle 暴揍全场,唯一理解了圣诞、彩色元素的,Adobe 在做饼干但是没这些元素,MJ 好看是好看但是快把自己炸没了,饼干都没在做,Meta 的饼干没漂浮。。。
Dalle:4,Adobe:3,Meta:2,MJ:1。
Prompt3:Shot diagonally. Cinematic shot of several astronauts in the space station, surrounding a chromium metal water droplet suspended in the air, the surface of the water droplet can reflect everything like a mirror, indoor scene
对角线拍摄。几名宇航员在空间站中的电影镜头,围绕着一个铬金属水滴周围,铬金属水滴悬浮在空中,水滴的表面可以像镜子一样反射一切,室内场景
之前做《三体》时一个天坑镜头,镜面能反射一切的铬金属水滴没几个 AI 能理解的,Dalle 不愧是语义之王,Adobe 理解成了从天上往下滴的水滴,Meta 和 MJ 不知道在玩个啥。。。
Dalle:4,Adobe:3,MJ:2,Meta:1。
在语义理解上,总分如下:
05
总结
在四个维度评完了以后,我们应该能对这几个大模型有大概的了解了。
但是为了更直观一些,我再来做个雷达图吧。
细节质量方面,MJ > Adobe > Meta > Dalle。
审美方面,MJ = Adobe > Meta = Dalle。
风格多样化方面,Dalle > Adobe = MJ > Meta。
语义理解方面,Dalle > Adobe > Meta > MJ。
综合看,目前 Adobe 是最水桶的,其次是 MJ,然后是 Meta,Dalle 偏科过于严重。
虽然只放出来了 12 个 prompt,但是我在后面跑了将近 14 个小时,测了 300 多个例子,选出了典型。快吐了……
希望这个评测,能抛砖引玉吧,让大家对 AI 绘图综合有一些了解。