Meta、Midjourney、Adobe、DALL·E：四大巨头的 AI 绘图模型综合评测

Founder Park 2023-12-16

The following article is from 数字生命卡兹克 Author 数字生命卡兹克

上周三，Meta 发布了一个免费的 AI 图片生成工具——Imagine with Meta AI，该产品基于其 Emu 图像模型。Meta 使用了 11 亿张公开可见的 Facebook 和 Instagram 图片来训练 AI 模型。

在某种程度上，大模型时代，这句老话「如果你不花钱，你就是产品」有了全新的演绎。截至 2016 年，Instagram 用户每天上传超过 9500 万张照片，因此 Meta 用于训练其 AI 模型的数据集只是其整个照片库的一小部分。由于 Meta 表示它只使用公开的照片进行训练，因此在 Instagram 或 Facebook 上将照片设置为私有应该会阻止它们包含在公司未来的 AI 模型训练中（当然，除非它改变了该政策）。

Ars Technica 对 Meta 生成图片能力的评价是：

Meta 的模型通常可以很好地创建逼真的图像，但不如 Midjourney。它可以比 Stable Diffusion XL 更好地处理复杂的提示，但可能不如 DALL-E 3。它似乎并不擅长文本渲染，而且在处理不同的媒体输出，如水彩画、刺绣和钢笔画时效果参差不齐。它的人物形象似乎包含了种族背景的多样性。总体而言，就 AI 图像合成而言，它在当今算是中规中矩。

公众号「数字生命卡兹克」迅速体验了 Meta 的绘图模型，并且对比了 Meta Imagine，Midjourney，Adobe Firefly，Dalle 四家产品的不同能力。

以下内容转载自「数字生命卡兹克」，Founder Park 转载时有调整。

SDXL 之所以没放在里面是因为它毕竟是个开源模型，是靠后续大神们的微调和生态来玩的，而且原生的质量确实有一点点差……

所以主要来对比这四个大模型。

我会从细节质量、审美（构图色彩等）、风格多样化、语义理解这四个维度来评测，每个维度 3 个 Prompt，同时每个 Prompt 我会在 AI 绘图模型中 roll 3 次，取效果最具有代表性的那个图，尽量减少偏见。

同时，为了有最后整体可视化的评分让大家看着更直观，所以我会进行打分。在每个案例中，第一名为 4 分，第二为 3 分，第三为 2 分，最后一名为 1 分，最后计算和。

01 细节质量

主要测试 AI 绘图对于细节的表现能力，比如人物面部皮肤的质感、比如织物纹理的细节、场景细微元素的细节等等，这个是对模型精度和输出质量一个非常重要的考量。

Prompt1：Portrait of a 2000s blonde woman posing on a sports car, white wired headphones, expressionless, 2000s hairstyle, 2000s fashion, sun rays, light teal and amber,Cinestill 50D
2000 年代金发女郎在跑车上摆姿势的肖像，白色有线耳机，面无表情，2000 年代发型，2000 年代时尚，太阳光线，浅青色和琥珀色，Cinestill 50D

明显可以看出，Adobe 在人物皮肤质感和衣服质感上最佳，Meta 和 MJ 其次，Dalle3 最差；耳机细节都有问题，Dalle3 取巧了所以没有 BUG，Meta 直接没给你画；背景的细节都差不多。

Adobe：4，MJ：3，Meta：2，Dalle：1。

Prompt2：Amazing photo of golden retriever chasing tennis ball underwater, close-up portrait
金毛猎犬在水下追逐网球的惊人照片，特写肖像

Meta 整体最好，MJ 其次，被水沾湿的细节都画出来了，Adobe 狗身上的细节少了一些，Dalle3 还是拉了，水的气泡的细节崩了。

Meta：4，MJ：3，Adobe：2，Dalle：1。

Prompt3：A girl with a bunny sitting and smiling in 1970s fashion in a field of flowers
一个带着兔子的女孩，穿着 1970 年代的时尚，坐在花丛中微笑

MJ 完胜，花和兔子、头发细节基本都没啥可挑的，Adobe 的细节很足但是裤子崩了，Meta 的面部皮肤质感很难受，Dalle 基本就没啥东西，一股子油画感。

MJ：4，Adobe：3，Meta：2，Dalle：1。

在细节质量上，总分如下:

02 审美

主要测试 AI 绘图的审美能力，一张图好不好看，是美是丑，除了细节之外，更多的还需要看模型的审美能力，比如构图、色彩、光影等等，审美强，出的图才好看。

Prompt1：Product shot of juicy burger, artisan, rustic, food photography, delicious, close-up
多汁汉堡的产品拍摄，工匠，质朴，食物摄影，美味，特写镜头

一张非常强调审美的图，Meta 的色彩几乎就不能看，让人毫无食欲，Dalle 的构图问题很大背景太乱，两个瓶子跟门神一样，MJ 也没有构图就一个大主体，Adobe 完胜。

Adobe：4，MJ：3，Dalle：2，Meta：1。

Prompt2：Dungeons and Dragons, Close up of a fire breathing flying dragon, cinematic shot
龙与地下城，喷火飞龙的特写，电影镜头

特写镜头，很强调构图，还有火与龙身的光影对比，Meta 的龙极其呆逼，其他所有的龙眼睛也都会发光来做强调，就它真画了个眼睛上去，色彩和构图也不太行，整体最佳还是 Adobe，色彩和构图都棒，其次是 MJ，再次是 Dalle，构图差点意思，太偏左上了，最次是 Meta。

Adobe：4，MJ：3，Dalle：2，Meta：1。

Prompt：Diagonal Shot. Constantinople, 1453, masked sorceress, in the style of biblical drama, movie scene, low saturation, muted colors, extreme detail, 8K
对角线拍摄。君士坦丁堡，1453 年，蒙面女巫，圣经戏剧风格，电影场景，低饱和度，柔和的色彩，极端细节，8K

MJ 的构图和色彩质感基本爆杀全场了，Adobe 完全没理解我最后的低饱和度，Dalle 的构图也很奇怪。

MJ：4，Meta：3，Adobe：2，Dalle：1。

在审美上，总分如下:

03 风格多样化

主要测试 AI 绘图对于风格的包容度，比如皮克斯风格、吉卜力风格、折纸艺术等等，理论上是需要大规模用几百个艺术风格去测成功率的，但是我个人精力有限，所以简单测试 3 个稍微常见一点但是不是那么烂大街的艺术风格吧。

Prompt1：an anime illustration of a samurai girl carrying a ninja sword, in the style of ethereal brushstrokes, ink painting, dark white and dark gray, fluid formation
拿着忍者剑的武士女孩的动画插图，风格空灵，水墨画，深白色和深灰色，流体形成

在水墨画这块，得神韵的还是 MJ 和 dalle，Meta 那个笔触就很诡异一点都不连贯断断续续得，Adobe 画出来就感觉一个日漫一样。

MJ：4，Dalle：3，Meta：2，Adobe：1。

Prompt2：small boy looking out of his bedroom window into a cyberpunk world, pixelated, 8 bit style
小男孩从卧室窗户望向赛博朋克世界，像素化，8 位风格

8bit 的像素画+赛博朋克，Adobe 和 Dalle 都画出了这种风格，Meta 差了一些，MJ 是完全没画出。在像素化上，Adobe 确实最好。

Adobe：4，Dalle：3，Meta：2，MJ：1。

Prompt3：Colorful logo of a French restaurant called "Khazix" with a flying seagull
一家名为「Khazix」的法国餐厅的彩色标志，上面有一只飞翔的海鸥

在做 Logo 上，Dalle3 的精准文字目前确实是独一档，无人可比，logo 的设计上，Dalle 最强，MJ 次之，Adobe 普普通通，Meta 的图形和细节简直稀碎。

Dalle：4，MJ：3，Adobe：2，Meta：1。

在风格多样化上，总分如下:

04 语义理解

主要测试 AI 绘图对于复杂语义的理解能力，能否将文本内容都能清晰的表达出来并保证生成图片的质量。

Prompt1：A cup of coffee sitting on a table in front of a window; outside the window is a futuristic city; a futuristic monorail can be seen close by; many lush plants around; shot from ground floor; clouds above
窗前的桌子上放着一杯咖啡；窗外是一座未来的城市；附近可以看到未来派的单轨列车；周围有许多茂盛的植物；从一楼拍摄；上面有云

MJ 崩了，是唯一没画出列车的，Adobe 画了列车但是轨道有 BUG，Meta 画出来了但是很乱，Dalle 完美。

Dalle：4，Meta：3，Adobe：2，MJ：1。

Editorial photography of astronaut cooking Christmas colorful chocolate honey cookies on spaceship, Christmas honey cookies floating around astronaut, no gravity, in spaceship, levitated
宇航员在宇宙飞船上烹饪圣诞彩色巧克力蜂蜜饼干的编辑摄影，圣诞蜂蜜饼干漂浮在宇航员周围，没有重力，在宇宙飞船中，悬浮

Dalle 暴揍全场，唯一理解了圣诞、彩色元素的，Adobe 在做饼干但是没这些元素，MJ 好看是好看但是快把自己炸没了，饼干都没在做，Meta 的饼干没漂浮。。。

Dalle：4，Adobe：3，Meta：2，MJ：1。

Prompt3：Shot diagonally. Cinematic shot of several astronauts in the space station, surrounding a chromium metal water droplet suspended in the air, the surface of the water droplet can reflect everything like a mirror, indoor scene
对角线拍摄。几名宇航员在空间站中的电影镜头，围绕着一个铬金属水滴周围，铬金属水滴悬浮在空中，水滴的表面可以像镜子一样反射一切，室内场景

之前做《三体》时一个天坑镜头，镜面能反射一切的铬金属水滴没几个 AI 能理解的，Dalle 不愧是语义之王，Adobe 理解成了从天上往下滴的水滴，Meta 和 MJ 不知道在玩个啥。。。

Dalle：4，Adobe：3，MJ：2，Meta：1。

在语义理解上，总分如下:

05 总结

在四个维度评完了以后，我们应该能对这几个大模型有大概的了解了。

但是为了更直观一些，我再来做个雷达图吧。

细节质量方面，MJ > Adobe > Meta > Dalle。

审美方面，MJ = Adobe > Meta = Dalle。

风格多样化方面，Dalle > Adobe = MJ > Meta。

语义理解方面，Dalle > Adobe > Meta > MJ。

综合看，目前 Adobe 是最水桶的，其次是 MJ，然后是 Meta，Dalle 偏科过于严重。

虽然只放出来了 12 个 prompt，但是我在后面跑了将近 14 个小时，测了 300 多个例子，选出了典型。快吐了……

希望这个评测，能抛砖引玉吧，让大家对 AI 绘图综合有一些了解。

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。

更多阅读

从100多个GPTs里，探究OpenAI究竟想要什么，又做了什么

时代周刊：为什么 Sam Altman 是 2023 年度 CEO？

MindOS：站在AGI风口，创业两年的教训与思考

专访Pika Labs创始人：视频模型技术路线尚未确定，明年会迎来AI视频的GPT时刻

AI女友产品开发记录：语音带来增长，OpenAI审查升级后访问量暴跌70%

月之暗面杨植麟：大模型需要新的组织范式，场景摩尔定律能催生 Super App

转载原创文章请添加微信：geekparker

继续滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

Meta、Midjourney、Adobe、DALL·E：四大巨头的 AI 绘图模型综合评测

01

细节质量

02

审美

03

风格多样化

04

语义理解

主要测试 AI 绘图对于复杂语义的理解能力，能否将文本内容都能清晰的表达出来并保证生成图片的质量。

05

总结

在四个维度评完了以后，我们应该能对这几个大模型有大概的了解了。

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

Meta、Midjourney、Adobe、DALL·E：四大巨头的 AI 绘图模型综合评测

01

细节质量

02

审美

03

风格多样化

04

语义理解

主要测试 AI 绘图对于复杂语义的理解能力，能否将文本内容都能清晰的表达出来并保证生成图片的质量。

05

总结

在四个维度评完了以后，我们应该能对这几个大模型有大概的了解了。

您可能也对以下帖子感兴趣