查看原文
其他

体验当甲方的快乐!用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……

卷毛 头号AI玩家 2023-10-17


作者 | 卷毛
编辑 | 松露

*头图来源于DALL·E 3,描述:一个由拟人化的秋天树叶组成的民谣乐队的2D动画,每一片树叶都演奏着传统的蓝草乐器,在乡村森林的背景中,点缀着丰收之月的柔光。


全自动画图神器来了!ChatGPT现在能直接出图了。


只需要告诉ChatGPT你想要一张什么图,ChatGPT就能直接帮你写好完整的描述词,给到DALL·E 3生成图片。像这张混合星云爆炸的扣篮创意图,换成以往的AI绘图产品,一般都需要费力编写大段的“咒语”才能实现。


“一幅表现篮球运动员扣篮的油画,描绘的是星云的爆炸”,图源DALL·E 3


DALL·E 3是OpenAI最近推出的新版AI绘图模型,原生构建在ChatGPT之上,进一步降低了AI绘画门槛,用户可以在对话中将自己的想法转化成准确的图像,甚至还能画出正确的文字。


用户问ChatGPT“我5岁的孩子说的超级向日葵刺猬,它应该长什么样子”,ChatGPT立马写了四段不同风格的提示词,并生成对应图像


“这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 Find the universe within you”,图源DALL·E 3


目前只有一小部分ChatGPT Plus用户获得了内测资格。不过很快,与OpenAI深度合作的微软便将DALL·E 3集成在浏览器Bing中,可供所有Bing Chat和Bing Image Creator用户免费使用。由于来尝鲜的用户太多,Bing最近流量激增,报道称微软又紧急增加了数千台服务器上线。



有了ChatGPT支持的DALL·E 3真的像介绍的这么厉害吗?和Midjourney等其他AI绘画产品又有什么区别呢?“头号AI玩家”在Bing上对DALL·E 3进行了一番测评。


p.s. 想要体验的玩家可以访问以下两个入口,登录微软账户即可使用,目前Bing Image Create每天有25次免费的快速生成额度,用完之后生成图片需要更长的时间。


Bing Image Create网址:https://cn.bing.com/create


Bing Chat网址:https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q



文章插图


内容创作者为了减少购买版权素材的成本,或者快速找到符合需求的图片,可能会试着用AI生成配图。


我们先用简短的提示词试试,输入“画一个招聘市场”,DALL·E 3默认生成了四张1024*1024分辨率的图片,内容相似,都是拿着放大镜观察市场数据。



我们可以给出更详细的要求,比如“画一个现实里的招聘市场,人来人往,非常热闹”。不过DALL·E 3理解错了现实里的意思,变成了插画风格,并写上了文字“Real Job Market”,部分图片的文字还出现了错误。



作为甲方,我们再次提出了修改意见——“人头攒动的招聘市场,写实摄影,不含文字,横屏”。可惜的是,DALL·E 3给出的图比较抽象,虚实结合,还是出现了文字。



相比之下,同样的提示词,Midjourney的理解就比较准确了,满屏都是求职者。


Crowded recruitment market, realistic photography, no text --ar 16:9 --v 5.2

换一个简单点的描述看看,“两个中国人在面试中”,这下DALL·E 3的表现基本不错,只是交叉的手指都没处理好。


而Midjourney与DALL·E 3的理解不同,认为是两个人在面对面对谈,四张图的人物、环境、风格差异都比较大,细节上比DALL·E 3更真实一些。

Two Chinese people during the interview --ar 16:9 --v 5.2

DALL·E 3的特色在于能够在对话中生成图像,除了给出明确的提示词,我们还可以试着直接输入一段文字,要求生成符合文意的配图。


这段话讨论了非技术人员怎么跟上AI浪潮,语义复杂,并没有描述具体的人或事物,DALL·E 3的结果令人惊喜,有一座富有科技感的未来城市和工作在其中的人们,也有许多人围绕着智慧大脑的脉络进行工作,从不同角度切中了文意。

我们试着在其中一张原图的基础上继续加入文字“AI”,但是DALL·E 3重新生成了四张跟原图无关的图片,似乎不能直接修改已生成的图片,比如调整一些细节。



LOGO设计


既然有了ChaGPT支持,我们不妨让DALL·E 3帮我们完善想法,自动生成详细提示,定制一张个性化的LOGO。


一开始Bing认为“头号AI玩家”与人工智能和游戏有关,所以设计的LOGO主体是一个机器人拿着游戏手柄。在补充了账号信息和主色调后,Bing以人工智能头像和数字1为主要元素重新设计了四张图。


第三张感觉更简洁一些,我们继续沟通修改。


可以看到,Bing能比较好地理解需求,但生成的文字有时不太准确,需要再后期修改。对比Midjourney,我们无法实现这样来回的沟通,只能自己琢磨提示词,并且很难生成AIGC这么多文字,Midjourney的优势在于生成的图片质量比较高,设计感更强。

The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v 5.2


产品图/营销图


在广告营销、电商领域,AI商品图的应用越来越多,那么DALL·E 3能生成可用的素材图吗?

我们先让Bing生成一只中式风格的、适合秋冬使用的手提包,看来它理解的中式是喜庆、刺绣、流苏。


换成传统与现代结合的新中式风格呢?果然变成了黑色、金色为主的皮质包包,不过还是保留了复杂的刺绣图案。即使要求装饰简约一点,Bing理解的中式风格依旧离不开刺绣。


而Midjourney生成的显然更素雅一些,背景也更简洁。

A new Chinese-style handbag that combines tradition and modernity for autumn and winter, with light and neutral colors and patterns --v 5.2

如果想换个背景和场景,比如秀场上,一个优雅的女模特拿着这只包,那Bing暂时还做不到,会像前文一样重新根据描述生图。


最近推特上还流行一种DALL·E 3的玩法,用来生成一些排列整体的Knolling摄影照片,如下图所示,一个主体周围有许多相关物品环绕,放置在干净的背景上。

X@chaseleantj

想生成类似的图片却不知道怎么写提示词, 没关系,直接问Bing就行了。



创意梗图


AI降低了创作的门槛,可以帮助我们把脑中的奇思妙想画出来,其随机性也扩宽了想象力的边界。因而,创意梗图一直是AI绘图领域的热门类型。

我们来开开脑洞,让Bing画一只巨大的猫咪爬在东方明珠电视塔上。


只有左下的一张比较符合要求,其他东方明珠塔的数量和造型都有些错误,而且猫咪看起来像是动画建模,不太真实。

Midjourney虽然画出了真实的猫,但地点不在东方明珠塔,大小比例也不对。

A giant cat climbing on the Oriental Pearl TV Tower --v 5.2

下面我们再画一张最近的热门IP表情包,“Loopy正在上班”。


起初Bing不认识Loopy,理解成了古怪的、疯狂的意思。我们告诉Bing它来自韩国动画片《小企鹅Pororo》之后,Bing表示明白了,却把正在工作的主角换成了企鹅。


看来DALL·E 3还缺乏对于最新流行的素材训练。如果换成更经典的IP,那么DALL·E 3和Midjourney都能准确表现,并且DALL·E 3还配上了文字“假装上班,正在摸鱼”。


A meme of Pikachu working at a computer --v 5.2

最近AI绘画还流行一种模仿iPhone拍摄的恐怖照片风格,非常贴合万圣节的氛围,我们试试直接输入这一大段的描述。

提示词:“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog, and the scene is dimly lit."



四张图片基本都满足要求,左上的皮卡丘有点怪可爱的。但是同样的提示词,Midjourney就不能完全理解,还是需要转换成“咒语”。



故事书/漫画


在OpenAI官方演示中,ChatGPT可以通过自然的对话生成一只想象中的刺猬,并逐步生成完整的故事情节、绘本和系列贴纸。所以画故事书/漫画的流程被大大缩短了,如果你有一个想法,可以让AI先帮忙扩写故事、描绘场景,然后根据自动生成的提示词画出完整作品。

以丑小鸭变天鹅的故事为例,我们要求Bing把这个过程以儿童绘本的形式画出来。


Bing虽然一口气生成了三个画面,的确有丑小鸭和白天鹅,是儿童绘本的形式,但是前后缺乏逻辑关系,情节呈现不完整,可能还是需要自己按照一个个情节依次引导生成。


Bing还可以重新创作一个新的故事,比如它帮我设想了一个拥有超能力的超级英雄“洋葱侠”,画出了它和邪恶厨师的战斗画面。真别说,故事梗概和画面都挺符合我的想象的,你觉得怎么样呢?


小结

通过以上测评,可以看到DALL·E 3在搭载了ChatGPT后,可以完全用自然语言进行交流,在对话中绘图创作,不用复杂的提示工程,简短的提示词就能生成不错的图片,对抽象需求的理解能力也比较强,支持中文。不过文生图仍然是越详细的描述,输出越准确,这一点没有变。

DALLE·3和Midiourney等其他AI绘图产品相比,各有其优劣势:

在使用体验和交互上,DALLE·3的交互式绘图比较直观方便,降低了使用门槛,还能直接读懂大段文字自动作图。Midjourney目前主要在Discord平台上运行,需要在特定的频道里输入描述,不能文字交互。文心一言虽然也可以在网页上通过对话绘图,但缺少上下文理解,不能继续调整,目前一次只能生成一张图。

图源文心一言

在生成图片方面,DALL·E 3的优势是能生成较为准确的文本,可能有错误,但其他AI绘画产品目前直接文生图得到的文字都难以辨认,需要借助微调模型上传参考文字再融合。DALL·E 3默认生成1024*1024的正方形图片,适用范围较窄,而Midiourney可自定义多种尺寸,其他AI绘图产品基本都支持不同比例。

对于写实风格的图片,DALL·E 3生成的人脸和手看起来可能失真,而Midiourney目前V5.2版本已经非常逼真了,Stable Diffusion也有超写实的人像模型。

另外,在Bing上要求修改图片的时候,Bing是根据对话修改提示语再输入DALL·E 3进行生成,而不是直接修改已生成的图片,DALL·E 3暂时还不能像Midjourney一样快速进行微调,包括扩图、修改局部细节,更不用说Stable Diffusion复杂的参数调整了。所以作为专业创作者的生产力工具而言,DALL·E 3的实用性还不够强。

在安全问题上,DALL·E 3的内容限制较为严格,拒绝生成涉及公众人物、暴力、成人或仇恨内容的图像,比如要求画一张马斯克在火星上的照片,Bing显示无法创建。


根据OpenAI发布的DALL·E 3的22页技术报告,ChatGPT会改写提示,包括删除公众人物的名字、将人物与特定属性联系起来,以及以通用方式书写品牌。OpenAI还开发了图像分类器来检测图像中的存疑内容并阻止模型继续生成。

报告地址:https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

同时,微软表示,为了保证用户通过Bing Image Creator创建的内容的安全性,已经在生成的图片中内置了,符合C2PA规范的数字水印,包含图片创立日期、出处等信息。人的肉眼无法看见这些水印,但AI能识别出来。

总之,OpenAI的DALL·E 3现在加上了理解文字和图像的智慧大脑,我们可以把ChatGPT作为合作伙伴一起头脑风暴进行创作,无论是出于娱乐爱好或者专业需求。AI绘画模型正在不断进化,根据不同的用户需求和适用场景可以选择不同的工具,DALL·E 3不会完全替代其他产品,但新的创作方式已经更进一步了。



更多AIGC有关内容,请持续关注“头号AI玩家”,期待更多AI从业者与我们交流,选题爆料/联络采访/投简历/投稿可添加主编微信zhangjie74510,进AI玩家群可添加小药丸微信banggebangmei,添加微信请备注姓名-行业/公司。



「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画。
欢迎分享、点赞、在看
 一起研究AI

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存