查看原文
其他

ChatGPT DALL-E 3 进阶:奇异性和一致性

lencx 浮之静 2023-10-25

奇异性

如果你对奇异元素充满兴趣,或许可以试试参数 weird,它的数值越高,生成的图像就会越诡异(奇异)。范围从 0-3000,0 是正常,3000 是最诡异。

@dr_cintas 分享了几组图片,每张组合图参数分别为:左上 0,右上 1000,左下 2000,右下 3000。

随机验证

我使用了一个简单的 prompt 来验证效果,结果发现当 weird 设置为 8000 时,有意外惊喜,而且产生的风格也极其稳定。

📌 Prompt

weird 8000,宽屏梵高风格,少女,星空,大海

下面几张图是我随机挑选的 weird 数值,分别是 0,1000,3000,6000,7000,9000,12000。

weird 0
weird 1000
weird 3000
weird 6000
weird 7000
weird 9000
weird 12000

weird 8000

以下几张图均为 weird 8000。

一致性

DALL-E 3 生成高一致性的图像,一直都是难题。@nickfloats 曾对 Midjourney、Adobe Firefly 2 和 DALL-E 3 进行了一系列基准测试 (生成速度、准确性、质量、多样性和稳健性),使用 GPT-4 对结果进行评估 (0-5 分)。当时作者就在吐槽 DALL-E 3 无法在不改变或添加提示词的情况下生成多个唯一的图像(没有一种稳定的生成方法)。

@ai_for_success 分享了一个简单的方法,暂时解决了生成 DALL-E 3 图像过于随机,无法微调的问题。即:为生成的图片进行编号,然后根据编号进行微调

具体步骤

初始化角色

📌 Prompt

注:下面提示词是对人物的肖像描写,-XXXX 为一个数字编号,它十分重要,在后续步骤中会用到。

Left
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a red t-shirt -XXXX

Center
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt -XXXX

Right
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, and smiling -XXXX

角色微调

📌 Prompt

选取一张图作为初始角色:一位名叫 Hope 的 30 岁美国女性,她的卷发扎成发髻,穿着绿色 T 恤 -0003

illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt -0003

📌 Prompt

如果希望她微笑:一位名叫 Hope 的 30 岁美国女性,她的卷发扎成发髻,穿着绿色 T 恤,面带微笑 -0004

illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling -0004

📌 Prompt

如果希望她将手指放在嘴唇上并微笑:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着绿色 T 恤,微笑着,将手指放在嘴唇上 -0005

illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, and placing a finger on her lips -0005

📌 Prompt

如果希望她将手指放在嘴唇上但不微笑:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着绿色 T 恤,将手指放在嘴唇上 -0006

illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, placing a finger on her lips -0006

📌 Prompt

如果希望 Hope 的头发飘逸,手指放在嘴唇上保持微笑,则可以更新描述:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发型飘逸,穿着绿色 T 恤,微笑着,手指放在嘴唇上 -0006

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt, smiling, and placing a finger on her lips -0006

📌 Prompt

如果想让 Hope 读书,只使用基础提示即可(没有微笑,没有飘逸的头发,没有放在嘴唇上的手指):一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着绿色 T 恤,正在读书 -0007

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, reading a book -0007

📌 Prompt

注:以下两条 Prompt 需分开输入,这里为了对比,整理在一起,均以 -0006 为基础。左边是飘逸的卷发在喝咖啡,右边是发髻卷发在喝咖啡。

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt, smiling, placing a finger on her lips, and drinking coffee -0008

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, placing a finger on her lips, and drinking coffee -0009

场景微调

上面内容我们已经可以在保持一致性的前提下,对人物的头发,表情进行微调,但它们都是小范围调整,比如衣服和场景并没有太大变化。

📌 Prompt

如果想让她身穿适合的装备进行徒步旅行:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着合适的服装和装备在山里徒步旅行 -0010

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, hiking in the mountains with appropriate attire and gear -0010

📌 Prompt

尝试修改背包和皮夹克颜色:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着白色夹克,背着红色背包,在山中徒步旅行 -0011

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a white jacket and carrying a red backpack, hiking in the mountains -0011

📌 Prompt

让她在冬天里堆一个雪人:一位名叫 Hope 的 30 岁美国女性,她卷曲的波浪发扎成发髻,穿着冬装,在雪景中堆雪人 -0012

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, dressed in winter attire, in a snowy landscape making a snowman -0012

📌 Prompt

让她在图书馆里看书:一位名叫 Hope 的 30 岁美国女性,她卷发盘成发髻,舒适地坐在图书馆里,穿着一件写有“HOPE”字样的黑色 T 恤,全神贯注地阅读着一本书 -0013

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, seated comfortably in a library setting, wearing a black t-shirt with the word 'HOPE' written on it, engrossed in reading a book -0013

最后分享一下我生成的图片。

总结

关于如何使用 DALL-E 3 来生成一致性字符图像,主要有以下几点:

  • 提示结构:建议使用以下结构来构建提示:[基础提示] + [附加细节/变化信息] -标识符+1

  • 基础提示:基础提示是一个描述字符的详细信息的文本,包括年龄、国籍、外貌等。此提示在图像创建过程中保持不变。

  • 唯一标识符:在提示末尾添加一个标识符,用于跟踪变化。每次修改提示时,都要递增标识符。

  • 附加细节/变化信息:如果需要对字符进行特定的变化或添加额外的细节,将它们附加在提示的“附加细节/变化信息”部分中。

  • 通用描述符:使用通用术语,以允许 DALL·E 生成与场景适配的风格,为图像生成过程提供一定的灵活性(例如:“适当的着装”会让 DALL 生成适合登山活动的着装)。

基于此一致性不但可以微调,还可以对多张图片元素进行融合,为 ChatGPT DALL-E 3 创作连续剧情打下了基础。感兴趣的朋友请自行尝试,也欢迎大家评论,点赞,转发!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存