查看原文
其他

无限仙境 (Infinite Wonderland) - 生成故事的插图

renee创业狗 Renee 创业随笔
2024-10-09

在Google I/O上,Google介绍了一个名为“无限仙境”(Infinite Wonderland)的产品,它类似于之前分享的StoryDiffusion

体验

在官网 https://infinitewonderland.withgoogle.com/上,您可以选择一个喜欢的艺术家主题,然后选择对应的一段文案,就可以生成故事的插图。

通过这种方式,用户能够亲身体验无限仙境的创意魅力,将经典小说与现代技术完美结合,创造出独特的视觉故事。每一次生成的图像都可能是独一无二的,展现出艺术家和AI合作的无限可能。

技术基础

这个技术基于这两天介绍的ImagenStyleDrop

Imagen是Google最高质量的文本生成图像模型,能够生成细致、光照效果丰富且干扰伪影少的图像。它理解自然语言提示,能够生成多种视觉风格,并捕捉复杂提示中的细节。

StyleDrop允许用户通过提供单张参考图像,生成符合特定风格的高质量图像。它通过高效参数微调和迭代训练,实现了对用户提供的风格的细致捕捉和再现。

实现过程

01 每位艺术家为故事创作原创图像

受到约翰·坦尼尔(John Tenniel)原版插图的启发,每位艺术家创作了一小部分定制图像,通过他们的视角来展现这部小说。他们为每幅图像撰写了描述,并定义了自己独特的风格。

02 艺术家在原创图像风格上微调Imagen 2

使用称为StyleDrop的微调技术,艺术家们利用他们的原创图像微调了图像生成模型Imagen 2。这是一个迭代过程,每位艺术家可以看到他们的原创图像如何影响模型的输出,然后进行创意修改,直到模型生成的美学和构图感觉最符合他们的风格。一旦完成,这些微调使他们能够以自己独特的风格生成任何描述的图像。

03 每一句话都通过Gemini转化为定制的图像提示

刘易斯·卡罗尔(Lewis Carrol)的原著小说中有1200多句句子。使用少量示例提示,Gemini将每一句话转换为图像描述。然后,每个图像描述都根据每位艺术家的微调风格进行了定制,作为Imagen 2的提示。

04 每一句话都可以在任意艺术家的微调风格中生成无限图像

通过将每位艺术家的微调风格与他们的定制图像提示相结合,这本书的每一句话都可以在任意艺术家的微调风格中生成看似无限的图像。这种组合是无限仙境体验的核心,使这部永恒的经典能够通过艺术家、AI和用户不断地重新想象。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存