Google的StyleDrop - 自定义风格的文本生成图像

Original renee创业狗 Renee 创业随笔

2024-10-09

我们来看一个Google的StyleDrop - 自定义风格的文本生成图像。

StyleDrop 能够生成忠实于特定风格的图像，并由Muse驱动，这是一种文本生成图像的生成式视觉变换器。StyleDrop非常灵活，能够捕捉用户提供的风格的细微差别和细节，例如配色方案、阴影、设计模式以及局部和全局效果。StyleDrop通过高效地学习新风格，调整很少的可训练参数（少于模型总参数的1%），并通过人类或自动反馈的迭代训练来提高质量。即使用户只提供了一张指定风格的图像，StyleDrop也能够交付令人印象深刻的结果。

例子

单图风格化文本生成图像

StyleDrop能够根据单张参考图像生成高质量的文本提示图像。风格描述符以自然语言形式（如“以融化的金色3D渲染风格”）在训练和生成时附加到内容描述符上。

风格化角色渲染

StyleDrop能够生成符合单张参考图像描述的风格一致的字母图像。风格描述符以自然语言形式（如“抽象彩虹色流动烟波设计”）在训练和生成时附加到内容描述符上。

与风格助手合作

StyleDrop易于使用自己的品牌资产进行训练，帮助快速在自己的风格中原型设计创意。风格描述符以自然语言形式在训练和生成时附加到内容描述符上。

对比

StyleDrop在Muse（一种离散令牌的视觉变换器）上的表现，在风格调校方面明显优于基于扩散模型（Imagen，Stable Diffusion）的方法。

参考图

不同技术对比

技术

StyleDrop建立在Muse基础上。Muse是一种基于遮罩生成图像变换器（MaskGIT）的先进文本生成图像合成模型。

其技术关键有两个部分：

高效参数微调生成式视觉变换器
具有反馈的迭代训练

最后，从两个经过微调的模型中合成图像。

这个公式我也看不懂。。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

Google的StyleDrop - 自定义风格的文本生成图像

例子

对比

技术

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

Google的StyleDrop - 自定义风格的文本生成图像

例子

对比

技术

您可能也对以下帖子感兴趣