查看原文
其他

Google的StyleDrop - 自定义风格的文本生成图像

renee创业狗 Renee 创业随笔
2024-10-09

我们来看一个Google的StyleDrop - 自定义风格的文本生成图像。

StyleDrop 能够生成忠实于特定风格的图像,并由Muse驱动,这是一种文本生成图像的生成式视觉变换器。StyleDrop非常灵活,能够捕捉用户提供的风格的细微差别和细节,例如配色方案、阴影、设计模式以及局部和全局效果。StyleDrop通过高效地学习新风格,调整很少的可训练参数(少于模型总参数的1%),并通过人类或自动反馈的迭代训练来提高质量。即使用户只提供了一张指定风格的图像,StyleDrop也能够交付令人印象深刻的结果。

例子

单图风格化文本生成图像 

StyleDrop能够根据单张参考图像生成高质量的文本提示图像。风格描述符以自然语言形式(如“以融化的金色3D渲染风格”)在训练和生成时附加到内容描述符上。

风格化角色渲染 

StyleDrop能够生成符合单张参考图像描述的风格一致的字母图像。风格描述符以自然语言形式(如“抽象彩虹色流动烟波设计”)在训练和生成时附加到内容描述符上。

与风格助手合作 

StyleDrop易于使用自己的品牌资产进行训练,帮助快速在自己的风格中原型设计创意。风格描述符以自然语言形式在训练和生成时附加到内容描述符上。

对比

StyleDrop在Muse(一种离散令牌的视觉变换器)上的表现,在风格调校方面明显优于基于扩散模型(Imagen,Stable Diffusion)的方法。

参考图

不同技术对比

技术

StyleDrop建立在Muse基础上。Muse是一种基于遮罩生成图像变换器(MaskGIT)的先进文本生成图像合成模型。

其技术关键有两个部分:

  1. 高效参数微调生成式视觉变换器

  2. 具有反馈的迭代训练

最后,从两个经过微调的模型中合成图像。

这个公式我也看不懂。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存