AI绘画的利器,自训练模型的未来
在无界版图视频号做了一次AI自训练模型的分享,这篇是聊到的一些内容。更多相关的模型绘图效果可以看一下无界版图视频号中的视频回放。直播中介绍的一些模型网站,模型训练的具体方法可以看看文章最后的相关内容。
在前面的文章《让你的AI绘画技艺达到新高度: 自训练模型!》中,已经介绍过自训练模型是未来的一个重要发展方向。目前的两大AI绘画程序Midjourney和Stable Diffusion代表了两种路线,一种是Midjourney走的封闭路线,模型、数据都未公开,通过开发团队的不断迭代,绘画效果达到了一个相当高的水准。另一种以Stable Diffusion为代表,通过开源的方式,叠加Dreambooth等各种最新的技术,诞生了大量的自训练模型,构建起了一个庞大的第三方生态群。
一、自训练模型简介
当前自训练模型技术主要有Checkpoint Merger(检查点合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超网络模型)、Aesthetic Gradient(审美梯度)以及Dreambooth 等。其中以Textual Inversion 和Dreambooth 较为流行,分别有着不同的技术原理和优势。
自定义模型主要提供两种对象:Object/Style。
Object实现的是将现实中的物体带入AI的世界。打通AI自身数据的边界限制。各种品牌的产品、普通人、大数据还没有涵盖到的一切现实世界内容,都可以根据自己的需要带入AI。
Style实现的是将已有的风格带入AI的世界。比如艺术家们将自己的绘画风格传授给AI,然后再指挥AI使用自己的风格进行艺术创作,即利用了AI的高效和未知的神秘力量,又能保持自己独特的设计风格,从而更快速的提高了自己的工作效率。
常用的两种模型训练方法有:Textual Inversion(嵌入)/Dreambooth (Fine Tuning微调)
Textual Inversion训练出的模型文件可以直接挂载到Stable Diffusion 模型框架中,是在模型中嵌入一部分数据,告诉模型我是谁。Textual Inversion 的优势是轻量级、简单上手,单个文件在几K到几十K之间。Dreambooth是直接调整模型本身,需要的数据量弹性很大,既支持用几张图形开始训练,也支持使用几万张图形文件进行训练,训练完成后可以生成单独的微调模型,模型文件较大。
在文本生成图片的领域,Midjourney封闭路线的优势在于可以更好地控制训练数据的质量,从而训练出更好的模型,并且可以通过不断迭代,使模型的效果达到一个相当高的水准。但是这种方式的缺点是,由于模型和数据都未公开,因此无法让更多的开发者参与训练,开发团队的审美喜好决定了模型的审美标准。
未来的发展中,做足够好用的细分市场,服务特定的人群需求,将有很好的前途,也可以做到大用户量,并拓展到通用模型。
除此之外还有一些创业公司推出了方便用户进行训练的服务,例如个人形象、游戏角色、场景训练。
未来成为特定赛道的小而美模型,灵活的满足各类需求永远有一席之地。凭着技术成为提供海量小模型的服务商也很有前途。
第三个大的方向是往通用模型方向发展,例如近期表现较好的Dreamlike Diffusion和22h Diffusion,还有前段时间的各种Midjourney模型。他们不是针对特定对象,在各种主题和风格方面都取得了很好的效果。
除了审美偏好的提升,对不同主题的表现能力、构图能力的提升也是衡量模型实力的一个标准。从我个人的使用体验,Dreamlike在风格质量上的提升很明显,而22h在不同主题的表现能力、构图能力上要更胜一筹。
这类模型对使用者来说体验很好,在未来的发展中,我认为面向所有领域的通用模型将受到越来越多的关注,并在许多应用场景中发挥重要的作用。也会有一些模型转而采取封闭模式,例如Lexical网站的模型就未公开,这些模型也将是Midjourney的主要竞争对手。从目前看这种通用模型的商业化也容易一些,采取收费会员制更容易被用户接受。
我们习惯性使用的那些核心词汇,类似high detailed,Intricate,masterpiece,在最近流行的一些新模型里起到的作用已经在逐渐减弱。例如最新的22h Diffusion的开发者就特别强调他们希望实现用更少的词汇生成更好的图像。我们所说的魔法、关键词,其实根本上来说就是人类的审美喜好,就是AI在努力学习的方向,就是大数据和算法要解决的问题。
用户是改变AI世界的主力军,更多具有创造性能力的用户参与到模型的训练中,不仅能拓宽技术的应用范围,还能拓展技术的想象空间,汇聚更多人的智慧和想象力。而且那么多的垂直领域都值得用AI的方式改造一遍,游戏资产模型的出现,一定会改变未来游戏开发的方式,室内设计模型的出现会改变室内设计的行业流程,这种技术上的发展可能带给我们的不仅是质量的提升、还包括效率的提升、应用范围的扩大,并带给我们更多目前还不知道的变化,这个未知的变化才是最吸引人的。
模型聚合:https://civitai.com/
Lexica人像模型:https://Lexica.art/
Dreamlike通用模型&人像模型&动漫模型:https://dreamlike.art/
Seek.art通用模型:https://seek.art/
22H通用模型在线版:https://huggingface.co/spaces/22h/vintedois-diffusion-v0-1
Protogen在线版:https://huggingface.co/spaces/darkstorm2150/Stable-Diffusion-Protogen-webui
日漫模型Cool Japan Diffusion:https://huggingface.co/spaces/aipicasso/cool-japan-diffusion-2-1-0-demo?continueFlag=8a553b0f9cd843f5bfd1a6db5164f4e3
各类模型Colab版:https://github.com/camenduru/stable-diffusion-webui-colab
五、个人用户如何训练模型
对自训练模型感兴趣的朋友,推荐阅读以下内容:
艺术工作者们,可以训练Stable Diffusion绘制自己风格的作品了! Stable Diffusion实现“以假乱真”!你的梦想他帮你完成! 教程:如何用你的图片训练Stable Diffusion学习新概念 Stable Diffusion如何叠加使用其他用户训练的模型? 用户训练的Stable Diffusion模型到底能做出什么效果的图?一起来看看 Stable Diffusion版的Dreambooth发布,只需三张自拍照,AI就能记住你! 如何提高Dreambooth训练AI人像模型的质量? 新版Dreambooth训练AI模型教程,效率和效果大幅提升! AI进化的速度有多快,再看AI学习徐悲鸿画马 Stable Diffusion学习丰子恺的画风能画出什么? 让你的AI绘画技艺达到新高度: 自训练模型! 如何利用AI自训练模型绘制令人惊叹的建筑效果图
对写作者最好的支持就是
转发、点赞、关注、打赏