查看原文
其他

AI绘画的利器,自训练模型的未来

穿行者2049 今说新语 2024-04-15


在无界版图视频号做了一次AI自训练模型的分享,这篇是聊到的一些内容。更多相关的模型绘图效果可以看一下无界版图视频号中的视频回放。直播中介绍的一些模型网站,模型训练的具体方法可以看看文章最后的相关内容。

在前面的文章《让你的AI绘画技艺达到新高度: 自训练模型!》中,已经介绍过自训练模型是未来的一个重要发展方向。目前的两大AI绘画程序Midjourney和Stable Diffusion代表了两种路线,一种是Midjourney走的封闭路线,模型、数据都未公开,通过开发团队的不断迭代,绘画效果达到了一个相当高的水准。另一种以Stable Diffusion为代表,通过开源的方式,叠加Dreambooth等各种最新的技术,诞生了大量的自训练模型,构建起了一个庞大的第三方生态群。

一、自训练模型简介

当前自训练模型技术主要有Checkpoint Merger(检查点合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超网络模型)、Aesthetic Gradient(审美梯度)以及Dreambooth 等。其中以Textual Inversion 和Dreambooth 较为流行,分别有着不同的技术原理和优势。

自定义模型主要提供两种对象:Object/Style

Object实现的是将现实中的物体带入AI的世界。打通AI自身数据的边界限制。各种品牌的产品、普通人、大数据还没有涵盖到的一切现实世界内容,都可以根据自己的需要带入AI。

Style实现的是将已有的风格带入AI的世界。比如艺术家们将自己的绘画风格传授给AI,然后再指挥AI使用自己的风格进行艺术创作,即利用了AI的高效和未知的神秘力量,又能保持自己独特的设计风格,从而更快速的提高了自己的工作效率。

常用的两种模型训练方法有:Textual Inversion(嵌入)/Dreambooth (Fine Tuning微调)

Textual Inversion训练出的模型文件可以直接挂载到Stable Diffusion 模型框架中,是在模型中嵌入一部分数据,告诉模型我是谁。Textual Inversion 的优势是轻量级、简单上手,单个文件在几K到几十K之间。Dreambooth是直接调整模型本身,需要的数据量弹性很大,既支持用几张图形开始训练,也支持使用几万张图形文件进行训练,训练完成后可以生成单独的微调模型,模型文件较大。


在文本生成图片的领域,Midjourney封闭路线的优势在于可以更好地控制训练数据的质量,从而训练出更好的模型,并且可以通过不断迭代,使模型的效果达到一个相当高的水准。但是这种方式的缺点是,由于模型和数据都未公开,因此无法让更多的开发者参与训练,开发团队的审美喜好决定了模型的审美标准。

相比之下,Stable Diffusion代表的开源路线可以让更多的开发者参与训练,并且可以让用户群更广泛地参与讨论并提供反馈,有助于更快地进步和提高效果。由于数据质量的控制可能不如封闭路线稳定,因此训练出的模型的效果短期可能不如封闭路线。但随着参与人数的扩大,更多的想象力和潜力被挖掘出来,近期各种模型的推出,我们可以看到模型的质量在飞速发展,在某些方面已经超越了Midjourney。
就我个人注意到的,近期比较火热的几个模型有Dreamlike Diffusion 1.0、Dreamlike Photoreal 2.0、22h Diffusion、Lexical的 Aperture 2.0、22h Diffusion、Protogen 5.3等等。
二、自训练模型发展方向
从大的方面来说,目前Stable Diffusion基础上的自训练模型有三条大的发展路线。

一种是向的方向发展,例如训练模型绘制更逼真的人像,这个应该占据了非常大的一个竞争赛道,很多团队都在这方面投入了大量的精力,例如比较知名的Zeipher、近期进展比较大的Protogen、以及上次文章里介绍过的Lexia Aperture、新近推出的Dreamlike Photoreal,都是在逼真人像这个赛道用力,都取得了非常好的效果。特别是近期推出的Protogen 5.3版本,在手的绘制方面虽然不能说达到完美程度,但可以说已经在这一个方面超越了Midjourney,绘制出的人手具有较好的效果。这种模型的优势在于可以生成非常逼真的人像图片,可以用于许多应用场景,例如摄影、电影、游戏、广告拍摄等。

未来的发展中,做足够好用的细分市场,服务特定的人群需求,将有很好的前途,也可以做到大用户量,并拓展到通用模型。


第二个大的方向可以称之为
的方向,包括更具特色风格的各类动漫模型、有着小众风格的剪纸模型、迪斯尼角色模型、漫威角色模型、玻璃展示柜模型、建筑模型、夜间模型等等。包括一直很火的Novel AI、Waifu、Anything、最近的Cool Japan Diffusion等模型。这种模型的优势在于可以针对特定领域的特点进行训练,并生成相应的图片。根据训练用的数据,模型的大小可以从几K到几个G,具有非常大的灵活性。而且借助广大的开发者的智慧,每一种模型都有着特定的受众群体,都可以解决一个非常具体的问题,可以说是星星之火可以燎原。

除此之外还有一些创业公司推出了方便用户进行训练的服务,例如个人形象、游戏角色、场景训练。

未来成为特定赛道的小而美模型,灵活的满足各类需求永远有一席之地。凭着技术成为提供海量小模型的服务商也很有前途。


第三个大的方向是往通用模型方向发展,例如近期表现较好的Dreamlike Diffusion和22h Diffusion,还有前段时间的各种Midjourney模型。他们不是针对特定对象,在各种主题和风格方面都取得了很好的效果。

除了审美偏好的提升,对不同主题的表现能力、构图能力的提升也是衡量模型实力的一个标准。从我个人的使用体验,Dreamlike在风格质量上的提升很明显,而22h在不同主题的表现能力、构图能力上要更胜一筹。

这类模型对使用者来说体验很好,在未来的发展中,我认为面向所有领域的通用模型将受到越来越多的关注,并在许多应用场景中发挥重要的作用。也会有一些模型转而采取封闭模式,例如Lexical网站的模型就未公开,模型也将是Midjourney的主要竞争对手。从目前看这种通用模型的商业化也容易一些,采取收费会员制更容易被用户接受。

还应该看到,随着技术的发展,模型训练所需的资源在大幅下降,包括人力资源也在下降,大多数模型都是一些个人开发者或小团队在创业,像Dreamlike是一个开发者起步、22h是两个人起步、最近大火的Protogen也是一个开发者,这种资源的下降可以鼓励和支持更多的团队使用大数据进行训练,影响最终效果的因素将更加偏向于人类的自主选择,例如审美喜好、算法偏向、数据偏好。各种行业模型的出现也会拓宽模型的应用范围,比如现在的游戏资源训练模型。
三、交互模式升级和语义理解能力增强
前面谈到的内容都是从模型的角度。从使用者的角度来说,目前我们使用AI程序的方式其实处于初级阶段,每种模型都有各自不同的提示语习惯,对关键词的要求比较高,以至于出现了所谓的提示语工程师、魔法宝典等称谓。例如每个人都知道一些核心关键词:high detailed,Intricate,masterpiece,还有什么4K、8K、16K、32K等等。包括我们在使用国内的各种AI绘画程序时,是需要先点选十几——几十个关键词,例如下面这样(不代表对这个产品的批评,仅仅是举例说明现状只能采取如此方式)。
其实仔细想想,这种交互方式,这种通过秘籍掌握与AI沟通的方式是反人类的,或者说违反技术发展目标的。AI技术的发展本身是为了减少人类的工作量,通过人类与AI的自然交流,提高工作效率目前之所以有这么多的秘籍、核心关键词,恰恰是因为AI在理解正常人类语言方面还有弱点。

我们习惯性使用的那些核心词汇,类似high detailed,Intricate,masterpiece,在最近流行的一些新模型里起到的作用已经在逐渐减弱。例如最新的22h Diffusion的开发者就特别强调他们希望实现用更少的词汇生成更好的图像。我们所说的魔法、关键词,其实根本上来说就是人类的审美喜好,就是AI在努力学习的方向,就是大数据和算法要解决的问题。

AI模型的发展方向就是减少大多数人的非人性化输入,使用更偏人类的语言和AI进行交流。随着ChatGPT的推出,我们也能看到AI对于人类语言的理解能力是非常强的,目前已经有很多国外的用户在同时使用ChatGPT来辅助AI文本生成图像。未来我们只需像正常人类交流一样:一个在花园中坐着看书的女子,就可以得到逼真的、构图合理、光线效果良好的人像结果,而不用输入一堆所谓的核心关键词。


在未来的发展中,不管是封闭路线和开源路线当然都将继续存在,并各自发挥自己的优势。Midjourney这样的封闭路线会继续提供高质量的模型和数据,并通过不断迭代提高效果来给我们带来更多惊喜。而开源的Stable Diffusion将继续吸引更多的开发者参与训练,而一部分自训练模型将发展成封闭模型,另一部分有可能会发展成垂直领域的垂直模型。

用户是改变AI世界的主力军,更多具有创造性能力的用户参与到模型的训练中,不仅能拓宽技术的应用范围,还能拓展技术的想象空间,汇聚更多人的智慧和想象力。而且那么多的垂直领域都值得用AI的方式改造一遍,游戏资产模型的出现,一定会改变未来游戏开发的方式,室内设计模型的出现会改变室内设计的行业流程,这种技术上的发展可能带给我们的不仅是质量的提升、还包括效率的提升、应用范围的扩大,并带给我们更多目前还不知道的变化,这个未知的变化才是最吸引人的。

四、文章中提到的一些模型相关网站

模型聚合:https://civitai.com/

Lexica人像模型:https://Lexica.art/

Dreamlike通用模型&人像模型&动漫模型:https://dreamlike.art/

Seek.art通用模型:https://seek.art/

22H通用模型在线版:https://huggingface.co/spaces/22h/vintedois-diffusion-v0-1

Protogen在线版:https://huggingface.co/spaces/darkstorm2150/Stable-Diffusion-Protogen-webui

日漫模型Cool Japan Diffusion:https://huggingface.co/spaces/aipicasso/cool-japan-diffusion-2-1-0-demo?continueFlag=8a553b0f9cd843f5bfd1a6db5164f4e3

各类模型Colab版:https://github.com/camenduru/stable-diffusion-webui-colab

五、个人用户如何训练模型


对自训练模型感兴趣的朋友,推荐阅读以下内容:

  1. 艺术工作者们,可以训练Stable Diffusion绘制自己风格的作品了!
  2. Stable Diffusion实现“以假乱真”!你的梦想他帮你完成!
  3. 教程:如何用你的图片训练Stable Diffusion学习新概念
  4. Stable Diffusion如何叠加使用其他用户训练的模型?
  5. 用户训练的Stable Diffusion模型到底能做出什么效果的图?一起来看看
  6. Stable Diffusion版的Dreambooth发布,只需三张自拍照,AI就能记住你!
  7. 如何提高Dreambooth训练AI人像模型的质量?
  8. 新版Dreambooth训练AI模型教程,效率和效果大幅提升!
  9. AI进化的速度有多快,再看AI学习徐悲鸿画马
  10. Stable Diffusion学习丰子恺的画风能画出什么?
  11. 让你的AI绘画技艺达到新高度: 自训练模型!
  12. 如何利用AI自训练模型绘制令人惊叹的建筑效果图


对写作者最好的支持就是

转发、点赞、关注、打赏

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存