2022年AI绘画的回顾与展望：见证技术与艺术的新时代！

Original 穿行者2049 今说新语 2024-04-14

2022年就要结束了，本年度对我个人来说最重要的事情，就是亲眼见证了AI绘画崛起的全过程。本文就简单总结和回顾一下今年AI技术的进展，以及本公众号今年的主要内容。（全文共5000字，感谢您的阅读）

我认为AIGC是自2000年以来IT技术行业最重要的一个进展，远比2010年的移动互联网爆发要更重要。

先简单回顾一下AI绘画的发展简史。

在2021年，VQGAN（视觉生成模型）+CLIP（算法）的结合使用让AI绘画踏入新阶段，真正实现了较高质量的“输入文字生成图像”。这两种机器学习算法彼此独立，前者擅长根据原有图像生成相似的图像，而后者能够给图像与文字的匹配程度打分。两个算法互相配合，多次迭代后，便能生成一张符合使用者输入文字的最佳图像。

2022年，扩散生成模型（Diffusion Model）凭借更出色的生成结果取代了对抗生成网络（GAN），成为图像生成领域更偏爱的算法。由此衍生出了Clip + Guided Diffusion、Dall E2、Stable Diffusion等新的算法，以及基于这些算法搭建的AI画作生成平台Disco Diffusion、Dall·E2、Midjourney和Stable Diffusion。

3月Disco Diffusion开始出圈

Disco Diffusion的初始作品是一张灯塔，象征着给行业照亮了前行之路。并且普及或者说定义了后来AI绘图的很多概念，例如提示语Prompts、迭代步数、作品风格、参考艺术家、动画、他让很多没有美术基础的人第一次看到自己也能创作出优美的作品。但Disco Diffusion的缺点也是显而易见的，速度慢、需要在浏览器中的Colab上面对代码操作。

4月Midjourney开始内测

Midjourney的出现以作品的生成速度震惊了使用者，同时直观的操作界面、可迭代的进化功能，全公开的作品展示库、艺术家风格库，如同一个个宝藏库让每一个AI爱好者的学习热情都被点燃。人们也意识到AI创作的第一个门槛好的Prompts被迈过，而对艺术家、艺术风格的理解变得更为重要。

4月Dall-E2开始内测，DALL-E为艺术家萨尔瓦多·达利（Salvador Dali）和机器人瓦力（WALL-E）的合成词。DALL-E 2实现了更高分辨率和更低延迟，可以生成更真实和更准确的画像，分辨率更是提高了4倍！语义理解能力和最终的绘画效果更是超出了当时人们想象的最高度，以至由于对各种风险的担忧，迟迟不愿完全开放。

8月Stable Diffusion内测

2022年7月底8月初，功能强大的AI绘画平台Stable Diffusion开始分4波邀请内测。每天产生上千万张图片，并迅速升级迭代，最终于8月20日完全开放网页版服务，随后8月22日开源代码，整个AI届被引爆，各类在线绘图网站纷纷引入，很多网站在其基础上二次开发，任何人都可以在本地计算机部署，单独训练独有的模型。向量图形编辑器、原型设计工具Figma以及图像处理软件Photoshop等等都引入了AI绘图插件。

全行业爆发。

2022年6月11日，《经济学人》杂志选择用Midjourney生成的AI绘图作为当期杂志的封面，AI绘画由此进入主流媒体视野。2022年8月底，由AI生成的画作《空间歌剧院（Théâtre D'opéra Spatial）》在美国一个数字艺术类美术比赛中获得第一名。AI绘画进入社交媒体热议、版权争论渐起。各行各业都卷入进来，不仅仅是纯绘画，包括平面设计、建筑设计、服装设计、鞋类设计、室内设计师、影视动漫等等一切与图像创作相关的行业都开始进入这个领域。

11月ChatGPT横空出世

这是OpenAI训练的一个名为ChatGPT的超级对话模型，以对话方式进行交互，持续性的回答用户提出的各种问题。不论是日常聊天，解决技术问题，还是修改代码，编写提示语，只要你想到的都可以试试，而他不会的问题会直接告诉你，或者提示你如何修改问题才能获得正确的答案。你可以把它当做一个超级智能的搜索引擎助手，随时帮你解决各种困难。

完全可以类比一下2000年互联网爆发时对整个社会的全方位影响，2022年的AI技术爆发也一定会带来对社会全方位的影响。

站在2022年初，没有多少人能预料到这一年会有这么大的进展，但站在2022年末，我想更多的人已经毫不怀疑Ai技术的爆发已经或即将改变整个互联网行业。

从内容的生产、信息的传播、商业社会的渗透、各行业生产流程的重塑，不论是质量和效率都将有巨大的飞跃。

文生文、文生图、文生音乐、文生视频、文生3D，都已取得了长足的进步，技术层面当然还会有巨大的进展，但在产品层面无疑才刚刚开始。

回想我们站在2000年时根本想象不到后来会产生如此多的丰富产品，同样现在也无法想象AI技术会从产品层面带来哪些新鲜的体验。更重要的是目前AI行业处于一个非常好的发展环境中，与2000年相比，用户的接受程度要更快，付费意愿也更强烈，成熟的付费环境也有助于各个创业公司将精力投入在产品研发上，市场也会更快的给好产品定价和奖赏。现在也已经不是画大饼的时代，以往很多公司习惯于产品先画个大饼，技术跟在应用后面追，现在是技术跑在了应用前面，快速迭代的技术进步推着产品加速跟上。

目前国内流行的二次元头像生成、各个创业公司二次开发的AI绘画应用，都还属于产品的初级形态，暂时都还停留在内容生产、用户个人娱乐阶段。国外的应用稍微靠前一些，在室内设计、游戏角色设计、游戏动画设计、视频创作方面都有了一些很好的行业应用方向。当然国外近期的热点应用和国内类似，也是拥挤在微调模型，为用户生成自训练模型、生成个性化头像这一个应用点。毕竟Lensa软件的火爆吸引了大量圈外人的注意力，可以算AI技术的第一次破圈。但头像生成是一个太小的方向，这么多公司都拥挤在微调模型生成头像这个狭窄的领域，好奇心过后，潮水必然退却。用户需求必然还会往更广的方向探索，明年也更希望看到文本生成图像方面有更多的产品形态，行业应用。

此外今年AI技术在3D模型和视频方面都已经开始有了进展，明年在这两个方面无疑将是热点。而这两个方向更偏向于行业用户，专业性更高，但可应用的方向也更广。毕竟我们目前本身就处在一个视频时代，一切有利于提升视频生产力的技术，都会更快的匹配到产品中。在微调模型领域，国外在游戏场景生成、角色生成方面的微调应用发展非常快，已经可以直接接入游戏设计行业的工作流。而在3D人物生成方面，一些公司推出的演示视频也已经相当成熟。但可以肯定地说，我相信明年所有火爆的AI应用在目前这个时点都还没有出现，这件事儿想想就很兴奋，明年快来吧。

2000年互联网的普及带来的是内容生产效率的提高，人人都可上网，人人都可生产内容。AI技术的普及将把这种效率提升百倍，在AI的帮助下，文字、图片、音视频、3D、VR等内容的生产都将爆发性的产出，5G、6G解决了VR内容的传输，而AI将解决内容的生产。

随着AI技术的普及，内容生产可能会发生以下变化：

生产效率提高：AI可以帮助人类完成大量繁琐的工作，如数据处理、文本生成、图像生成等，提高内容生产的效率。
内容种类更多：AI可以帮助人类快速生成各种类型的内容，包括文字、图片、音视频、3D、VR等，使得内容种类更加丰富。
内容质量提高：AI可以帮助人类快速生成高质量的内容，例如文本生成技术可以生成流畅的逻辑性更强的文字，图像生成技术可以生成逼真的图片等，使得内容质量更加优秀。
内容生产门槛降低：AI可以帮助人类快速生成内容，使得内容生产的门槛降低，让更多的人可以参与内容生产。
实时内容生产：AI可以帮助人类快速生成内容，使得实时内容生产成为可能。例如，在新闻事件发生后，AI可以帮助快速生成新闻报道、图片、视频等内容，使得实时获取信息更加方便。
在游戏实时画面生产方面，AI可以帮助快速生成流畅的画面，提高游戏体验。例如，可以使用AI文本生成图像技术来生成游戏场景，使得游戏场景更加逼真。此外，AI还可以帮助快速生成游戏角色、道具、动画等内容，使得游戏更加丰富。
在VR交互式内容生产方面，AI可以帮助快速生成交互式内容，使得VR体验更加逼真。例如，可以使用AI文本生成图像技术来生成VR场景，使得VR场景更加逼真。此外，AI还可以帮助快速生成VR角色、道具、动画等内容，使得VR体验更加丰富。
这里提到的实时内容生产不是预先生成内容，而是根据玩家的指令，实时产生对应的场景、装备、交互效果。头号玩家中的场景将离我们更近，那不是幻想，而是可预见的未来。
一个简单的类别，CAD技术催生了各种行业辅助设计软件，产生了一个巨大的市场，各种行业CAD软件层出不穷。AI技术也会催生各种行业辅助设计生产程序，重塑目前的各行业内容生产方式。
如果再考虑AI生产文本、音乐等等技术，几乎没有一个行业不受影响。