查看原文
其他

AI时代的巫师与咒语

EICO 2023-09-24

Editor's Note

《AI内容创作工具大爆发》只是预告,这篇会更加详细展开讨论。你也可以用Dreambooth搭建起模型训练自己的数据,搜索“Dreambooth tutorial for stable diffusion”即可开启。

The following article is from Rokey的Blog Author rokey

这篇的文章封面是使用 Stable Diffusion 免费 “创作”(生成),我没有再去费时间去找CC0无版权配图,同时还有各种风格的变体。


"a Hacker and a witch sit together, Hacker working on a portable laptop computer, head covered by the hood, fire flare come out of computer screen, deep dark night, dark forest with tall trees with twisted branches, magical sparkling light in the air, 8K, sharp focus, studio photo, intricate details, highly detailed, by greg rutkowski"

这篇文章尝试把最近的知识学习,产品案例,优秀文章观点与自己的思考总结一下。这是一篇长文,但不会枯燥,大量的Gif动图可能需要较长时间加载... 请多等待一下。

索引:

  1. 图像成为AI的杀手级应用

  2. Transformers 带来的范式变化

  3. 中心化,去中心化(开源)与社区

  4. Prompts Engineering 提示词工程

  5. 摄影技术与AI图像生成

  6. 自然语言 即 编程方式 即 通用界面

  7. 分工与工作流变革

  8. 新媒体形态,新公司阶层

  9. 创意与实现的分离

  10. 搜索,内容与第三种可能


1. 图像成为 AI 领域的杀手级应用(Killer App )

在过去的半年中集中爆发了以自然语言为输入方式的各类AI内容生成工具,尤其以 Open AI 的 Dall-E2,Stability.ai 的 Stable Diffusion,MidJourney,Google 的 Imagen等产品为代表。创作者可以使用 AI 工具创造出真假难辨的照片水准图像,或具备极高审美水准的“绘画作品”... 更可怕的是最近的3-4周左右时间,连续性的出现基于以上平台API或开源代码衍生的全新工具或模型,在极短时间内爆发式的扩展了AI创作的广度与深度。



Dall-E2 通过自然语言生成的图像


借助 Transfomer 机器学习模型 及 GPT1, GPT2, GPT3 三代语言模型(尤其GPT3实现的重大突破),Dall-E2,Stable Diffusion 等 Text to Image 模型图像生成质量已经达到甚至超越了人们的预期。

通过几十年的时间内,世界上最大的图库公司 Shutterstock 累计了4亿1千万张图片,而 Getty Image 积累了大约8千万张图片,现在Dall-E2一天的生产量已经到达2百万,而 Stable Diffusion 的测试期间就已经以2百万张每天的速度在合成图片, Stable Diffusion的创始人Emad说 “我们迟早会到达每天生成10亿张图片的阶段,尤其是当动画生成的功能被解锁后...” 。按照现在的速度,8个月后仅 Dall-E2的生产量就会超过 Getty Image 与 Shutterstock的总和。(这只是线性增长的假设且没有计算 Stable Diffusion 开源和其他各类模型带来的爆炸式增长)


图像素材网站 Getty Images 和 Unsplsh 紧急发布通告禁止AI生成图像入库,Shutterstock 目前对AI生成图像仍然持欢迎态度。

Getty Images 和 Unsplsh 发布紧急通告禁止AI生成作品入库


在原有的消费级AI路径设想中,通用的AI语音助手一直是被期待的杀手应用。现实是不论在开放式的智能家居,智能手表,到封闭式的车载或工作场景,AI助理的反馈质量并没有达到人们对其“足够聪明”的预期,也无法形成足以改变大众行为的推动力。2021年底的 Bloomberg 关于Amazon Alexa 的文章也提到了点。

https://www.bloomberg.com/news/articles/2021-12-22/amazon-s-voice-controlled-smart-speaker-alexa-can-t-hold-customer-interest-docs

OpenAI 2020年5月发布的GPT-3 语言模型 Text to Text 输出质量已经达到了令人吃惊的程度,但图像生成质量的大幅度提升更易被大众感知,视觉信息在现有的网络关系中传播力更强,应用场景也更广。生成极高质量的图像迅速成为AI领域的一个杀手级功能。

Stable Diffusion 生成的图像


视觉消费还是时代的主旋律:从最早 Facebook"Hot or not" 的比脸,到Instagram滤镜,再到区块链出圈的NFT,这次是AI Generative Image,每个阶段在视觉信息不同纬度上的新表达方式,将技术突破带入大众视野。图像是跨越平台,跨越领域的,跨越人群的天然容易被人符号化记忆。

Facemash "Hot or not"


Instagram 1.0


NFT Blue-chips

图像生成模型 Diffusion 或 Dall-E 也专注在像素序列(视觉)输出,通过不同的思路解决像素排列,像素间关系判断的问题。Graphics in 5 Minutes 简单易懂的讲解了不同模型的工作方式:《DALL·E 2, Explained: The Promise and Limitations of a Revolutionary AI》

https://towardsdatascience.com/dall-e-2-explained-the-promise-and-limitations-of-a-revolutionary-ai-3faf691be220


https://www.youtube.com/playlist?list=PLWfDJ5nla8UoG2mvvHs_OS0asAKC5HJeu


开写本篇的2022年9月29日,Meta 和 Phenaki.video 已经公开Text to Video工具。写完的当天10月5日,Google 公开了 Text to Video HD 24fps视频的生成能力。目前这个领域的进步是以周为单位的!

https://makeavideo.studio


https://imagen.research.google/video/


2. Transformers 带来的范式变化

所有这一切突破性进展需要追溯回2017年的一篇关于来自 Google Brain 和多伦多大学研究人员关于 Transformer 模型在自然语言处理中应用的论文:《Attention Is All You Need》

Transformer 最早由Google发明,但很快就被OpenAI应用于其GPT1/2/3的开发当中,也奠定了之后出现的一系列AI内容生成产品的基础。

图片摘自:http://blog.eladgil.com/2022/08/ai-revolution-transformers-and-large.html

这篇论文8位署名作者中的4位在AI相关领域创业。斯坦福研究人员在2021年8月的一篇论文中将 Transformer 模型称为 “Foundation Models”(基础模型)因为它已经带动了AI领域新一轮的范式变化。Transformers 已经取代了5年前左右才开始流行的深度学习模型CNN和RNN,70%过去两年中发表的关于AI的arXiv论文提到了 Transformers.


图片摘自:https://arxiv.org/pdf/2108.07258.pdf

Transformers 是为了解决序列转换的问题(Sequence Transduction with Recurrent Neural Networks 用递归神经网络进行序列转换)任何可以被序列化的信号都可以对应输入或输出,中间的黑盒子就是 Transformers 模型。

文字,图片,声音,DNA中的基因,蛋白质中的氨基酸,都可以被表示为序列。所以许多机器学习任务都可以表示为将输入序列转化为输出序列:语音识别、文本转语音、机器翻译和蛋白质结构预测。Transformers 与之前解决方法最大的差异性来自于注意力机制 Attention 或 Self-Attention 用以检测一系列看上去哪怕是最没有关联性的数据之间依赖方式。

一个重大转变是原来各类定制设计的 “Narrow AI” 模型思路转向 AGI 通用模型思路 Artificial General Intelligence。原来的定制模型需要大量数据标注(清洗)工作来保证输出结果质量,而基于 Transformer 的GPT-3 或 Dall- E 只需要大量的未清洗数据(从互联网抓取的570GB 文字信息)直接倒入模型训练就可以获得极高质量的输出。GPT-3 核心工作原理也极其简单:不停的去预测下一个词是什么。

在通用模型之上,只需要给予一定数量的特定任务的数据提前训练,就可以得到在垂直场景质量极高的输出。对比之前的 Deepmind 的 AlphaGO 可以打败人类最强的围棋选手,但是却不能玩扑克或麻将,而GTP-3给予一定量特定内容的数据训练,即可通过输入概要完成各类内容输出:撰写新闻;完成爱情故事,或是电影剧本。

结合 GPT-3 和 Stable Diffusion,搭建在Google Sheet上的故事与分镜生成工具。只需要录入一句话即可自动完成所有内容生成。https://twitter.com/fabianstelzer/status/1576958436700393473



  • 《How Transformers Work》这详细介绍了 Transformers 的工作原理:

    https://towardsdatascience.com/transformers-141e32e69591

  • Nvidia 的 Blog 简述了 Transformers 的来龙去脉与当前地位:

    https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/

  • 《Sequence Transduction with Recurrent Neural Networks 用递归神经网络进行序列转换 Paper

    https://arxiv.org/abs/1211.3711

  • 《Attention Is All You Need》Paper

    https://arxiv.org/abs/1706.03762?context=cs


3. 中心化,去中心化(开源)与社区


市场中头部平台与产品的存在方式也有很大的差异性:

中心化的Open AI:

  • OpenAI 背靠 Microsoft,中心化的方式,提供自己的Web UI,使用传统的API方式,中心化方式便于管理AI伦理道德,版权等安全问题。并且Dall-E2的使用协议中规定了其图像版权归属OpenAI。OpenAI训练模型的数据也是封闭的,无法查看。


  • Dall-E2 刚刚取消了waitlist,所有人都可以注册使用,当用完系统赠送的点数之后需要自行购买。


https://openai.com/dall-e-2/


去中心化的Stable Diffusion:

  • Stability.ai 8月22日才发布的Stable Diffusion 后来居上,采用了完全开源的方式发展文件大小仅仅4GB多,无疑在市场中投了一颗重磅炸弹。 这意味着任何人无需授权可以即可在源代码上修改,升级,开发自己的版本,Stability.ai只是通过文本协议的方式要求作者或开发者遵守道德,版权等安全问题,同时其模型训练数据也完全公开。


  • Stable Diffusion 可以通过其 DreamStudio 在线版本运行,https://beta.dreamstudio.ai/dream,也可以拷贝到本地在GPU上运行,还可以仅用CPU 在Google Colab运行。因为开源Github也出现了大量的1-Click 前端界面。


本地运行的 Gradio UI

 https://github.com/hlky/stable-diffusion


  • 创始人理念即为将AI去中心化,用优质内容对抗劣质内容,用分散化解决中心化的弊端,使每个民族,团体,社区都有能力拥有自己的AI与模型,让AI开发者或学者除了选择为大企业工作或独立创业之外,仍然有第三种选择。《The Man behind Stable Diffusion》

    https://www.youtube.com/watch?v=YQ2QtKcK2dA


  • PlaygroundAI 是刚出现的图像生成器Web前端,免费使用并且可以选择Stable Diffusion 或 Dall-E2 模型,有简单的参数配置并结合了社区。


https://playgroundai.com/

基于社区的MidJourney: 

  • MidJourney 产品上来就是 Multiplayer 多人模式,有创意的将其图像生成器跑在 Discord 聊天服务器上,社区的所有人都可以即时看到刚被生成的图像,并可一键制作变体,或优化 Prompts 提示词,快速被迭代以提升生成质量,整个社区与模型都可以受益于每一次图像生成,形成飞轮效应


https://www.midjourney.com/home/


  • 虽然 OpenAI 在产品发布时间上领先,并仍然拥有极高质量(尤其在写实风格)的图像生成能力,但可以看到 Stable Diffusion 的完全开源与MidJourney 社区模式后来居上,每周甚至每天都可以看到基于 Stable Diffusion 开发出来的新产品或模型。去中心化,开源,以及社区模式在目前AI发展的方向上爆发了巨大的生命力,是否也将暗示着未来AI产品进化范式的变化?


  • Hugging Face 已经成为AI和 machine learning 领域模型和人才的聚集社区。


 https://huggingface.co/

  • 被广泛用于 Machine Learning 领域的 Google Colab 服务,除了仍提供免费级别租用GPU服务,也刚发布了 pay-as-a-you-go 随用随付的更灵活方式。更助推了AI领域的开源与免费模式。


https://colab.research.google.com/

4. Prompts Engineering 提示词工程

由于是自然语言输入,创作方式最大的变化就是创作者只需要输入自然语言,从GPT-3的Text to Text 到 各类图像生成模型。Prompts 提示词都是最重要的表达创作意图的方式,同时配合界面提供的可调配参数。


每个平台有不同的撰写“格式”稍有不同:Dall-E2 比较偏向于人类“自然”说话的方式来描述,Stable Diffusion 则更多使用多关键词与"," 间隔的方式来表达,模型则负责将提示词翻译成输出的序列。


https://lexica.art/prompt/a223f50f-814e-4e8d-b916-841eb2a62589

https://labs.openai.com/s/vRVkVK81gxbLZe8Pyb3eE8SJ


例如这篇文章详细描述了如何生成照片级别的图像。

https://medium.com/merzazine/prompt-design-for-dall-e-photorealism-emulating-reality-6f478df6f186


Prompts 提示词理解非常类似于搜索 Queries 关键词,给予模型 Prompts 提示词(给于搜索引擎关键词),返回生成结果(返回搜索结果);通过调整提示词可以优化生成结果,设置生成参数相当于设定搜索条件;每一次提示词录入和图片输出的过程,都是一次模型训练。


与搜索引擎不同在于,搜索是通过索引所有已经存在的数据,在一个有限数据集合中检索并给予已经存在的相关数据,而图像生成模型是在与Prompts 提示词描述的可能性空间 Latent Space 中生成新的数据(或输出已经训练过的数据)。




如果用户已经使用过相关词汇训练,模型就会借鉴这个训练结果生成图片,也非常可能你的 Prompts 提示词踏入没有人进入过的全新空间,生成全新的内容。


Jonstokes的《AI Content Generation》系列文章抽象的但详尽的描述了整个过程

https://www.jonstokes.com/p/getting-started-with-stable-diffusion


Stable Diffusion 每次生成图片,模型会同时生成一个 Seed 编码,Seed 就像是在可能性空间中的锚点一样,表达了用户 Prompts 的合成结果,将结果锚定一个特定的可能性空间 Latent Space。


Seed 与 Prompts 组合以及一致的参数就可以还原生成一致的图像,通过lexica.art 平台可以看到AI图像背后 Seed 与 Prompts 的组合。


Seed + Prompts 从另外一个角度甚至可以理解为是一种压缩方式,Seed 和自然语言文本,任何人在任何地方通过模型都可以解压缩(生成)特定的内容:自然语言变成了一种压缩比极高的代码


5. 摄影技术与AI图像生成

从搜索引擎的角度有助于理解 Promts 的工作方式,但图像生成的过程上我觉得更接近摄影技术,创作者与AI的关系更像是摄影师与照相机。人类创作者产生创作意图并进行规划,通过对工具(相机/模型)进行参数配置,且没有必要了解相机或模型内部的工作机制,一键生成高质量内容。


摄影创是从无限的可能性中创作新的内容,创作发生时的意图,位置,参数...极大的限制(控制)了结果的可能性(类似 Promts 提示词的约束性)从而产生了作品的可能性空间 Latent Space。但目前AI图像生成模型对于结果的控制力远没有相机精准。


了解摄影技术发展对于当时绘画的影响,也许可以帮助我们理解和窥探AI创作对未来的影响。


摄影技术在19世纪的发明对肖像画市场产生了巨大影响,也是人类历史上第一次将图像与艺术民主化的过程。摄影术因为其低廉的价格,移动的便捷性,使得中产阶级甚至低收入家庭都可以负担得起,极大增加了肖像画市场的受众,也伴随出现了大量的肖像摄影工作室,但摄影技术并没有取代肖像画家。


19世纪的人物肖像摄影工作室 来自 ENGIM


当时社会对于相机有多种不同的观点,许多人把相机作为一种有趣的玩具,部分画家开始使用相机作为绘画的辅助工具:帮助记忆,但也有不少人对这项技术抱有消极的观点...1889 俄克拉荷马州的报纸:一位以给杂志与报纸作画为生的艺术家抱怨道“摄影技术是令人心烦的。” 


https://www.newspapers.com/clip/110109118/oklahoma-state-herald/#


19世纪之前艺术家绘画中的写实主义 Realism 一直是主流风格,目睹摄影技术诞生和发展的新艺术家们,在19世纪末期也带来了如今大众熟知的印象派分支 Impressionism。

纽约大都会博物馆:Self-Portrait with a Straw Hat by Vincent van Gogh


20世纪初已经非常明确的一个事实:摄影技术将会永远伴随人们对技术与艺术的探索。摄影技术其在功能性上也带来了前所未有的优势:精准,实时,便携,价格低廉。

曾经有众多的批评家认为摄影是艺术工业化的仿制品,但摄影包括随后很快流行起来的影视技术(1895年),创造了独有的艺术形式,极大丰富了艺术的定义,摄影没有抹杀艺术,更重要的是摄影带来了独有的表达方式,不需要像绘画才被认为是“艺术”。


通过AI创作也会带我们走上类似的路径:产生全新的媒体形态与消费形式产生独特的艺术形式与判断标准;带来全新极致的功能性


在 Stable Diffusion 模型基础上开发的3D动画算法制作的视频。

https://twitter.com/cut_pow/status/1576748595109593088


《How Photography Pioneered a New Understanding of Art》

https://www.thecollector.com/how-photography-transformed-art/


6. 自然语言 = 编程方式 = 通用界面

回到上面提到的序列输入对序列输出的,自然语言输入不仅在Text to Image 领域发挥有巨大可能,可以将自然语言输入转换为所有表达为序列的输出。

  • 文本→像素


  • 语音→文本:OpenAI Whisper 可以将音频中的(任何种类)语言信息转换为任何种类)文字,如案例中所示:倍速语音→英文文本,Kpop歌曲→英文文本...其翻译质量已经媲美市场中的专业收费产品。


    https://openai.com/blog/whisper/


  • 指令→像素:Game-as-neural-network 游戏即神经网络的实验性Demo,通过给予模型游戏画面,输入为方向控制,对应游戏画面帧实时生成。


https://madebyoll.in/posts/game_emulation_via_dnn/

  • 文本+像素→像素:Artbreed可以通过提示词Prompts+绘画指导AI创作,从而获得更可控的输出结果。

 https://www.artbreeder.com/


  • 文本→动作/工作流:Adept 的产品通过自然语言输入在SAP系统中录入销售线索,也可以在Redfin房产应用中通过自然语言描述完成内容检索,以及操作Google表格数据。

https://www.adept.ai/

从上面的诸多例子可以看到,提示词不仅仅是自然语言,而且可以是一种跨越所有交互与数据操作之上的通用界面,从模型的工作原理角度更是一种编程方式:


  • 提示词即一种工程方式,通过寻找人类自然语言与机器生产质量之间的匹配技巧,实现如何在更少的请求下,完成更准确与更高质量的输出。

  • 新提示词 = 新模型:提示词到内容不仅仅是一个“结果生成”的过程,用户向模型的每个 Prompts 输入,都会实例化一个新的模型(一组数据结果)

  • 模型 = 软件,全新的可组合性 Composability:用户获得结果的同时,也Feed系统,其所带来的输出组合都可以被另外一组 Prompts 使用,帮助优化他人输入,每组 Prompts 提示词输入都诞生了一个新的可组合的模块化软件。

  • 生产→评估→优化每组 Prompts 提示词与对应输出内容的质量可以进行评估,可对比筛选更加简洁高质量的提示词,由于是自然语言,几乎不需要额外的工具技巧,任何人都就可以快速进入评估与效果优化的检验过程中。


  • 以上流程不断重复再放大,并伴随着提升词越来越容易,语言模型变得更智能,带来新的软件时代:找到一个提示,不用写一个程序。


《Text Is the Universal Interface》一文提到非常深刻的观点: https://scale.com/blog/text-universal-interface

自然语言 = 编程方式 = 通用界面

对于文章内容的摘要,布局能力(概念)应该是不远的事情


Prompts 工程完美的反应了 Unix 的设计哲学:

  • Write programs that do one thing and do it well. 

    写每个程序针对一件任务,并做到极致。

  • Write programs to work together. 

    写可以一起工作的程序。

  • Write programs that handle text streams, because that is a universal interface.

    写可以处理文本流的程序,因为语言(文本)是通用的用户界面。

我们对数据的操作将进入更加抽象的层面,但也更加普世化,自然语言即人类间合作的API,它的存在是天然民主化的,并且无需教学,随处可用。提示词即通用界面带来的影响将是巨大的,基于自然语言的工程方式影响到的将不仅仅是媒体内容的生产方式,而是所有信息的生产与交付方式变革。

8. 新媒体形态,新公司阶层


从 GTP-3 的Text to Text,到 Dall-E 的图像Text to Image,AI内容生产工具正爆发式的沿着数字媒介演进的路径势如破竹的前进。文字→图像→视频这是必然的发展方向,仅仅几个月时间已经看到 Runway 这样公司惊人的视频生产 Demo,强烈建议观看这段宣传视频。

https://twitter.com/runwayml/status/1568220303808991232

RunwayML.com自动化是视频物体生成

https://runwayml.com/


Stable Difusion + VToonify + DualStyleGAN 输出卡通风格化面部渲染

https://twitter.com/ShuaiYang1991/status/1577251207155838976


3DiM 使用 Diffusion 模型从一张图片输出3D图像。


https://3d-diffusion.github.io


DreamFusion: Text-to-3D using 2D Diffusion 完全无需任何3D数据。

https://dreamfusion3d.github.io/


Meta(Facebook) Make-a-Video:输入参考视频,模型输出相关变体视频,Video to Video。

https://makeavideo.studio/


转眼几周AI内容生产工具已经来到了更高维度的视觉输出:视频与立体图像,还出现了下面这个将指令输入,输出场景渲染,模由模型实时生成游戏内容的实验,可以在这里Demo测试:https://madebyoll.in/posts/game_emulation_via_dnn/demo/


Game-as-neural-network:游戏即神经网络的实验性Demo,通过给予模型游戏画面,输入为方向控制,对应游戏画面帧实时生产。


https://madebyoll.in/posts/game_emulation_via_dnn/


AI内容生产正不可逆转的向媒介更复杂的维度继续攀升,并相互交织,随着接下来音频,实时性,互动性的加入,Single Player 到 Multiplayer,结合沉浸式体验...我们可能会迎来一个全新的内容时代。

  • 无限的优质内容供给

  • 工业级水准,民用级便捷的Deepfake

  • 1对1个性化的教育内容

  • 极低成本的好莱坞级别视频

  • 实时生成的个性化娱乐内容甚至游戏

  • 实时的个性化电商


2018年一篇paper中对于实时面部替换的描述,可能即将变为事实

同时AI的大规模应用也会带来很多现在很难回答的问题:

  • 模型去中心化导致内容的道德问题

  • 特定Prompts提示词的内容版权归属问题

  • 竞争会向创作的更上游迁移,创作者面对的挑战和机遇是什么?

  • 创作环节中的价值到底来源于哪里?

  • 产品或公司的长期护城河是什么?


AI-Native 或 AI-First 公司已经出现几种类型:

  • AI Infrastructure 基建形公司:最基础的通用模型研发与能力输出:Google的研究院模式,OpenAI中心化的运营方式,Stability.ai的开源模式。


  • AI Platform or Marketplace :平台或市场模式,PromptsBase 提示词市场,AI搜索引擎,AI图像素材库Stock.ai。

PromptBase:提示词市场


  • AI Only: 只有利用AI才成立的新模式,各类细分市场的垂类模型及应用公司,或:代码 Github Copilot,文案Jasper,动漫与故事创作Novelai.net,视频 。

https://www.jasper.ai/



  • AI+: 既有模式的中将AI变为效率工具,连接不同环节,降低生成成本

    CRM+AI, 设计+AI, 电商+AI…。

Shopify 对于实时AI电商的设想



9. 分工与工作流变革


AI工具会改变人类创作者与工具之间的协作关系,形成全新的分工方式。未来的人机协作关系与工作流,Github Copilot 已经给出了一个很好的参考,我们需要更多各个领域类似的新协作流程:影视,音乐,动画,建筑,服装,UX,游戏...


Github Copilot 与工程师合作自动生成代码的方式会延展到各个创作领域。

Copy.ai 通过给出人类给出销售主题和卖点,自动完成市场文案。


Figma AI插件自动完成背景与图标设计。


服装设计师演示如何利用Dall-E 与3D设计工具拓展设计可能性,提升效率。


 Inpainting  Blender 3D 内直接用自然语言生成材质贴图。

https://www.youtube.com/watch?app=desktop&v=2rA4Ny-QQfg&t=61s


在 Figma 中使用 Ando AI 插件,使用提示词生成渲染及变体。

https://www.figma.com/community/plugin/1145446664512862540


通过绘图指导成品调整


Alpaca 实现了绘画版的Github Copilot,人类指导画面生成,衔接,元素植入。


https://www.getalpaca.io/


以上刚刚出现的工具,展现了与 Github Copilot 类似的新工作流程如何改变内容创意产业,创作者与工具间的关系也正在发生巨大的变化。

可以想像操作以上AI生产工具的创作者,不需要是传统意义上的“插画师,设计师”,而是具备叙事能力,想象力,描述能力及决策力的驾驶员,而AI则是与人类平起平坐的副驾驶,而不仅是一台工具机器。

AI在新的生产分工中可以承担:

  • 汇总提炼:信息收集并作深入洞察与汇总

  • 提供可能性:探索高质量的无限可能,启发人类创作

  • 实例化:将想法转化为文字,代码,像素,模型,操作等实体化的过程

  • 延续非决策环节的创意生产:指定目标,结构,风格,思路下的创造过程

  • 制作变体:基于事件,语言,地区等变体的版本生成

  • 替换与修改:各类不可控要素的修编工作

  • 效果追踪与持续更新:效果反馈-测试-更新循环更加紧密


如果你是在创意生产领域的资深工作者,对于新的AI工具的拥抱会极大加速生产的效率,而对于初入行业的新人来说,部分工作被取代可能是迫在眉睫的现实。我认为在新的创作时代,人类创作者必备的技能项:

  • 对创造的热情 Passion for creation: 人与机器在动机上最大的差异性(至少目前还是)

  • 立意与想法 Ideation  :对观察的抽象能力,与定义的具象化能力

  • 叙事 Narrative :描述能力,线索控制,合理性

  • 引导 Guiding :对目标的理解,对限制条件的控制

  • 决策 Decision Making :方向的取舍,利弊的权衡

  • AI系统理解 AI Understanding :深刻理解AI系统的工作方式与边界


我们正在开始一个全新的协作时代 :


  1. 从最开始主要以人类为主的独立创作。

  2. 到机器作为效率工具,将人类生产力大幅提升,但人与工具间的阻力:学习与沟通成本,仍然存在。

  3. 新的协作方式开始逐步显现:人与模型间通过自然语言无缝衔接,模型通过代码或API无缝衔接效率工具,将每个角色间的沟通阻力将至最低。


9. 创意与实现的分离

在AI生产工具的推动下,创作中的“创意 Creative” “实现 Realization” 将变成两个独立的组成部分,部分创意工作的实现部分将被从设计主体:人类设计者,身上剥离。实现 Realization 将变成一种独立的劳动力,以极低的成本外包给AI。

Ben Thompson 在《The AI Unbundling》里将信息生产过程中的组成部分成本逐步降低为0,并被剥离的过程做了系统分析,我按照自己的理解绘制了以下过程:https://stratechery.com/2022/the-ai-unbundling/

  • 创作与分发一体:手写文字发明前的口述时代,信息传播中的创作与分发过程是在一起的,人们围坐在部落的火堆旁传播故事,流转知识,创作与分发只能在由同一作者,同一时间,同一地点,单次完成。与任何之后的时代对比,创作与分发的成本都是极高的。



  • 创作与分发的剥离:文字记录的产生,使信息消费的过程不一定在同一时间,同一地点完成,使信息拜托了创者本身,剥离了创作与分发的过程,信息可以使用文字记录,极大的降低了分发的成本。


  • 复制与发布的剥离:印刷术/电脑的发明,将分发中复制的部分剥离,分发的效率得到极大提升,信息复制而成本趋近于0;运输系统/电报/互联网技术 则将分发中信息发布的成本推到极致为0。


  • 创意与实现的剥离:现在AI正在开始推进最后一步:将创意与实现进行剥离,实现变为一种可重复的劳动力,并逐步将成本推向为0


10. 搜索,内容与第三种可能

在线消费信息最主要的两种形式:搜索和信息流。搜素引擎:对所有已经生成的数据进行索引,不断追求匹配结果的准确; 内容平台:激发少部分创作者生产内容并通过算法分发,不断追求更高质量的内容。

Lexica 是一个全新的AI图像搜索引擎,抓取了大量的AI模型生成的图片与其Prompts,它的相机取景搜索的功能展现了一种全新的可能:你需要的信息可以精准的针对性生成(甚至实时生成),而不一定局限于现存数据或现有格式,更精准匹配每个人的个性化需求,并可以无限供给的高质量内容。

https://lexica.art/


Novel AI 已经可以通过简单绘画或任意图像生成令人惊叹的高质量漫画,未来画师与粉丝间作品的交付关系,是否会转变为用户与模型间的自娱自乐式订阅制服务?


https://novelai.net/


使用 GTP-3 + Stable Diffusion 生成解释任何主题的教材:Prompts 提示词:“什么是光合作用?1970年插画书风格”。



https://twitter.com/fabianstelzer/status/1562423272217530369


AI系统带来了一种新的可能:针对你的个性化需求,通过输入精准的生成你所需要的高质量信息,以及所需要的的信息呈现方式。针对你的娱乐化内容

针对你的教育内容;针对你的音乐;针对你的新闻组合;针对你的应用甚至游戏。



AI系统与现有的搜索或信息流间并不是替代关系,而可能成为新的一种信息生产与交付方式,Google 的搜索关键词可以演化为与 Prompts 提示词结合的方式,定制信息交付;社交与内容平台也会流淌着高质量的AI生成信息(文字,图片,视频,甚至工具)。人类独立创作还是AI协作创作,可能即将不再是争论的焦点,仍然要看内容本身是否有审美价值,独立观点


很激动看到一个新时代的起点,不仅是内容的爆炸,而是AI生成工具的爆炸。技术赋予了自然语言强大的魔力,在未来使每个人都能成为拥有魔法咒语的巫师



上文算是学习笔记和思考总结,抛砖引玉,欢迎对文中可能出现的错误提出指正。

其他文章:

工具的社会化与创作者网络效应

关系信息系统




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存