查看原文
其他

喊一嗓子,梵高就帮你画四幅画-Midjourney

Mars任鑫 任鑫这周读了啥 2022-08-29

最近在玩Midjourney:一个人工智能机器人,你对它说出想要什么样的画面、什么样的风格,它就60秒给你画4幅,你挑喜欢的再让它精修。


比如一开始我让它帮我用莫奈的风格画一个水边开满花的房子,就长这样:



画了几张之后,发现自己的瓶颈特别明显:

  • 英语词汇量和描述能力不够,很多想象中的画面不知道如何表达

  • 艺术素养太差,很多艺术风格不了解、想要的风格更是无从表达


只能简单地画一些好玩的,比如森林里面用巧克力和糖果做的房子(这张还是用莫奈风格,但加了点别的画家和描述词):



玩了一会儿之后,越来越感觉这个产品本身设计就很有意思。

首先,它的入口在Discord里,是一个Bot,而不是一个独立APP,显著降低了开发量和用户门槛。

(大家可以把Discord理解为微信,Bot理解为小程序)


而因为是在Discord群里对Bot说话来获取画作,这就意味着,所有用户的操作都是公开的,结果也是公开的。所有人都可以看到别人在怎么玩 & 得到什么结果,而且看到自己想要的结果马上可以直接抄袭 & 按自己方式修改。


往浅了讲是更好的用户培训,不是丢给用户一本功能说明书,而是让用户置身于一个大广场看到其他人热热闹闹在怎么玩.

往深了讲是创造了一个进化的生态,用户间相互抄袭,极大地增强了生态的优质基因遗传能力,而用户自然而然会在抄袭后做一些微调,仍然有很多变异。非常像之前任鑫这周读了啥(17):平台经济,网络效应,抖音 & 生态模因里聊过的抖音音画分离的逻辑:

从操作对象的角度,抖音(或者Tiktok)其实把所有的内容都拆成了抽象的构建块(Primitive),方便后来者复用、抄袭和重新组合。比如可以复用音轨拍同款,比如可以模仿别人的套路做微创新,甚至于可以整段调用别人的视频融入到自己视频里。

一个生态的进化和繁荣,无非取决于3个因素:遗传,变异,选择。

抖音(或者Tiktok)提供方便的拆解 & 重组功能,使得:1. 创作门槛大幅度降低,内容供给数量提升;2. 因为这批增量供给遗传了优质内容的部分基因,所以平均质量也提高了;3. 相似的内容会聚合到一起,其实强化了种族内竞争,让创作者有更大压力做创新(变异)。

因为方便的功能,导致更多的的模仿(遗传)和微创新(变异),社区的文化会更加能接受和欣赏“同类视频微创新”,然后又会导致更多软性的遗传和变异——不一定是复用原有视频的某个元素(比如音轨),而只是大家共享一个”梗“、一个套路、或者一个默认上下文。这种软性的进化又能进一步丰富抖音的内容生态。

很多人把抖音仅仅看做一个算法中心的短视频双边市场,看出来它有双边网络效应,或者是在观众端的同边网络效应(因为用户行为数据反哺数据智能)。但其实把内容原子化,方便创作者模仿、重组和微创新,打开创作者侧的同边网络效应,可能也很关键,也是美国那些copycats没看懂没抄到精髓的地方。



每天玩一会儿,随便想个什么东西(或者看到别人的图觉得不错,就把它的描述扒一段出来改),看看出来的图,有好的就选一张。

比如下面这个图的prompt就很简单:zen and meditation besides a beautiful lake, 2d illustration, vivid colors mixed with greyscale

每次选图,就是在训练AI——人类觉得这条路更好,数据灌多了,AI就更理解人类视角 & 知道往哪个方向画画会更招人喜欢了。



而整个过程里,我在反复调整自己的语言,其实不仅仅在训练AI,也是在训练自己。

柑橘自己很像是一个刚刚和外国人接触的本地人,正在蹩脚地尝试用各种方式和老外沟通,根据老外的反应在调整自己的用词策略。本质上,是在训练自己和AI沟通 & 和AI组队配合创作的能力……

发散一下,和AI沟通协作的能力,会不会是未来世界唯一重要的生产能力呢?



又玩了一会儿~

忽然意识到自己在大量低水平重复。

看起来是在根据反馈学习调整用词和策略,但出现满意画作的频次一点也没有提高(并且自己对“满意”画作的标准也没有提高)。


主要的问题是:

  1. 总靠自己脑子想创意,思路不开阔,没有大的跳跃

  2. 总在自己脑子里想词汇,词汇量约束了表达

  3. 总是只看自己的实验反馈,样本数量过于有限


但实际上,这是个开放平台呀,别人的东西都在呀。

为什么没去看呢?

为什么没去学呢?

为什么没去挑呢?

为什么没去抄呢?

为什么埋头在自己试啊……

低水平重复重复又重复。


仔细想想,应该是多巴胺中毒了……

每一次发命令过去,等着4张图的时候,就好像等开奖和开盲盒一样,充满不确定预期,刺激多巴胺分泌。

而看到图,不管满意不满意,脑子第一反应就是“赶紧开下一个”,因为开奖过程会继续分泌多巴胺。

看起来是画画,实际上是开盲盒甚至于赌博,其实就是被多巴胺绑架了。

于是下决心:不许写命令行了,只能从别人优秀画作里挑好的然后抄袭 & 微调修改。先看起来、挑起来、抄起来,别停在自己小圈圈里自己给自己灌多巴胺。



有了这个原则之后,花在”看别人画作“上的时间显著增加了,看到好的,看一下人家prompt怎么写,改改风格或者主题,就生成了自己的,创作瓶颈一下子打开了:)



真的是……

太好玩啦:)


如果你感兴趣Midjourney,请先确认知道怎么科学上网。

接着,可以去淘宝或咸鱼搜索Midjourney买一个邀请码。

最后,下载(或者在浏览器中打开)Discord开始玩。

或者,先看一下这个关于Midjourney的入门指南文档:

https://www.yuque.com/docs/share/b4da19f9-218e-47ce-bc0a-71e426da60d5


如果你感兴趣这些话是怎么画出来的,可以看看西乔这篇介绍怎么调整Prompt图像作品类型来调整画作的文章:

https://mp.weixin.qq.com/s/N0mdvztGLrKxFBz0HywCSA

更精进一点,可以看看这个。

用同一个描述,换662个不同艺术家风格画了一遍。

很方便找到自己喜欢的画风,然后……嘿嘿。

https://weirdwonderfulai.art/resources/disco-diffusion-70-plus-artist-studies/


如果你感兴趣其他AI工具,比如Disco Diffusion(据说更强大,使用更复杂),可以看西乔这篇教程来完成配置。

https://mp.weixin.qq.com/s/mfCKgdZCEoP8QgeQt8Y7aw


如果你关心”到底用哪个工具呢“,这里有很多对比:

https://mp.weixin.qq.com/s/bw8w-XS11zOY3PZCzRfemg



画画去吧,少年!:p

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存