打几个字就能自动生成一幅画，这可能是全球最强的 AI 作画神器。

Original 何咿 Topbook 2022-10-01

收录于合集 #新数字生活 21个

/ 你可能见过很多 AI 生成器，但你可能没想过输入一段话 AI 就能自动生成出一堆相关的图片，这种技术是怎么做到的？未来会取代画家吗？/

-----------

让工具回归工具 · 让你成为你。

这个是辛普森，这是《千与千寻》版辛普森，这是《惊魂记》版辛普森、乔布斯版辛普森，还有这些...

这些图片肯定不是照片，更不是哪位艺术家徒手画的，而是在 AI 里输入文字，自动生成。

你可能会觉得 AI 生成图像并不是什么新鲜事，只要动动鼠标，打开一个网页，在搜索引擎上输入生成器，各种在线生成工具到处都是。

但你能不能找个生成器，随机生成一张画卖它个几万几十万呢？

2018 年由 Eerie AI 生成的肖像画就被卖出了 35 万美元；2019 年德国 AI 艺术先驱 Mario Klingemann 也卖出了他的人工智能艺术品《路人的回忆》。

这些画所用到的 AI 工具和你用的生成器，是一样的吗？

各种生成器的原理，只要用了点儿机器学习，听起来其实差不多。

把一些已有的图像输入到训练好的生成对抗网络模型中，对图片参数进行提取，最后训练出一组可以随机生成图像的模型。

有的人还用类似的技术，生成那些以假乱真的人脸来扰乱人脸识别。

不过，想要从文字描述直接生成图像，所需要的技术更先进些，这种技术随着 2021 年初一家名为 OPEN AI 的公司发布 DALL-E 才有了巨大突破。

DALL-E 的名字来源于西班牙艺术家 Salvador Dali （萨尔瓦多达利）和皮克斯创造的经典动画形象机器人 WALL-E。

那这玩意儿不会是先存一大把图像，然后你一搜索，就把合适的图像组合在一起发给你吧？就像我们经常看到的那些拼贴画那样。

还真不是。这些工具还是有那么一点点不一样的。

事实上，新生成的图像并不是由这些预存的训练数据拼凑而成的，而是来自深度学习模型的“潜在空间”。在一个潜在空间内，各个方向表示着各种不同的维度，其中包括颜色、形状、亮度等等……

而当模型开始学习，首先需要将图片理解为许多红、绿、蓝像素块拼凑而成的像素群，也就是将图像数字化。

随后将像素的排列方式跟描述它的文本对应，比如这样的是萝卜，这样的是橘子。我们只需要颜色变量就能区分这两样东西，偏向橘黄色的是橘子。那如果我们在元素中再加根胡萝卜，要怎么继续识别呢？这时候添加一个形状维度，它们三个就都能被辨认了。

不过，继续往下走，模型会遇到像绿色的橘子，或是圆萝卜等越来越多的数据，这时候就需要更多的维度来识别。

但可以确定的是，它们能够在潜在空间中找到自己的位置，如果不行，那就换一个。而这些空间中的任意一个点，都可能对应一种图像。可以说只要通过大量的学习，就没有 DALL-E 无法生成的图像。

不过由于过程的随机性和数据库的庞大，就算我们输入一毛一样文字描述，模型也没有办法生成完全相同的图像。

而今年，DALL-E2 在之前的版本上做了更大的改进。提高了分辨率、提升了理解能力，据说精确度改善了 71.7%，这让我们能够生成出更加清晰准确的图片；同时增加了“图像修补”功能，让我们可以依靠文字描述对现有的图像进行编辑，添加、删除或更改元素；或者以原有的图像为基础生成不同角度、不同风格的变体。

比如让不同的世界名画成为闺蜜，又或者给梵高剪个新发型，还或者说把雕塑们的 Wi-Fi 关掉，看看他们还能不能坐得住……

但遗憾的是，这个有趣的工具并没有向公众直接发布，只有相关研究人员提交申请才可以预览一下下。我们也只能用 GitHub 上其他开发者预先训练好的“文本—图像”生成器来简单体验。

按照步骤运行程序，在文字描述里输入内容，程序就能生成图像并筛选出符合描述的图像，比如一大群柴犬在天上飞。不过也有些内容生成出的图片让人打脑壳，这就是学习的不够充分导致的（笨）。这感觉像极了淘宝买家秀，还是暗黑版。而卖家秀都在 DALLE 官网摆着。

像这种技术不成熟你会嫌它拉，成熟了，人们可能又会开始担心了。

如果有心怀叵测的人想要宣扬色情暴力或种族歧视，他只需要在机器学习的数据库里加入相应的图片，而 AI 自己是分辨不出来的。

还有，如果有人把某位知名艺术家的作品全部灌给机器，然后用生成的艺术作品拿去换钱，这怎么算？

另外在网上关于 AI 的话题讨论下，也经常能看到设计从业者的巨大失业恐慌：我会被 AI 取代吗？

这个老生常谈的问题，好像会在未来很长一段时间内，一直被谈下去……你怎么看待这种工具呢？

让工具回归工具，让你成为你，这里是 Topbook，我们下期再见。

文案 / 何咿

动画 / 何咿铁鹏

排版 / 花花

封面 / 雪碧

References

https://github.com/AgentMaker/ru-dalle-paddle

https://openai.com/dall-e-2/

https://openai.com/blog/dall-e/

https://arxiv.org/abs/2102.12092 https://arxiv.org/abs/2204.06125

https://zhuanlan.zhihu.com/p/394467135

http://www.360doc.com/content/21/0116/22/37960839_957359561.shtml

https://www.artsy.net/article/artsy-editorial-art-failing-grasp-christies-ai-portrait-coup

https://en.thevalue.com/articles/sothebys-ai-memories-of-passersby

https://techcrunch.com/2021/01/05/openais-dall-e-creates-plausible-images-of-literally-anything-you-ask-it-to/

https://www.youtube.com/watch?v=SVcsDDABEkM&t=198s

https://twitter.com/simonxxoo

“书”店上新

数字生活，你可能需要它们

＃感谢关注 Topbook

在避无可避的数字生活中，

我们塑造工具，工具也塑造我们，

所以，我们希望，

让工具回归工具，让你成为你。

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

放一包，让它在床上和螨虫大干一场，一天只要3分钱

打几个字就能自动生成一幅画，这可能是全球最强的 AI 作画神器。

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

放一包，让它在床上和螨虫大干一场，一天只要3分钱

生成图片，分享到微信朋友圈

打几个字就能自动生成一幅画，这可能是全球最强的 AI 作画神器。

您可能也对以下帖子感兴趣