查看原文
其他

打几个字就能自动生成一幅画,这可能是全球最强的 AI 作画神器。

何咿 Topbook 2022-10-01


/ 你可能见过很多 AI 生成器,但你可能没想过输入一段话 AI 就能自动生成出一堆相关的图片,这种技术是怎么做到的?未来会取代画家吗?/


-----------




让工具回归工具 · 让你成为你。


这个是辛普森,这是《千与千寻》版辛普森,这是《惊魂记》版辛普森、乔布斯版辛普森,还有这些...

 
这些图片肯定不是照片,更不是哪位艺术家徒手画的,而是在 AI 里输入文字,自动生成。
 
你可能会觉得 AI 生成图像并不是什么新鲜事,只要动动鼠标,打开一个网页,在搜索引擎上输入生成器,各种在线生成工具到处都是。
 
但你能不能找个生成器,随机生成一张画卖它个几万几十万呢?
 
2018 年由 Eerie AI 生成的肖像画就被卖出了 35 万美元;2019 年德国 AI 艺术先驱 Mario Klingemann 也卖出了他的人工智能艺术品《路人的回忆》。

 
这些画所用到的 AI 工具和你用的生成器,是一样的吗?
 
各种生成器的原理,只要用了点儿机器学习,听起来其实差不多。
 
把一些已有的图像输入到训练好的生成对抗网络模型中,对图片参数进行提取,最后训练出一组可以随机生成图像的模型。


有的人还用类似的技术,生成那些以假乱真的人脸来扰乱人脸识别。
 
不过,想要从文字描述直接生成图像,所需要的技术更先进些,这种技术随着 2021 年初一家名为 OPEN AI 的公司发布 DALL-E 才有了巨大突破。
 
DALL-E 的名字来源于西班牙艺术家 Salvador Dali (萨尔瓦多达利)和皮克斯创造的经典动画形象机器人 WALL-E。
 
那这玩意儿不会是先存一大把图像,然后你一搜索,就把合适的图像组合在一起发给你吧?就像我们经常看到的那些拼贴画那样。
 
还真不是。这些工具还是有那么一点点不一样的。
 
事实上,新生成的图像并不是由这些预存的训练数据拼凑而成的,而是来自深度学习模型的“潜在空间”。在一个潜在空间内,各个方向表示着各种不同的维度,其中包括颜色、形状、亮度等等……

而当模型开始学习,首先需要将图片理解为许多红、绿、蓝像素块拼凑而成的像素群,也就是将图像数字化。

 
随后将像素的排列方式跟描述它的文本对应,比如这样的是萝卜,这样的是橘子。我们只需要颜色变量就能区分这两样东西,偏向橘黄色的是橘子。那如果我们在元素中再加根胡萝卜,要怎么继续识别呢?这时候添加一个形状维度,它们三个就都能被辨认了。
 
不过,继续往下走,模型会遇到像绿色的橘子,或是圆萝卜等越来越多的数据,这时候就需要更多的维度来识别。

 
但可以确定的是,它们能够在潜在空间中找到自己的位置,如果不行,那就换一个。而这些空间中的任意一个点,都可能对应一种图像。可以说只要通过大量的学习,就没有 DALL-E 无法生成的图像。
 
不过由于过程的随机性和数据库的庞大,就算我们输入一毛一样文字描述,模型也没有办法生成完全相同的图像。
 
而今年,DALL-E2 在之前的版本上做了更大的改进。提高了分辨率、提升了理解能力,据说精确度改善了 71.7%,这让我们能够生成出更加清晰准确的图片;同时增加了“图像修补”功能,让我们可以依靠文字描述对现有的图像进行编辑,添加、删除或更改元素;或者以原有的图像为基础生成不同角度、不同风格的变体。

 
比如让不同的世界名画成为闺蜜,又或者给梵高剪个新发型,还或者说把雕塑们的 Wi-Fi 关掉,看看他们还能不能坐得住……
 
但遗憾的是,这个有趣的工具并没有向公众直接发布,只有相关研究人员提交申请才可以预览一下下。我们也只能用 GitHub 上其他开发者预先训练好的“文本—图像”生成器来简单体验。
 
按照步骤运行程序,在文字描述里输入内容,程序就能生成图像并筛选出符合描述的图像,比如一大群柴犬在天上飞。不过也有些内容生成出的图片让人打脑壳,这就是学习的不够充分导致的(笨)这感觉像极了淘宝买家秀,还是暗黑版而卖家秀都在 DALLE 官网摆着。

 
像这种技术不成熟你会嫌它拉,成熟了,人们可能又会开始担心了。
 
如果有心怀叵测的人想要宣扬色情暴力或种族歧视,他只需要在机器学习的数据库里加入相应的图片,而 AI 自己是分辨不出来的。
 
还有,如果有人把某位知名艺术家的作品全部灌给机器,然后用生成的艺术作品拿去换钱,这怎么算?
 
另外在网上关于 AI 的话题讨论下,也经常能看到设计从业者的巨大失业恐慌:我会被 AI 取代吗?
 
这个老生常谈的问题,好像会在未来很长一段时间内,一直被谈下去……你怎么看待这种工具呢?

让工具回归工具,让你成为你,这里是 Topbook,我们下期再见。


文案 / 何咿

动画 / 何咿 铁鹏

排版 / 花花

封面 / 雪碧


References


https://github.com/AgentMaker/ru-dalle-paddle

https://openai.com/dall-e-2/

https://openai.com/blog/dall-e/

https://arxiv.org/abs/2102.12092   https://arxiv.org/abs/2204.06125

https://zhuanlan.zhihu.com/p/394467135

http://www.360doc.com/content/21/0116/22/37960839_957359561.shtml

https://www.artsy.net/article/artsy-editorial-art-failing-grasp-christies-ai-portrait-coup

https://en.thevalue.com/articles/sothebys-ai-memories-of-passersby

https://techcrunch.com/2021/01/05/openais-dall-e-creates-plausible-images-of-literally-anything-you-ask-it-to/

https://www.youtube.com/watch?v=SVcsDDABEkM&t=198s

https://twitter.com/simonxxoo









“书”店上新

数字生活,你可能需要它们






#感谢关注 Topbook

   在避无可避的数字生活中,

   我们塑造工具,工具也塑造我们,

   所以,我们希望,

   让工具回归工具,让你成为你。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存