文本生成图像？Google 推出 Imagen 新系统

CSDN 2023-02-13

【CSDN 编者按】继DALLE-2之后，Google推出一款全新的文本-图像生成器Imagen，它可以满足任何人的奇思妙想，把复杂的文本转化解释成图片形式，使人更加直观理解文字。其主要利用了机器学习和人工智能技术，从庞大的照片数据库中提取照片，拼接形成文字所描述的图片组合。

原文链接：https://www.ninjamarketing.it/2022/08/01/google-presenta-imagen-software-di-ia-che-traduce-i-testi-in-immagini/

声明：本文为CSDN翻译，转载请注明来源。

作者 | Luca Arlotto 译者 | 陈甜静

出品 | CSDN（ID：CSDNnews）

你是否好奇“愤怒的小鸟”尖叫的模样？

你是否想象过美术馆被淹后，机器人在画廊中划船的场面？

你是否畅想过乘坐火箭飞船前往月球的大脑，以及柯基犬住在用寿司做的房子里的场景？

当我们意识到图像会使文字更能够直观表达自己的想法时，Google 已经开始了行动。近日，Google 带着一款名为Imagen的项目正式向我们走来！

作为一个将文本转化解释成为图像的系统，Imagen能够满足你所有的新奇想法，并能把复杂的文本转换成令人意想不到的图像。

Google推出Imagen：文本到图像的工具

这个被称为文本到图像的系统，利用了机器学习和人工智能技术。在实践中，生成器从一个庞大的照片数据库中提取照片，并且创造出令人惊讶的组合。

这背后是文本输入的语义内容与相关的图片之间存在密切的关联性。这种由文本到图像扩散模型定义的做法允许对内容进行组合：系统通过添加内容和平衡图像搭配输出图片，加深对文本的理解。

Google Brain 团队在官网上对 Imagen 系统进行了概念演示，不过，由于该系统还在开发中，后续还需要人工进一步干预，用于调试与优化，使得系统更加成熟。

Google展示Imagen：似曾相识还是新领域？

如果说2015年Google利用算法和神经网络产生了具有强烈梦幻和迷幻色彩的图像（Deep Dream），那么Imagen似乎正准备进行一次决定性的飞跃。

Deep Dream：熵与函数连通性之间

该软件也是Google研发的，它使用卷积神经网络通过算法增强图像中的模式。

简而言之：Deep Dream工具能够产生致幻效果，呈现出梦境的样子。由Mountain View Brain团队构思的软件最初命名为同名电影中的“盗梦空间”，它是为2014年 ImageNet大规模视觉识别挑战赛(ILSVRC)开发的，并于2015年7月发布。

该工具旨在识别图像中的面部和其他图案，经过一系列重复，获得了一种称为pareidolitica的幻觉形式，由迷幻和超现实的图像组成。听起来是不是很酷？

我们想到2021年发表在科学期刊《Entropy》上的一项研究结果——该研究旨在通过神经科学证据证明Deep Dream的视觉体验与服用迷幻药（包括LSD和psilocibina）所产生的体验之间相似。

在观看由Deep Dream修改的视频时记录的脑电信号显示出高水平的熵和脑区之间的功能连接。两者都是迷幻体验的生物标志物。

图像的未来是什么？

美国的巨人也姗姗来迟。在Google Brain团队提出开发之前，已经有两个类似的项目被构思出来并提供给网络用户。这些是Midjourney和Dall-E以及Dall·E 2的品牌名称，后者是OpenAI——一家由Elon Musk在2015年成立的美国公司。

如果你在谷歌上搜索Imagen，我们可以告诉你，还没到时间。如果想要释放你狂热的想象力将不得不再等几周。Brain团队让Imagen仍处于进站状态。

该算法首先必须经过训练，以避免在生成图像期间出现问题，从而避免产生对用户的有害信息。

一方面，Imagen的无限潜力可以打开通往未开发领域的大门，另一方面，它可能会带来伦理领域的相关效应。当我们谈到伦理学时，从潘多拉魔盒里冒出来的问题很多：人工创造力能超越人类创造力吗？谁来评估艺术或伪类产品的质量？谁是这些创作的作者？这很难回答。

但与此同时，有一件事是肯定的：想象，你可以。