查看原文
其他

深入一线:AI内容创作工具大爆发

EICO EICO 2023-09-24
目录:
Text-to-Image主流服务及平台
新的商业模式
    提示词(Prompt)售卖
    模型社区:HuggingFace
    版权图库:StockAI
    Text-to-Text服务:NovelAI
    Text-to-Model服务:GET3D
    Text-to-Video技术:Make-A-Video
    Environment-to-Music服务

技术嫁接、创新
    自动补充能力
    与语音识别能力的融合
    自然语言触发新的交互形态
    对图片的再编辑能力
    实时生成的游戏画面
    机械臂物理能力
    服务设计师的自动故事板
    生成图片的精准化调整
前言
AI领域正在经历一次剧烈的地震,尤其是以Text-to-Image能力开放为导火索,无论是创作者群体,还是内容工具层面,都爆发出了极具惊人的创新进展。本次《深入一线》以产品线索为主,罗列出在AI内容创作工具领域下最新的观察。
使用 beta.dreamstudio.ai/dream 生成的图片

上图是仅花了几秒钟的创作结果。DreamStudio是Stability.ai旗下推出的付费方案,你可以通过这款工具输入提示词(Prompt)即可生成相应的图片。至于上面四张图,第一张的提示词是“Bird”;最后一张的提示词是“cute cat stick figure painting smile”。
类似DreamStudio的工具以及背后的Stability.ai已经出现不少,我们先看看有哪些主流的服务和公司:
Stable Diffusion、Stability.ai:Stable Diffusion是开源的TTI(Text to Image 文字转图片)方案,背后是由公司Stability.ai在运作。最近这个领域下也是因为Stable Diffusion的主动开放,一下引爆了整个市场;虽然Stable Diffusion是开源的,但并不意味着所有的TTI服务都是免费的,相反,大多数使用Stable Diffusion搭建起来的服务都建立了标准明确的收费机制:按照图片数量或质量进行付费;
彩虹色的眼睛即是上面图片生成的工具DreamStudio

Midjourneywww.midjourney.com):在设计圈快速流行开的付费方案,创始人曾任职Leap Motion 的CTO。Midjourney方案的特点是经过特定方向下的调优,有着更强的艺术表现力和视觉呈现力,对于视觉设计师来说有着天然的吸引力;
DALL·E 2https://openai.com/dall-e-2/):OpenAI旗下专注在TTI领域的解决方案,目前已经全面开放;OpenAI前后从Elon Mask等赞助者和微软各拿到了10亿美元的资助,后来机构性质从非盈利机构转变为盈利机构,最近在Stability.ai的开放压力下,也快速释放开了申请者限制;之前曾产生重要影响力的GPT-3也是来源自OpenAI的研究;
Google AI Imagenhttps://imagen.research.google/):目前还没有开放的TTI解决方案,根据测试开放出来的图片资料,生成效果可以媲美上述主流服务。
除了以上主要的技术方案提供者们,也已经有客户端的方案提供方们,如Dream by WOMBO、Starryai等客户端。
提示词(Prompt)售卖

在把提示词转化为图片的过程中,AI的作用机制目前仍然是黑盒一样的存在。如果你尝试过类似的工具,你会发现,输入提示词后生成图片的行为是单向度的;甚至第二次输入同样的提示词,你得到的是另外一个结果。
又因为每次生成都是有成本的,因此这里面产生了一个非常小的利基市场:提示词市场。有创业者记录下每个生成方案生成图片的提示词进行售卖。本质上,平台售卖的是一种线索,你可以根据这个线索方向继续进行类似内容的创作。
直接贩售图片提示词的市场有:promptbase.com、superprompts.com,也有针对已经生成历史结果的搜索引擎市场:lexica.art(Lexica宣称是只针对Stable Diffusion的搜索引擎)。
$1.99买一个提示词到底贵不贵?
基于提示词和已生成图片的搜索

模型社区:HuggingFace
huggingface.co 索引了大量不同的机器学习(Machine Learning)模型和方案,从界面上看,有点像是ML领域下的GitHub。在这里你可以轻松找到不同方向的模型和不同机构公司的成果。
版权图库:StockAI
迫于AI生成图片的不可预知的风险性,Getty Images禁止了上传和销售人工智能生成图像。
的确,甚至有的图片生成后还带着模糊的Getty Images标识,恰恰说明也许训练用的很多图片有可能来源于Getty Images中的图片资源。
但有人也觉得这可能是一个新的机会,Stockai.com是一家图库服务,自称是又AI驱动的图库服务,你也可以按照自己的提示词去生成图片资源:

除了Text-to-Image技术外,也有其他因为媒介转换(文字、图片、视频、模型不同信息模块之间的转换)带来的不同商业形态:
Text-to-Text(Text Generator)服务
在OpenAI的GPT-3之后,有一批这样的公司,如jasper.ai、rytr.me,这样的服务可以帮你写商业化文案、推广博客、商业邮件等,满足你在不同场景下的文字写作需求。

也有novelai.net这样的服务,主要业务是帮你自动化写小说、让你通过输入“说什么/做什么/发生了什么”文字线索,自动化生成你的文字冒险游戏。
Text-to-Model 服务
推特@meng_shengyu发布了一个研究中的模型,你可以通过输入文字来生成不同的3D模型,下面模型的提示词是:a beautiful painting of a flower tree, by Chiho Aoshima, Long shot, surreal(一棵漂亮的花树画作,青岛千穗,远景,超现实主义):

NVIDIA AI近日也发布了GET3D,即用文字生成3D模型(Text-to-Model)的方案。在这个方案中,GET3D生成了具有高保真纹理和复杂几何细节的3D形状,相信随着模型算法的不断扩充和能力提升,对于VR、AR、模型计算等领域都会有极大的效率提升。

Text-to-Video 技术:Make-A-Video
Meta AI发布了用文字生成视频的服务Make-A-Video(makeavideo.studio)。下面视频的生成即是超现实风格的提示词:Cat Watching TV with a remote in hand(手里拿着遥控器在看电视的猫咪)。

Environment-to-Music 服务:Lifescoremusic
Lifescoremusic.com 服务按照环境参数去生成相应的音乐,通过AI计算结果,前期经过大量音乐模块化的采集和人为创作。


自动补充能力
推特@mflux是一位设计师,因为TTI技术的爆发,他发现可以用简单的绘画作为指引,让AI(Stable Diffusion)作为细节补充可以创造出非常不一样的画作和绘画体验:
左侧他的绘制,右侧是Stable Diffusion的生成
左侧他用Procreate的绘制,右侧Stable Diffusion的生成
与语音识别能力的融合
推特@akiyamasho_dev 利用OpenAI开放出来的Whisper工具(开源的、几乎与人一样的语音识别工具),生成了一个可以针对多国语言自动给出翻译字幕的软件方案:
不听声音很难理解
自然语言触发新的交互形态
想象一下,你可以用自然对话对网站数据进行操作和重新组合,推特@MatthewwSiu 对这个想法进行了视频想象:

对图片的再编辑能力
利用AI的能力,你可以针对每一张照片进行变焦处理,推特@CoffeeVectors利用Stable Diffusion和After Effect一起,做到了针对照片的焦点移动控制:
实时生成的游戏画面
推特@madebyollin使用神经网络创造出了类似宝可梦游戏中的游戏世界,只有四处走动才能发现具体是什么的机制(Pokémon overwold机制)。从游戏画面看,支持了上下移动按键,所有的界面元素也都是由机器实时运算生成:
NVIDIA GTC会议上,Jensen Huang也发布了相似的极具野心的计划,其中就有:生成式视频游戏引擎。
机械臂物理能力
有LLM技术加成的机器人通过图像进行嗅探、识别、建模周围环境,并能理解人类语言指令,对物体进行关联行为,例如“洗苹果”被拆解为【找到苹果、拿起苹果、送到洗手台处】这种连续指令集和连续物理行为动作集:
Everyday Robots & Robotics at Google
服务设计师的自动故事板
服务设计师@rufflemuffin使用OpenAI的DALL·E创建了故事版风格的插图,就想下面配图的提示词是:a customer paying at a kiosk in black and white fine line tyle(一个用户在售卖机前面支付,黑白线条风格),使用了这样快速生成的故事板图像,“很短时间内就能让故事生动地呈现出来”。

生成图片的精准化调整
Google AI 的 @Natanielruizg 尝试,在原图基础上匹配新的提示词,生成了新的结果,增加了图片生成的准确度:

全文完。

撰文:
EICO上海合伙人与创意总监 范志鹏 Terry
EICO 商业策略分析师 刘少鹏




一些别的研究



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存