【浙商互联网】AIGC之AI绘画: 技术与应用双突破,生产力变革在即
投资要点
AI绘画是AIGC重要的应用分支。近两年包含扩散模型在内的关键技术取得突破,技术可用性显著提高,技术转化为生产力的契机产生。随着Stable Diffusion等应用破圈,用户接受度和参与度持续提高,适用行业不断拓展,未来B端、AIGC+3D的商业化潜力值得期待。
□ 发展进入快车道,迎来转变为生产力的拐点
2022年被称为AIGC元年。8月,凭借AI绘画作品《太空歌剧院》,参赛者没有绘画基础却获得美国科罗拉多州新兴数字艺术家竞赛一等奖,引发热议。Stable Diffusion、Midjourney等AI绘画应用推动技术进入民用领域,几月内产出效果便有直观改善,被设计师、游戏工作室等广泛用于辅助生产,生产力变革来临。
□ 关键技术取得突破,图像生成效果效率均显著提升
AI绘画是基于深度学习技术的。生成式对抗网络GAN配合可对比语言-图像预训练算法CLIP,解决了跨模态问题,支持文本生成图像;而AI绘画的实操可分为四个环节:加噪点、去噪点、复原图片和作画。随着图像掩码建模MIM、特征处理器Transformer、扩散模型Diffusion Model和神经辐射场NeRF出现,在上述四个环节中发挥作用,AI“画技”显著提升。未来,我们预计深度学习领域将有两大主要前进趋势:大模型和人工通用智能。
□ 商业化前景广阔,B端和三维化或为突破口
AI绘画产品不断丰富,体验持续提升,已具备较好的用户基础。但AI绘画产品目前少有营收或实现盈利,目前相关产品变现方式较为单一。对于普通C端用户,缺乏性价比加高的商业应用场景,付费意愿不强。已有的赋能收费项目集中在付费提速或者增加清晰度方面,变相弥补现有使用局限。我们认为:
B端变现路径更为多元、成熟,如广告和营销行业均有可想见的应用情景能挖掘出较为可行的商业模型,付费的可能性和水平相对更高;
此外,人们对于未来元宇宙的期待是三维化、AI化及开放式的,AIGC+3D是必由之路。AIGC+3D是丰富游戏、影视、VR等数字内容,降低其制作成本的有力工具,目前已有部分2D产品具备3D迁移能力。
□ 产业链初具规模,上下游现蓝海
产业链层面,AI绘画涉及到硬件、NLP、算法算力、应用、数据提供与处理等多环节,当前产业布局于算法和应用开发环节较为集中和领先,而在产业链上下游还有诸多可开发的蓝海领域。
具体到投资标的:
首先是拥有相关应用产品和场景的公司。图文类推荐关注视觉中国(素材库+数字藏品)、中文在线(AI绘画+AI文字+小说平台)、万兴科技(“万兴AI绘画”软件)、三人行(AI平面设计+营销场景);AIGC+3D作为动态数字内容辅助创作工具,或可显著降低游戏、影视、VR/AR行业制作成本,利好相关厂商,推荐关注腾讯控股、网易、完美世界;其他AIGC模态推荐关注昆仑万维(Star X音乐平台+AI作曲)、蓝色光标(虚拟人+营销场景);
AIGC和AI绘画依赖自然语言处理、计算机视觉和人工智能技术,我们推荐关注百度集团(文心大模型+文心一格)、拓尔思(语义智能技术)、商汤(人工智能+计算机视觉)、科大讯飞(语音识别+人工智能龙头)等。
□ 风险提示
1)AI 绘画相关技术发展不及预期风险;2)商业化拓展进度和效果低于预期风险;3)AI绘画涉及的作品侵权、名人肖像侵权等风险。
正文
1 发展进入快车道,迎来转变为生产力的拐点
1.1 AI绘画是AIGC重要的应用分支
AIGC既是一种内容分类方式,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。AIGC全称为Al-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的生产方式。
作为全新的内容生产方式,AIGC潜力无限,而我们当前处于向AIGC进发的过渡阶段。根据a16z,内容生态的发展则可分为四个阶段:专家生成内容(Professionally-Generated Content,PGC)、用户生成内容(User-Generated Content,UGC)、AI 辅助生产内容(AI-assisted Generated Content)及 AI 生成内容(AI-Generated Content,AIGC)。目前我们仍处于一、二阶段为主,第三阶段为辅的境况。
按照模态对AIGC进行划分最为常见。AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,其中跨模态生成需要重点关注。事实上,人工通用智能(Artificial General Intelligence,AGI)概念的出现反映出许多人工智能业界人士认为,在未来,基础的人工智能模型将是跨模态的,这意味着相同的模型将被用于生成不同体裁的内容,包括但不限于文本、图像、视频等等。
AI绘画是AIGC重要的应用分支。AI绘画工具中,用户通过输入不同的词汇,例如不同的艺术家风格、构图、色彩、透视方法以及修饰词,就能得到相对应的画作。目前相关生成工具已相对成熟,易用性较好,生成结果直观、易传播,部分成果在效率和质量上有不错的表现,切实触动了广大内容生产和消费者,进入主流视野。
上图展示了AI绘画领域具有标志性的事件,2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交了AIGC绘画作品《太空歌剧院》,参赛者没有绘画基础但是却获得了此次比赛“数字艺术/数字修饰照片”类别一等奖,引发热议。
1.2 今年起AIGC发展按下加速键
PGC和UGC的发展曾为我们带来内容生产和消费的空前繁荣,AIGC的兴起是生产力革新的成果,亦是孕育自广大消费者的实际需要,具有广阔的想象空间和重要意义。
从供给侧角度来看,AIGC的兴起源于深度学习技术的快速突破。在人工智能发展初期,相关算法多基于预先定义的规则或者模板,AI在创造力层面进展缓慢,更多地在替代人类从事可重复性高的“dirty work”。近年来,深度学习算法快速迭代,神经网络的规模呈指数级增长,技术强大到可以执行非模板化的工作,更加贴近AI所指代的智能化概念。
从需求侧角度来看,日益增长的数字内容供给需求驱动着AIGC蓬勃发展。传统内容生产手段受限于人力有限的制造能力,在绝对产能、产能与质量的协调关系上愈发吃力。AIGC依托其技术属性,可襄助内容生产以更加具有绝对效率和性价比的方式进行,更好地满足市场需要。
我们将AIGC的发展分为四个阶段:
早期萌芽时期:此阶段AIGC仅限于小范围实验。80年代中期,IBM基于隐形马尔科夫链模型(Hidden Markov Model,HMM)创造了语音控制打字“坦戈拉(Tangora)”。虽然对AIGC进行了一些初步尝试,但受限各种因素,实际产出效果还远远算不上是智能创作内容的程度。
沉淀积累时期:AIGC从实验性向实用性逐渐转变。软件上,2006年,深度学习算法取得重大突破;硬件上,图形处理器(Graphics Processing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)等算力设备性能不断提升;数据上,互联网使用数据规模快速膨胀并为各类人工智能算法提供了海量训练数据,使人工智能发展取得了显著的进步。2007年,纽约大学人工智能研究员罗斯古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出世界第一部完全由人工智能创作的小说。2012年,微软公开展示了一个全自动同声传译系统,基于深层神经网络(Deep Neural Network,DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
快速发展时期:众多关键模型就位规模化基础已具备。2017年,AI图像生成、自动生成唇形视频、图像高清化、图像编辑、图像风格迁移、wavnet语音合成等技术快速发展。2018年,预训练语言模型出现,降低了标注需求和成本。2019年,随着以生成式对抗网络(Generative Adversarial Network,GAN)逐渐成熟,AIGC技术研究迎来关键拐点,DeepMind发布了DVD-GAN模型用以生成连续视频,在草地、广场等明确场景下表现突出。2020年,自监督学习成为业界主流,模型体量和复杂度不断提升,其中Open AI发布的CPT3极具代表性。2021年,MAE的出现使得视觉可以用NLP自然语言同样的架构训练预训练模型,叠加多模态多任务领域发展,文本图像对齐的研究爆发。
起飞破圈时期:AIGC概念伴随AI绘画应用出圈。2022年,技术上,扩散生成模型得到广泛研究与应用,文本生成图像模型可准确把握文本信息进行创作。商业化基础已初步具备,国内外互联网巨头和独角兽纷纷下场。Open AI更新了DALL-E-2,可创作出相应极高质量的卡通、写实,抽象等风格的绘画作品。把AIGC创作最终推向平民化的是Stability.ai推出的Stable Diffusion,个人电脑即可驱动,且几个月内产出效果具有直观的改善。AI绘画迅速在微博、小红书等多平台上,内容创作者、技术研究者、投资人等各圈层里形成了声势。
1.3 技术转化为生产力的契机产生
2022年被称为AIGC元年,这一年AIGC取得了里程碑式的成绩,引发了市场广泛热烈的兴趣,我们认为主要因素是:
包含扩散模型在内的关键技术取得突破,技术可用性显著提高,产出效率不断提高,产出效果出现分水岭,技术转化为生产力的契机产生。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的模态大为丰富且可支持跨模态产出,可支持AI插画,文字生成配套营销视频等常见应用场景;
通过国内外科技公司的应用转化,技术进入民用领域,引起了广大行业从业者、文娱爱好者和投资人的关注。“智能图文转视频”和AI作画成功破圈,相关应用迭代速度呈现指数级爆发。以AI作画工具为例,水平上限有长足进步,虽发挥并不稳定,但结果输出极快,可量变引起质变,弥补其在创意、想象等方面的不足,满足一般市场需求。
2 关键技术取得突破,图像生成效果效率均显著提升
2.1 GAN+CLIP解决跨模态问题
2.1.1 生成式对抗网络GAN—图像到图像的生成
GAN(Generative Adversarial Nets,生成式对抗网络)在2014年提出后,是生成器和判别器的一代代博弈。生成器通过输入数据生成图像,并将其混入原始数据中送交判别器区分。判别器依据二分类网络,将生成器生成图像作为负样本,真实图像作为正样本。双方的训练过程交替进行,对抗的过程使得生成器生成的图像越来越逼真,判别器的分辨能力也越来越强。
GAN有三个不足:
GAN对输出结果的控制力较弱,容易产生随机图像。对此,CGAN通过把无监督的GAN变成半监督或者有监督的模型,为训练加上目标,而DCGAN通过缩小CNN在监督学习与无监督学习之间的差距使得训练过程更加稳定和可控。
GAN生成的图像分辨率较低,对此,PGGAN逐渐的向生成器和判别器网络中添加层,以此增加生成图片的空间分辨率,StyleGAN则能够生成极其逼真的图像数据并且做到了高层特征可控;
由于GAN需要用判别器来判断生产的图像是否与其他图像属于同一类别,这就导致生成的图像是对现有作品的模仿和微调,不能通过文字提示生成新图像,因此CLIP被引入。
2.1.2 可对比语言-图像预训练算法CLIP—文字到图像生成
CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年提出的多模态预训练的算法,建于NLP(Natural Language Processing,自然语言理解)和CV(Computer Vision,计算机视觉)相结合的基础上。算法使用已经标注好的“文字-图像”数据对训练。一边对文字进行模型训练,一边对图像进行模型训练,不断调整参数,使得输出的文字特征集和图像特征集相匹配。
CLIP方法具有结构简单,训练速度快,效果好等诸多优良特性。CLIP具有非常好的迁移学习能力,预训练好的模型可以在任意一个视觉分类数据集上取得不错的效果。而且算法是 Zero-Shoot 的,即不需要再去新数据集上做训练,就能得到不错的结果。
现被广泛应用的StyleCLIP 融合了 StyleGAN 和 CLIP 双方的特性。之前的StyleGAN的语义控制发现方法会涉及手动检查、大量带注释的数据、或者需要预训练的分类器,且只能按照预设的语义方向操作图像,严重限制了用户的创造力和想象力,若需要添加一个未映射的方向,需要大量的手工工作或大量的注释数据。StyleCLIP支持普通用户基于文本的直观语义图像操作,也不限于预设的操作方向。
2.2 深度学习助力AI画技进步
AI绘画的实际操作大体可以分为四个步骤:加噪点、去噪点、复原图片和作画。其中,加噪点即添加高斯噪声或者关键词,通过固定公式来实现,这方面,快速更新迭代的MIM方法表现出彩。去噪点即仿生物视觉神经网络在去噪过程中开展学习(透视、颜色等),目前Transformer正取代CNN卷积神经网络成为主流方法。而在复原图片和作画方面,AI的“画技”主要由扩散模型Diffusion Model和神经辐射场模型NeRF决定。
2.2.1 图像掩码建模 MIM — 高效简洁的预训练方法
MIM(Masked Image Modeling,图像掩码建模) 是一种自监督表征学习算法。它的主要思路是,对输入图像进行分块和随机掩码操作,然后对掩码区域做一些预测,进而猜测全图。掩码信号建模在多个模型中应用发展,例如OpenAI的iGPT模型(通过马赛克进行信号的遮蔽和转换)、ViT模型等。
基于 MIM 的模型在不同类型和复杂程度的广泛视觉任务上实现了非常高的微调精度,使得AI作画从生成不完整图像进步到可成完整图像的跨越。MIM 在语义较弱的几何 / 运动任务或细粒度分类任务中的表现明显优于有监督模型;对于有监督模型擅长的任务(语义覆盖较好的语义理解任务),MIM 模型仍然可以取得极具竞争力的迁移性能。
目前较受认可的MAE模型产自何恺明对MIM的优化。MIM在预训练图像编码器的时候,太关注细节损失了高维抽象能力。MAE的非对称编码器-解码器结构,使模型分工明确,编码器负责抽取高维表示,解码器则负责细粒度还原;MAE同时对输入图像进行高比例遮蔽。将以上两种设计结合,结果用来训练大模型:训练速度提升三倍以上,同时保持高准确率,具备很好的泛化能力。
MAE广泛应用于人脸识别等多个领域。例如,FaceMAE作为隐私保护人脸识别范式,同时考虑了人脸隐私和识别性能,可以适配任何人脸数据集,以降低隐私泄露风险。
由北京大学、香港大学研究者在2022年5月提出的CAE模型、微软亚研院提出的SimMIM是对MAE方法的改进。CAE可以更多地挖掘编码器的潜力;而SimMIM对MAE进行了化简。它们学到的表征可以区分不同类别的物体,举例来说,看到一只猫的头部可以预测出它的身体部分,看到一小片天空可以预测出它的周围大概率也是一片天空。
2.2.2 特征处理器Transformer — 优化的自然语言处理模型
Transformer是当前综合表现最优的特征提取器。模型首创于2017年的Google论文《Attention is All You Need》。它的性能优于传统的 RNN和CNN特征提取器。
Transformer为视觉领域带来了革新性的变化,它让视觉领域中目标检测、视频分类、图像分类和图像生成等多个领域实现了长足的进步。2020 年 10 月,谷歌提出了Vision Transformer(ViT),它是Transformer用于CV领域的杰出例子,它在大型数据集上表现处于领先地位。2021年1月,OpenAI 用的 DALL·E 和 CLIP 两个模型都利用 Transformer 达到了较好效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。
Transformer的研究才刚刚起步,因此仍有很大研究和发展空间。在研究领域,CNN研究已趋向于成熟,考虑到模型成熟度和性价比,CNN在短期内仍不会被淘汰。
现有的 Visual Transformer 参数量和计算量过大,内存占用量超过可承受范围,效率方面还需要提升,亟需开发高效 Transformer for CV。
现有的 Visual Transformer 都还是将 NLP 中 Transformer 的结构套到视觉任务做了一些初步探索,未来针对 CV 的特性设计更适配视觉特性的 Transformer 将会带来更好的性能提升。
现有的 Visual Transformer 一般是一个模型做单个任务,近来有一些模型可以单模型做多任务,比如 IPT,我们期待未来出现世界模型,处理全局任务。
2.2.3 扩散模型Diffusion Model — 新一代图像生成主流模型
Diffusion Model代指扩散模型,拥有比GAN更优的能力并快速崛起。相关研究最早可以追溯到2015年,奠基研究是2020年《Denoising Diffusion Probabilistic Models》。2022年,借助AI绘画应用,扩散模型在图像生成领域展现卓越实力。
扩散模型的工作原理,是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程,来学习恢复数据。一幅画当中,衣服的纹样、树叶、云彩等带有很多细节纹理的地方,其实细节越多,越接近一个随机的噪点。对于这些地方,也许只需要几次高斯噪点的掺入(可理解为高斯模糊),就能破坏原来的纹样,接近正态分布。训练后,可以使用扩散模型将随机采样的噪声传入模型中,通过学习去噪过程来生成数据。都是给定噪声xT生成图片x0,相比GAN,Diffusion所需数据更少,生成效果更优。
扩散模型在计算机视觉、自然语言处理、波形信号处理、多模态学习、分子图生成、时间序列以及对抗学习等七大应用方向中都有应用。
在AI绘画领域,除Disco Diffusion,最先进的文本生成图像系统OpenAI 的DALL·E 2和 Google 的 Imagen,都是基于扩散模型来完成的。
扩散模型还在发展中,改进研究在采样速度提升、最大似然增强和数据泛化增强等领域持续进步。
2.2.4 神经辐射场 NeRF — 顺应3D内容消费趋势
NeRF(neural implicit representation,神经隐式表示)利用深度学习完成了计算机图形学中的3D渲染任务。这一技术从2019年开始兴起,在2020年NeRF获得ECCV best paper之后受到了广大关注。
NerF在很大程度上克服了样本特征受限的问题。此前,2D到3D生成的领域也包含GAN方面的尝试,比如英伟达20-21年推出的GANverse3D能够自定义对象和交换背景。但由于GAN在对抗训练中会受限于样本特征,该模型当时仅适用于汽车、马匹和鸟类。
NeRF模型的基本原理是:将场景的体积表示优化为向量融数,该函数由位置和视图方向组成的连续5D坐标定义。具体而言,是沿相机射线采样5D坐标来合成图像,将场景表示参数化为一个完全连接深度网络(MLP),该网络将通过5D坐标信息,输出对应的颜色和体积密度值。
NeRF对于虚拟人创建、3D训练环境构建、增强现实、线上游戏及电影特效等都具有重要意义。自NeRF在ECCV2020提出后,NeRF模型也持续在生成范围、生成效果、乃至于所需基础数据上进行改进。例如陆续支持光影变化效果、动态NeRF,类实时生成,全场景NeRF、单张生成模型、3D几何数据生成。
在AI绘画中,NeRF通过将场景表示为隐式的神经辐射场,渲染时通过神经网络查询位置上的场景信息生成新视角图像。直观来讲,渲染就是用计算机模拟照相机拍照,它们的结果都是生成一张照片。NeRF将场景表示为空间中任何点的容积密度和颜色值,有了以NeRF形式存在的场景表示后,可以对该场景进行渲染,生成新视角的模拟图片。NeRF使用经典体积渲染(volume rendering)的原理,求解穿过场景的任何光线的颜色,从而渲染合成新的图像。
在NeRF之后,有人提出了GRAF,引入了GAN来实现神经辐射场,并使用Conditional GAN实现对渲染内容的可控性。在GRAF之后,GIRAFFE实现了构成。在NeRF、GRAF中,一个神经辐射场表示一个场景。而在GIRAFFE中,一个神经辐射场只表示一个物体(背景也算一个物体)。这样做可以随意组合不同场景的物体,可以改变同一场景中不同物体间的相对位置,渲染生成更多训练数据中没有的全新图像。
未来NeRF发展主要是基于NeRF问题的改进。NeRF的简洁性具有优势,但也因此带来一些问题:
1. 计算量大导致耗时长:NeRF生成图像时,每个像素都需要近200次MLP深度模型的前向预测。尽管单次计算规模不大,但完成整幅图像渲染的计算量还是很可观的,NeRF针对每个场景进行训练的耗时较长。对此,迭代过后的Depth-supervised NeRF能够实现更少的视角输入和更快的训练速度。
2. 只针对静态场景:对于无法拓展到动态场景的问题,主要和单目视频做结合,从单目视频中学习场景的隐式表示。Neural Scene Flow Fields将动态场景建模为外观、几何体和三维场景运动的时变连续函数。该方法只需要一个已知摄像机姿势的单目视频作为输入。
3. 泛化性差:NeRF无法直接扩展到没有见过的场景,这显然与人们追求泛化性的目标相违背。因此一些文章开始对NeRF进行泛化性的改进。GRF学习2D图像中每个像素的局部特征,然后将这些特征投影到3D点,从而产生通用和丰富的点表示。与之类似的还有IBRnet、pixelNeRF等,比较核心的想法都是卷积与NeRF相结合。目前这种泛化都还不够成熟,无法在复杂场景中取得理想效果。
4. 需要大量视角:尽管NeRF方法能够实现出色的视角合成效果,但是它需要大量的(数百张)视角来进行训练,这限制了它在现实中的应用。针对视角数量的改进,目前还局限在比较封闭的测试环境下,如合成物体或者单个物体。扩展其在实操中的可用性也是未来的一大方向。
2.3 大模型和人工通用智能指引发展方向
我们观察到,深度学习领域有两大前进趋势:大模型和人工通用智能。
2.3.1 大模型催生基石模型公司崛起
深度学习领域,模型越大越好。在过去三年里,人工智能模型的规模已经增长了万倍以上。
让每家公司都进入大模型建设并不现实,我们认为市场将由少数具有先发和成本优势的供应商主导。OpenAI作为行业领先者,开发了GPT语言模型和DALL-E图像生成模型,并不断提升其模型复杂性和规模,OpenAI亦是大模型供应商的有力选手,而其他公司可以付费购买其更底层的API等服务。同时,大模型趋势也将给云计算公司如Googe、亚马逊,和GPU厂商如英伟达带来机会。
2.3.2 人工通用智能不仅仅是想象
AI技术被区分为弱人工智能、通用人工智能、超级人工智能三种模式。弱人工智能也被称为狭义人工智能,是专攻某一领域的人工智能,例如在围棋上大放异彩的AlphaGo都属于弱人工智能。通用人工智能(Artificial General Intelligence, AGI)也叫强人工智能,或人类级人工智能,通用人工智能指的是一台像人类一样拥有全面智能的计算机,人类能解决的智力问题他都能解决。落到AIGC领域,人工智能模型将是多模态的,这意味着相同的模型将被用于文本、图像、视频等等。超级人工智能被定义为“在几乎所有领域,包括科学创造力、一般智慧和社交技能,都比最优秀的人类大脑聪明得多的智力。
通用人工智能处理复杂情况的能力无比诱人,但实现难度极高,AIGC或为曙光。受困于技术、资源、应用方向等因素的局限,通用人工智能的发展在短期内较难突破。AIGC的兴起,一方面可以给到一个相对特定的、具象范围的AGI应用空间,降低难度,再举一反三;另一方面,AIGC提供了AI广泛施为的机会,无论是数据的大量生产,还是众多专业力量和资本的投入,都有利于推动技术向前演进。
3 商业化前景广阔,B端和三维化或为突破口
3.1 应用迅速丰富,用户接受度较高
AI绘画产品不断丰富,体验持续提升。近两年,海外流行借助Disco Diffusion、MidJourney等AI绘画软件来进行艺术创作,Stable Diffusion各渠道累计日活用户超过1000万,面向消费者的DreamStudio则已获得了超过150万用户。在国内,2022年是AI绘画产品井喷之年,诸如文心一格、TIAMAT等产品均于今年上线,他们接受中文描述语输入、更能理解中国文化审美和用户需求,并主动利用小红书、微博等平台拓展影响力。
AI作画操作进过多次简化,已经大大降低了使用门槛,可支持文字成图、图像转化、使用文字修饰图像等。上图我们以stable diffusion为例,展示了较为通用的AI作画流程:
1)注册discord账号后登陆进Midjourney主页。
2)点击进入随意一个newbies新手社区。
3)向机器人输入“/image”命令,在prompt后输入文字指令,完成后按enter。
4)等待一分钟即可得到AI作画成品。
用户认知层面,已经有相当一部分用户认可AI绘画对人类工作的助益。根据 6pen 的调研,有50%以上的用户认为AI绘画能替代一部分,甚至完全颠覆目前的工作方式。随着更多人接受并参与进来,AI绘画爱好者甚至已经开始形成自有生态,反哺AI绘画的发展。他们组建了相关社群交流技术,将作画过程戏称为“魔法吟唱”。用户在社群中分享输入参数和输出结果。
3.2 变现仍处于尝试阶段,B端或为切入点
AI绘画产品目前少有营收或实现盈利。根据南方财经,视觉中国官方披露,公司拥有AIGC技术储备和素材资源,曾在元视觉艺术网发行过相关作品,相关作品确能产生营收,但占比极低,2022年上半年,元视觉艺术网一共创收约1500万元。而Stable Diffusion和Midjourney这两家公司都还未实现盈利。究其原因,或有以下因素:
AI绘画商业化方面仍处于摸索阶段,变现方式较为单一。用户多为生成数量或者使用时间付费,常见付费方式为订阅制或按次付费,以几大主流AI作画软件的商业模式为例:
Stable Diffusion目前尚未形成明确的盈利模式,目前的收费方式是首次注册 DreamStudio beta 将获得价值 2 英镑的积分,大约相当于 200 次单张图免费生成的额度。试用后,可以按10英镑的增量购买额外的积分。但Stability AI的CEO称其未来商业模式类似红帽和MongoDB,开源版本免费,通过商业版本盈利;
Midjourney采用了订阅制,新用户可免费生成25张,之后对于个人用户或公司年收入少于100万美元的企业员工用户,有两个档位的订阅套餐,分别是:1)基本计划每月花费 10 美元,200分钟 GPU 时间(每次生成大约 5 美分);2)标准计划每月花费 30 美元,15 小时 GPU 时间(每次生成大约 3 美分)。而对于大公司客户,单人一年收费约为600美元,生成的作品可以商用。
对于普通C端用户,应用场景商业化性价比较低,付费意愿有待提升。根据 6pen 的调研,60% 的用户从未在AI 绘画产品上有过付费行为,剩下40%的用户中,付费超过100元占比仅10%。我们认为主要原因是:
商业应用场景缺失:普通大众使用AI绘画进行创作后,若自用(如用做头像)或者分享在社交媒体,免费软件足够尝鲜。而若用于约稿等用途,产出的作品受到素材和技术的限制,为满足客户需求,仍需大量加工以得到成品,性价比较低。《太空歌剧院》这幅作品在AI生成之后,设计师还进行了上千次的修改,花费了近80个小时才完成。虽有人在抖音上做壁纸号,在闲鱼上卖描述语,或将作品卖给包装厂,但这些还未达到产业的高度,传导链条也较长。
当前AI绘画平台大多为轻量级的工具应用,能够操作的玩法和赋能服务都比较有限。已有的赋能收费项目集中在付费提速或者增加清晰度方面,或类似PromptBase公司创立了一个DALL-E 2、GPT-3提示词在线交易平台,允许用户以1.99美元的价格买卖提示词,此几种主要在变相弥补现有产品在成像速度、质量和精确性上的局限。
基于上述分析,我们认为,B端变现路径更为多元、成熟,如若B端能挖掘出较为可行的商业模型,付费的可能性和水平相对更高。B端可能会在以下方向产生收入:
3.3 三维化打开游戏、影视、VR等应用空间
三维化是AIGC视觉发展的必然趋势。从长远趋势来看,人们对于未来元宇宙的期待是三维化、AI化及开放式的,AIGC+3D内容是可见途径。中短期维度上,AIGC+3D是丰富游戏、影视、VR等数字内容,降低其制作成本的有力工具。
3D内容生产借助AI绘画产品快速普及。我们看到,AIGC进入3D内容领域,有效降低了参与门槛,让全民参与到 3D 内容创作和消费当中,在3D领域升起UGC的浪潮,我们认为这将大为丰富3D内容创作的有生力量,正如视频拍摄和剪辑工具平民化推动视频内容行业的繁荣,3D内容创作行业也将因此迎来全新发展契机。AI绘画产品三维化方面,代表性的产品有Dream Fusion 、Stable Diffusion、GET3D等,并已有多种场景应用实例,覆盖多种应用场景的可能性:
Dream Fusion 是Google 的大型AI图像模型 Imagen 与 NeRF 的3D功能相结合。Dream Fusion 训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验。但使用 该项目的GitHub 页面只允许从一系列预设文本提示中进行选择生成3D 模型,暂不不允许用户输入自己的文本描述,数字资产本身的分辨率也较低。
Dream Fusion 的在线画廊展示了一系列 .glb 格式的模型,适合在 AR 项目中使用,或者作为可以手动细化以用于更高细节工作的基础网格。
Stable Diffusion原本是2D美术生成工具,通过和Touch Designer可视化编程工具结合可创建VR场景,并且用机器学习算法为这些场景生成了文本查询对象。目前,已经成功地在虚拟现实中创建了成熟的场景,这些场景以 60 fps 的速度实时渲染。
已有诸多厂商在研究将AI创作的3D场景用于游戏生产,如依赖程序生成的Roguelike游戏,开发者未来或许可利用AI制作的场景直接作为游戏关卡,大量节省游戏制作成本。
GET3D是英伟达推出的模型,通过2D图像训练后,该模型可生成具有高保真纹理和复杂几何细节的3D形状。它生成的是显式纹理3D网格,也就是说,它创建的形状是三角形网格的形式,就像纸模型一样,上面覆盖着纹理材质。因此GET3D不仅可以生成多种多样、高质量的模型,还可以将生成模型导入到游戏引擎、3D建模器和电影渲染器中,对它们进行编辑,并且将GET3D生成的模型导出到图形应用程序后可以在模型所在的场景中移动或旋转时应用逼真的照明效果。
基于GET3D已建成一个用照片自动生成三维模型的平台。在实际应用过程中,文物研究人员借助摄影测量的方法实现文物三维数字化,工作人员只需用相机或手机,按照建模拍照的教程采集照片,再登录网站上传照片,云服务能够自动计算生成高精度三维模型。现产品被用于石窟寺调查,平台上已有不少石窟寺模型。
3.4 产业链初见规模,部分空缺现蓝海
中关村大数据产业联盟发布的《中国AI数字商业展望2021-2025》报告披露,至2025年,中国AI数字商业核心支柱产业链规模将达到1853亿元,未来五年复合增长率约57.7%。其中,AI数字商业内容产业规模将达到495亿元,AIGC和AI绘画当属此类。
就AIGC和绘画而言,其产业链涉及到硬件、NLP、算法算力、应用、数据提供与处理等多环节,当前产业布局于算法和应用开发环节较为集中和领先,而在产业链上下游还有诸多可开发的蓝海领域。
和国外类似,参与主力分为了两类:1)相关行业内已有一定规模的公司,多为龙头;2)初创公司。前者代表为百度,8月发布了AI艺术和创意辅助平台文心一格,它使用了百度自主研发的产业级知识增强大模型—文心大模型。另一AI绘画大热产品TIAMAT背后则为初创团队,其成立于2021年,一年内就积累了可观的社区用户和商业客户,已获得DCM数百万美元天使轮融资。参见互联网发展的历史,未来规模较大的公司很可能通过自研或者收购融合多种技术,提供更优的体验,打通不同场景,连接创作者、消费者、供应商等各方。我们认为,产业集中度将不断提升,AIGC也将集成进入元宇宙的复杂系统。
4 基建待完善,发展中风险与希望并存
我国AIGC行业仍处于起步阶段,面临来自版权、伦理、社会等各方面的困扰因素。
一方面,AI绘画的能力之强引起了行业从业者的担忧乃至于恐慌。AI通过庞大的数据量,无休止的深度学习飞速进步,短期内就掌握了许多新人画手要练数年的人体、透视与光影技术,已经有能力威胁到了底层画师的生存问题。
另一方面,批判者认为AI创作没有任何情绪和灵魂,难以和人类的艺术创作相提并论。且AI作画仍需学习人类创作的素材,且创作者反复修改文本内容和调整成图才能得出相对满意的结果,这意味着AI作画仍然依赖人类的智慧和劳动,创作的主动性仍掌握在人类手上,即AI作画实际是个伪命题。
此外,AI绘画涉及的作品侵权、名人肖像侵权等都是巨大的行业风险点。日本绘画领域就曾掀起争论,不少画师公开表示禁止AI学习自己的作品。根据 6pen对原创艺术家的问卷调研,超过90%的原创艺术家持相对保留态度,约37%的原创艺术家呼吁向版权付费或有所标注。这也阻碍了AI绘画创收。AI模型训练所使用的大量素材,可能包含了未经授权的,有明确版权方的图片数据,版权归属是否应该由模型指定也未有定论。因此使用此类作品并以此盈利很有可能为使用者带来法律上的纠纷。
但AI绘画也同样带来了全新的希望。通过采用最新的AI技术来分析已故漫画大师手塚治虫生前的漫画作品,AI在2020年执笔画出了“手塚治虫新作漫画”。
我们相信,随着相关法律法规约束的健全,AIGC行业必能在内容创作领域找到自己合适、合规的发展之路。
5 建议关注
6 风险提示
1)AI 绘画相关技术发展不及预期风险;2)商业化拓展进度和效果低于预期风险;3)AI绘画涉及的作品侵权、名人肖像侵权等风险。
欢迎互联网行业人士/一级市场投资者/二级市场投资者与我交流,如果想加我微信,请后台留言。