三万字长文带你全面解读生成式 AI
The following article is from CVHub Author 派派星
本文首发于微信公众号 CVHub,未经授权不得以任何形式转载或售卖,仅供学习,违者必究!
0. 导读
随着ChatGPT
的病毒式传播,生成式人工智能(AIGC
, a.k.a AI-generated content
)因其分析和创造文本、图像、视频以及其他方面的出众能力而俨然成为当下最火热的投资赛道,没有之一。在如此铺天盖地的信息轰炸下,每个人似乎难以置身事外,我们几乎不可能错过从某个角度瞥见AIGC
的机会。
值得注意的是,在人工智能从纯分析过渡到创造的时代,ChatGPT
及其最新的语言模型GPT-4
,只是众多AIGC
任务中的一个工具而已。在对ChatGPT
的能力印象深刻的同时,很多人都在想它的局限性:GPT-5
或其他未来的GPT
变体能否帮助ChatGPT
统一所有的AIGC
任务,实现多样化的内容创作?为了回答这个问题,需要对现有的AIGC
任务进行全面审查。
因此,本文[1]将通过提供对AIGC
从技术到应用的初步了解,来及时填补这一空白。现代生成式AI极度依赖于各种技术基础,从模型架构和自监督预训练到生成式建模方法(如GAN
和Diffusion
)。在介绍了基本技术之后,这项工作主要是根据各种AIGC
任务的输出类型(包括文本、图像、视频、3D内容等)来研究其技术发展,这描绘了ChatGPT
的全部未来潜力。此外,我们总结了它们在一些主流行业的重要应用,如教育和创意内容。最后,我们将集中讨论目前面临的挑战,并对生成式AI在不久的将来可能的发展进行了相关的展望。
1. 引言
这段时间,以ChatGPT[2]和Midjourney[3]为代表的 AIGC 工具迅速占领头条,充分表明人工智能的新时代即将到来。在这种铺天盖地的媒体报道下,哪怕是个普通人都有很多机会可以一睹AIGC
的风采。然而,这些报道中的内容往往是偏颇的,有时甚至是误导的。此外,在对ChatGPT
的强大能力印象深刻的同时,许多人也在想象它的极限。
就在近期,OpenAI
发布了GPT-4
,与之前的变体GPT-3.5
相比,它展示了显著的性能改进以及多模态生成能力,如图像理解。被AIGC
驱动的GPT-4
的强大能力所打动,许多人想知道它的极限,即GPT-X
是否能帮助下一代ChatGPT
统一所有AIGC
任务?
传统人工智能的目标主要是进行分类或回归(Classification
or Regression
)。此类模型可归纳为判别式AI,因此传统人工智能也经常被称为分析性人工智能。相比之下,生成式AI通过创造新的内容来进行区分。然而,这种技术往往也要求模型在生成新内容之前首先理解一些现有的数据(如文本指令 text instruction
)。从这个角度来看,判别式AI可以被看作是现代生成式AI的基础,它们之间的界限往往是模糊的。
需要注意的是,判别式AI也能生成内容。例如,标签内容是在图像分类中产生的。尽管如此,图像识别往往不被认为是生成式AI的范畴,因为相对于图像或视频来说,标签内容的信息维度很低。另一方面,生成式AI的典型任务涉及生成高维数据,如文本或图像。这种生成的内容也可以作为合成数据,用于缓解深度学习中对更多数据的需求。
如上所述,生成式AI与传统人工智能的区别在于其生成的内容。说到这里,生成式AI在概念上与AIGC
相似。在描述基于人工智能的内容生成的背景下,这两个术语通常是可以互换的。因此,在本文中,为了简单起见,我们把内容生成任务统称为AIGC
。例如,ChatGPT
是一个被称为ChatBot
的AIGC
任务的工具,考虑到AIGC
任务的多样性,这其实只是冰山一角而已。尽管生成式AI和AIGC
之间有很高的相似性,但这两个术语有细微的区别。具体来讲:
AIGC
专注于内容生成的任务;生成式AI则额外考虑支持各种 AIGC
任务发展的底层技术基础。
基于此,我们可以将这类基础技术划分为两大类:
Generative Modeling Techniques
:如VAE
、GAN
和Diffusion
,它们与内容创作的生成式AI直接相关;Backbone Architecture
和Self-Supervised Learning, SSL
:如广泛应用于自然语言处理的Transformer
架构和BERT
以及对应的计算机视觉领域的Vision Transformer
架构和MAE
等。
在这些底层技术的基础上,能够构建出许多AIGC
任务,并且可以根据生成的内容类型进行简单的分类:
文本生成:例如 OpenAI
的ChatBot
、谷歌的Bard
等;图像生成:例如 MidJourney
、DALL-E
、Stable Diffusion
及国内百度的文心一格
等;支护工囊括的图像编辑功能更是可以广泛应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除、线条提取等任务;音频生成:例如 AudioLDM
和WaveNet
等;视频生成:详细介绍可参考此链接[4]
此外,便是各种多模态融合相关的技术。随着技术的发展,AIGC
的性能在越来越多的任务中得到了广泛地验证。例如,ChatBot
过去只限于回答简单的问题。然而,最近的ChatGPT
已被证明能够理解笑话并在简单指令(prompt
)下生成代码。另一方面,文本到图像曾经被认为是一项具有挑战性的任务;然而,最近的DALL-E 2
和稳定扩散(Stable Diffusion
)模型已经能够生成逼真的图像。
因此,将AIGC
应用于各行各业的机会出现了。在后续的文章中我们将会全面为大家介绍AIGC
在各个行业的应用,包括娱乐、数字艺术、媒体/广告、教育等。当然,伴随着AIGC
在现实世界中的应用,许多挑战也出现了,如道德和种族歧视问题等。
下面我们将按照这个版图为大家进行全面的介绍。
2. 背景回顾
采用 AI 进行内容创作由来已久。 IBM 于 1954 年在其纽约总部首次公开展示了机器翻译系统[5]。第一首计算机生成的音乐于 1957 年问世,名为Illiac Suite
。这种早期尝试和概念验证的成功引起了人们对人工智能未来的高度期望,促使政府和企业在人工智能上投入大量资源。然而,如此高的投资热潮并没有产生预期的产出。之后,一个被称为人工智能寒冬的时期到来,极大地破坏了人工智能的发展。AI 及其应用的发展在进入 2010 年代后再次流行起来,特别是在 2012 年 AlexNet[6] 成功用于 ImageNet 分类之后。进入 2020 年代,AI 进入了一个不仅理解现有数据而且创造了新的内容。
最近一年中人们对生成式AI的兴趣急剧增加,主要归因于稳定扩散或ChatGPT
等引人入胜的工具的出现。在这里,我们讨论为什么生成式AI到欢迎,重点关注哪些因素促成了这些强大的AIGC
工具的出现。这些原因可以从两个角度进行总结,即内容需求和技术条件。
2.1 内容需求
互联网的出现从根本上改变了我们与世界的沟通和交互方式,而数字内容在其中扮演了关键角色。过去几十年里,网络上的内容也经历了多次重大变革。在Web1.0时代(1990年代-2004年),互联网主要用于获取和分享信息,网站主要是静态的。用户之间的互动很少,主要的通信方式是单向的,用户获取信息,但不贡献或分享自己的内容。内容主要以文本为基础,由相关领域的专业人士生成,例如记者写新闻稿。因此,这种内容通常被称为专业生成的内容PGC
,而另一种类型的内容则主导了用户生成内容UGC
。与 PGC 相比,在Web2.0中,UGC 主要由社交媒体上的用户生成,如 Facebook,Twitter,Youtube 等。与 PGC 相比,UGC 的数量群体显然更大,但其质量可能较差。
随着网络的发展,我们目前正在从 Web 2.0 过渡到 Web 3.0。Web 3.0 具有去中心化和无中介的定义特征,还依赖于一种超越 PGC 和 UGC 的新型内容生成类型来解决数量和质量之间的权衡。人工智能被广泛认为是解决这种权衡的一种有前途的工具。例如,在过去,只有那些长期练习过的用户才能绘制出像样的图片。通过文本到图像的工具(如stable diffusion
),任何人都可以使用简单的文本描述(prompt
)来创建绘画图像。当然,除了图像生成,AIGC 任务还有助于生成其他类型的内容。
AIGC 带来的另一个变化是消费者和创作者之间的边界变得模糊。在 Web 2.0 时代,内容生成者和消费者通常是不同的用户。然而,在 Web 3.0 中,借助 AIGC,数据消费者现在可以成为数据创作者,因为他们能够使用 AI 算法和技术来生成自己的原创内容,这使得他们能够更好地控制他们生产和消费的内容,使用自己的数据和 AI 技术来生产符合自己特定需求和兴趣的内容。总的来说,向 AIGC 的转变有可能大大改变数据消费和生产的方式,使个人和组织在他们创建和消费内容时具有更多的控制和灵活性。接下来,我们将讨论为什么 AIGC 现在变得如此流行。
2.2 技术条件
谈到AIGC
技术时,人们首先想到的往往是深度学习算法,而忽略了其两个重要条件:数据访问和计算资源。
首先,让我们一起唠唠在数据获取方面取得的进展。深度学习是在数据上训练模型的典型案例。模型的性能在很大程度上取决于训练数据的大小。通常情况下,模型的性能随着训练样本的增多而提高。以图像分类为例,ImageNet
是一个常用的数据集,拥有超过100万张图片,用于训练模型和验证性能。生成式AI通常需要更大的数据集,特别是对于像文本到图像这样具有挑战性的 AIGC 任务。例如,DALLE
使用了大约2.5亿张图片进行训练。DALL-E 2
则使用了大约6.5亿张图片。ChatGPT
是基于GPT3
构建的,该模型部分使用CommonCrawl
数据集进行训练,该数据集在过滤前有 45TB 的压缩纯文本,过滤后只有 570GB。其他数据集如WebText2
、Books1/2
和Wikipedia
也参与了 GPT3 的训练。访问如此庞大的数据集主要得益于互联网的开放。
AIGC
的发展另一个重要因素是计算资源的进步。早期的人工智能算法是在CPU
上运行的,这不能满足训练大型深度学习模型的需求。例如,AlexNet
是第一个在完整的ImageNet
上训练的模型,训练是在图形处理器GPU
上完成的。GPU 最初是为了在视频游戏中呈现图形而设计的,但现在在深度学习中变得越来越常见。GPU 高度并行化,可以比 CPU 更快地执行矩阵运算。众所周知,Nvidia
是制造 GPU 的巨头公司。其 CUDA 计算能力从 2006 年的第一个 CUDA-capable GPU(GeForce 8800)到最近的 GPU(Hopper)已经提高了数百倍。GPU 的价格可以从几百美元到几千美元不等,这取决于核心数和内存大小。类似的,Tensor Processing Units(TPU)
是由Google
专门为加速神经网络训练而设计的专用处理器。TPU 在 Google Cloud 平台上可用,价格因使用和配置而异。总的来说,计算资源的价格越来越实惠。
3. AIGC 背后的基础技术
本文将 AIGC 视为一组使用人工智能方法生成内容的任务或应用程序。其中,生成技术是指使用机器学习模型生成新的内容,例如 GAN 和扩散模型。创作技术是指利用生成技术生成的内容进行进一步的创作和编辑,例如对生成的文本进行编辑和改进。
3.1 生成技术
在AlexNet
的惊人成功之后,深度学习引起了极大的关注,它有点成为了人工智能的代名词。与传统的基于规则的算法不同,深度学习是一种数据驱动的方法,通过随机梯度下降优化模型参数。深度学习在获取卓越的特征表示方面的成功,取决于更好的网络架构和更多的数据,这极大地加速了AIGC
的发展。
3.1.1 网络架构
众所周知,深度学习的两个主流领域是自然语言处理(NLP)和计算机视觉(CV),它们的研究显著改进了骨干架构,并在其他领域启发了改进后骨干架构的各种应用,例如语音领域。在 NLP 领域,Transformer 架构已经取代了循环神经网络(RNN)成为事实上的标准骨干。而在 CV 领域,视觉 Transformer(ViT) 除了传统的卷积神经网络(CNN)外,也展示了其强大的性能。在这里,我们将简要介绍这些主流骨干架构的工作原理及其代表性的变种。
RNN & LSTM & GRU
RNN
主要用于处理时间序列数据,例如语言或音频。标准的RNN有三层:输入层、隐藏层和输出层。RNN
的信息流有两个方向,第一个方向是从输入到隐藏层再到输出的方向。而RNN
中循环的本质在于其沿着时间方向的第二个信息流。除了当前的输入,当前时刻 𝑡 的隐藏状态还依赖于上一个时刻 𝑡−1 的隐藏状态。这种双向的设计很好地处理了序列顺序,但当序列变得很长时,会出现梯度消失或梯度爆炸的问题。
为了缓解这个问题,引入了长短时记忆网络即LSTM
,其“细胞”状态充当了一个“高速公路”,有助于信息在序列方向上的流动。LSTM
是减轻梯度爆炸/消失问题最流行的方法之一,但是由于它有三种门,因此会导致较高的复杂度和更高的内存需求。
接下来出场的便是门控循环单元(GRU
),该技术通过将细胞状态和隐藏状态合并,并用所谓的更新状态替换遗忘门和输入门,简化了LSTM
。
最后,便是双向循环神经网络(Bidirectional RNN
),通过在细胞中捕获过去和未来信息来改进基本的RNN
,即时间 t 的状态是基于时间 t-1 和 t+1 计算的。根据任务不同,RNN 可以具有不同数量的输入和输出,例如一对一,多对一,一对多和多对多。其中多对多可以用于机器翻译,也称为序列到序列(seq2seq
)模型。另一方面,注意力机制也被频繁引入,使得模型的解码器能够看到每个编码器标记,并根据其重要性动态更新权重。
Transformer
与传统的Seq2seq
模型相比,Transformer
提出了自注意力机制,并将其成功应用于Encoder-Decoder
模型中。Transformer 模型由编码器和解码器两部分组成,采用了残差连接和层归一化等技术,其中核心组件为多头注意力机制和前馈神经网络。多头注意力机制通过自注意力实现,并采用了多头的设计,而前馈神经网络则是由两个全连接层组成。这种自注意力机制的定义采用了缩放点积的形式,能够更好地处理序列中的依赖关系。
与逐个输入句子信息以建立位置信息的 RNN 不同,Transformer 通过构建全局依赖关系获得强大的建模能力,但也因此失去了带有归纳偏差的信息。因此,需要使用位置编码使模型能够感知输入信号的位置信息。有两种类型的位置编码。固定位置编码用不同频率的正弦和余弦表示。可学习的位置编码由一组可学习参数组成。不可否认的是,Transformer 已俨然成为 CV 和 NLP 任务的标杆之作,由其衍生的门派数不胜数。
CNN
在 CV 领域,CNN 有着不可撼动的地位。CNN 的核心在于卷积层。卷积层中的卷积核(也称为滤波器)是一组共享的权重参数,用于对图像进行操作,其灵感来源于生物视觉皮层细胞。卷积核在图像上滑动并与像素值进行相关操作,最终得到特征映射并实现图像的特征提取。例如:
GoogleNet
的 Inception 模块允许在每个块中选择多个卷积核大小,增加了卷积核的多样性,因此提高了CNN的性能;ResNet
是 CNN 的一个里程碑,引入残差连接,稳定了训练,使模型能够通过更深的建模获得更好的性能。此后,它成为CNN中不可或缺的一部分;为了扩展 ResNet 的工作, DenseNet
在所有先前层和后续层之间建立密集连接,从而使模型具有更好的建模能力;EfficientNet
使用一种称为缩放方法的技术,使用一组固定的缩放系数来统一缩放卷积神经网络架构的宽度,深度和分辨率,从而使模型更加高效。而与 NLP 领域中的 Transformer 相似, ViT
则是最近几年才在 CV 领域中引入的新的变体。ViT 使用 transformer 模块来处理图像,并在 Vision Transformer Encoder 中使用自注意力机制,而不是传统的卷积神经网络。ViT 将输入的图像分成一些小块,然后将这些小块变换成一系列的向量,这些向量将被送入 transformer 编码器。通过这种方式,ViT 可以利用 transformer 强大的建模能力来处理图像,并在许多计算机视觉任务中达到了与 CNN 相当的性能。
ViT
Transformer 在 NLP 领域的成功启发了许多学者将其应用到 CV 领域,其中 ViT 是第一种采用 Transformer 的 CV 模型。ViT 将图像平铺为一系列二维块,并在序列的开头插入一个类别标记以提取分类信息。在嵌入位置编码之后,标记嵌入被输入到一个标准 Transformer 模型中。
ViT 的这种简单有效的实现使其高度可扩展。例如:
Swin
是通过在更深层次上合并图像块来构建分层特征映射,以高效地处理图像分类和密集识别任务,由于它仅在每个局部窗口内计算自注意力,因此减少了计算复杂度;DeiT
采用教师-学生训练策略,通过引入蒸馏标记,减少了 Transformer 模型对大量数据的依赖性;CaiT
引入了类别注意力机制以有效增加模型深度。T2T
通过 Token Fusion 有效地定位模型,并通过递归地聚合相邻 Token 来引入 CNN 先验的层次化深而窄的结构。
通过置换等变性,Transformer 从其翻译不变性中解放了 CNN,允许更长距离的依赖关系和更少的归纳偏差,使它们成为更强大的建模工具,并比 CNN 更适合于下游任务。在当前大模型和大数据集的范式下,Transformer 逐渐取代 CNN 成为计算机视觉领域的主流模型。
3.1.2 自监督学习
不可否认的是,深度学习能够从更好的骨干结构中获益,但自监督学习同样重要,该技术可以利用更大的无标签训练数据集。在这里,我们总结了最相关的自监督预训练技术,并根据训练数据类型(例如语言、视觉和联合预训练)对它们进行分类。
Language pretraining
语言预训练方法主要有三种主流的方法。第一种方法是使用掩码对编码器进行预训练,代表作是BERT
。具体来说,BERT 从未掩码的语言标记预测掩码的语言标记。然而,掩码-预测任务和下游任务之间存在显着差异,因此像BERT
这样的掩码语言建模在没有微调的情况下很少用于文本生成。
相比之下,自回归语言预训练方法适用于少样本或零样本文本生成。其中最流行的是GPT
家族,采用的是解码器而不是编码器。具体来说,GPT-1
是第一种采用解码器的模型,GPT-2
和GPT-3
进一步研究了大规模数据和大型模型在转移能力中的作用。
基于GPT-3
,ChatGPT
的前所未有的成功近来引起了广泛关注。此外,一些语言模型采用了原始Transformer
的编码器和解码器。BART
使用各种类型的噪声扰动输入,预测原始干净的输入,类似于去噪自编码器。MASS
和PropheNet
采用了类似于BERT
的方法,将掩码序列作为编码器的输入,解码器以自回归的方式预测掩码标记。
Visual pretraining
视觉预训练主要包含两种类型,第一种类型是基于掩码学习的无监督自编码器,它们旨在学习良好的图像表征,最具代表性的是MAE
。第二种类型是基于自监督的预测模型,最流行的是ImageNet
中学到的视觉特征(ImageNet-pretraining
)和自监督学习方法,如RotNet
和MoCo
。这些方法采用的自监督任务包括但不仅限于图像旋转预测和图像补丁重建等。
Joint pretraining
最后一种预训练方式是联合学习方法,它使用多模态输入进行联合预训练。通过从互联网上收集大量的图像和文本配对数据集,多模态学习取得了前所未有的进展,其中交叉模态匹配是关键技术。对比预训练被广泛应用于在同一表示空间中匹配图像嵌入和文本编码。其中,CLIP
是最流行的一个,由OpenAI
提出,它使用文本和图像作为联合输入,通过学习一个共同的嵌入空间来进行分类任务。
此外,SimCLR
和DALL·E
都是联合学习的成功应用,前者使用自监督任务对图像进行增强,后者是一个生成模型,可以根据文字描述生成图像。ALIGN
则扩展了 CLIP,使用嘈杂的文本监督,使得文本-图像数据集不需要清洗,可以扩展到更大的规模。Florence 进一步扩展了跨模态共享表示,从粗略场景到细粒度物体,从静态图像到动态视频等,因此,学习到的共享表示更加通用,表现出卓越的性能。
3.2 创作技术
深度生成模型(DGMs
)是一组使用神经网络生成样本的概率模型,大体可分为两大类:基于似然的和基于能量的。基于似然的概率模型,如自回归模型和流模型,具有可追踪的似然,这为优化模型权重提供了一种直接的方法,即针对观察到(训练)数据的对数似然进行优化。变分自编码器(VAEs)中的似然则不完全可追踪,但可以优化可追踪的下限,因此,VAE
也被认为属于基于似然的组,其指定了一个归一化的概率。相反,能量模型以未归一化概率即能量函数为特点。在没有对标准化常数可追踪性的限制下,能量模型在参数化方面更加灵活,但难以训练。此外,GAN
和 扩散模型 虽然是从不同的时期发展而来,但与能量模型均密切相关。接下来,我们将介绍每一类基于似然的模型以及如何训练基于能量的模型以及 GAN 和扩散模型的机制。
3.2.1 Likelihood-based models
Autoregressive models
自回归模型是一种可以用来预测序列数据的模型,它能够学习序列数据的联合分布,并且使用先前时间步的变量作为输入来预测每个变量在序列中的取值。这种模型假设序列数据的联合分布可以被分解成一系列条件分布的乘积,这也就是所说的“条件概率分解”。
上面我们简单跟大家聊到过RNN
,本质上自回归模型和RNN
都需要使用前面的时间步来预测当前时间步的值,但是它们的实现方式略有不同。在自回归模型中,前面的时间步直接作为输入提供给模型,而在 RNN 中,前面的时间步通过隐藏状态传递给模型。因此,可以将自回归模型看作是一个前馈神经网络,它接收前面所有时间步的变量作为输入。
在早期的工作中,自回归模型主要用于建模离散数据。其中,Fully Visible Sigmoid Belief Network, FVSBN
使用逻辑回归函数来估计条件分布,而Neural Autoregressive Distribution Estimation, NADE
则使用单隐藏层的神经网络。随着研究的发展,自回归模型的应用逐渐扩展到连续变量的建模。自回归模型已经在多个领域得到了广泛应用,包括计算机视觉如PixelCNN
和PixelCNN++
、音频生成WaveNet
和自然语言处理Transformer
等等。这些应用中,自回归模型被用来生成图像、音频、文本等序列数据。
VAE
自编码器是一类相似的模型,它们通过编码器Encoder
将输入数据映射到低维的潜在表示空间,然后再通过解码器Decoder
将这个低维表示还原回原始数据。整个编码-解码的过程旨在学习输入数据的潜在结构,以便于重建数据和生成新的样本。
变分自编码器VAE
则是自编码器的一种变体,它使用了贝叶斯定理,通过学习潜在变量Latent variable
的分布,从而学习原始数据的分布。为了训练 VAE,需要最大化一个较复杂的目标函数,它由一个最大化数据似然的项和一个正则化项组成。正则化项通常使用KL散度来度量潜在变量的分布和标准正态分布之间的差异。
关于AE
和VAE
的介绍,请移步至微信公众号 CVHub 上点击 《万字长文带你入门变分自编码器》 自行查阅。
3.2.2 Energy-based models
由于自回归模型和流模型都具有可计算的似然函数即tractable likelihood
,因此可以直接通过最大化数据对数似然来优化模型的参数。然而,这种优化方法也限制了模型的形式。例如,自回归模型必须分解为一系列条件概率的乘积形式,而流模型必须采用可逆的转换。这些限制可能会使模型的表达能力受到一定的限制,但也有助于使模型更加可解释和可控。例如,自回归模型可以方便地计算条件概率分布,因此更适用于生成序列数据,而流模型则可以实现精确的概率密度估计,因此更适用于密度估计和采样等任务。
能量模型则是一类非标准化概率模型,其概率可以表示为一个未知归一化常数的指数函数。假设能量模型只涉及单个变量 ,则它的能量函数可以表示为 ,对应的概率密度可以通过下面的公式计算得到:
其中 是未知的归一化常数,保证概率密度函数的积分等于 1。因为能量模型的概率密度函数没有直接给出归一化常数,所以它也被称为非标准化概率模型。
MCMC & NCE
早期优化能量模型的方法采用了基于MCMC
即马尔可夫链蒙特卡罗的方法来估计对数似然的梯度,但这需要进行繁琐的随机样本抽取。因此,一些工作旨在改善 MCMC 的效率,代表性的工作是Langevin MCMC
。尽管如此,通过 MCMC 获取所需梯度需要大量的计算,而对比散度contrastive divergence, CD
成为一种流行的方法,通过各种变体的近似来减少计算量,包括持久 CD ,平均场 CD 和多网格 CD 。
另一条研究路线是通过噪声对比估计Notice Contrastive Estimation, NCE
来优化能量模型,该方法将概率模型与另一个噪声分布进行对比。具体来说,它优化以下损失函数:
Score matchingScore matching
得分匹配是一种用于优化基于能量的模型的无 MCMC 方法,旨在最小化模型和观察到的数据之间的对数概率密度的导数。但是,通常无法获得数据得分函数,而去噪得分匹配是一种代表性方法,它使用带噪声的样本来近似数据得分,通过迭代去除噪声,从而生成干净的样本。
3.2.3 from GAN to diffusion model
当涉及到深度生成模型时,您首先想到什么?答案取决于您的背景,但是 GAN 无疑是最常提到的模型之一。GAN 代表生成对抗网络,是由 Goodfellow 及其团队于 2014 年首次提出的,并于 2016 年被图灵奖 Yann Lecun 评为“机器学习领域过去10年中最有趣的想法”。
最近,一种称为扩散模型(diffusion model
)的新型深度生成模型家族挑战了 GAN 长期以来的统治地位。扩散模型在图像合成方面取得了压倒性的成功,并扩展到其他形式,如视频、音频、文本、图形等。考虑到它们对生成AI的发展的支配性影响,因此本文将集中围绕 GAN 和扩散模型进行讲解。
GAN
GAN 的架构如上图所示,它分别由两个网络组件组成,即鉴别器(D)和生成器(G)。其中,D 将真实图像与 G 生成的图像区分开来,而 G 的目标是欺骗 D。给定一个潜变量 ,G 的输出是 ,构成一个概率分布 。GAN 的目标是使 逼近观察数据分布 。通过对抗学习来实现这个目标,可以将其解释为一种最小-最大博弈:
GAN 的训练过程是通过鉴别器和生成器之间的博弈来实现的,最终的结果是一个鉴别器可以正确地将真实数据和生成数据区分开来,而生成器可以生成与真实数据相似的数据。另一方面,GAN 的不稳定性和生成样本缺乏多样性是其存在的缺陷,这是因为 GAN 的训练过程是通过对抗性的学习实现的。GAN 和自回归模型的基本区别在于 GAN 学习隐式数据分布,而后者学习的是受模型结构强制的显式分布。
Diffusion model
过去几年中,使用扩散模型(一种特殊的分层VAE)的应用已经爆炸性增长。扩散模型,也被称为去噪扩散概率模型DDPMs
或基于score
的生成模型,其可以生成与训练数据相似的新数据。受非平衡热力学的启发,DDPM 可以被定义为参数化马尔可夫链,通过扩散步骤慢慢添加随机噪声到训练数据,并学习反向扩散过程以从纯噪声中构建所需的数据样本。下面我们以最简短的语言详细的看一下大致的原理。
在正向扩散过程中,DDPM 通过连续添加高斯噪声来破坏训练数据。给定数据分布 ,DDPM 通过逐渐扰动输入数据,将训练数据映射到噪声。这通常通过一个简单的随机过程来实现,该过程从数据样本开始,迭代生成更嘈杂的样本 ,使用简单的高斯扩散核 :
通过上述第一行公式的迭代过程,我们可以获得任意步数 下的加噪图像,其中 和 是超参数,为扰动过程的步数和每一步扰动的幅度。为了简化讨论,我们这里只考虑使用高斯噪声作为转移核的情况,用 表示。经过一定的转换,我们得到任意步数 下的加噪图像,如下式所示:
在反向去噪过程中,DDPM 通过执行迭代去噪来学习恢复数据,即通过撤销正向扩散来生成数据。这个过程代表了数据合成,DDPM 通过将随机噪声转化为真实数据来进行训练。它也被形式化定义为一个随机过程,从 开始迭代去噪输入数据,并生成可以遵循真实数据分布 的 。因此,该模型的优化目标如下:
在 DDPM 中,正向扩散过程和反向去噪过程通常都需要使用数千个步骤来逐步注入噪声,以及在生成过程中进行去噪。因此,这会导致整个生成过程非常耗时,也是它一直被大家诟病的问题。不过,虽然技术的不断迭代,现如今越来越多快速 DDPM 的方法呈井喷式涌现出来,未来可期!
4. 文本生成
4.1 文本到文本
更好的理解和使用自然语言处理,需要了解其中的两个基本任务:理解和生成。这两个任务并不是完全独立的,因为生成一段合适的文本通常需要先理解一些文本输入。例如,语言模型通常会把一串文本转化为另一串文本,这构成了文本生成的核心任务,包括机器翻译、文本摘要和对话系统。
除此之外,文本生成在两个方向上不断发展:可控性和多模态。第一个方向旨在使生成的内容更加可控,可以通过一些参数控制生成的文本的特定属性,比如情感色彩、风格和内容等。第二个方向则致力于生成多种类型的内容,比如图像、语音和视频等,这就是所谓的多模态文本生成。
4.1.1 对话机器人
对话机器人(Chatbots
)的主要任务是为用户提供更好的人机交流体验。根据应用中任务是否已指定,对话系统可以分为两类:面向任务的对话系统(Task-oriented Dialogue systems, TOD
)和开放域对话系统(Open-Domain Dialogue systems, ODD
)。具体来说,面向任务的对话系统专注于完成任务并解决特定的问题(例如餐厅预订和机票预订)。而开放域对话系统通常是基于数据驱动的,旨在与人类进行聊天,没有特定的任务或领域限制,如ChatGPT
。
TOD
面向任务的对话系统可以分为模块化和端到端系统。模块化方法包括四个主要部分:自然语言理解(NLU)、对话状态跟踪(DST)、对话策略学习(DPL)和自然语言生成(NLG)。首先,通过NLU
将用户输入编码成语义槽,DST
和DPL
则确定下一步操作,然后由NLG
将其转化为自然语言作为最终响应。这四个模块旨在以可控的方式生成响应,并可分别进行优化。然而,某些模块可能不可微分,单个模块的改进可能不会导致整个系统的改进。为了解决这些问题,端到端方法要么通过使每个模块可微分来实现端到端训练管道,要么在系统中使用单个端到端模块。无论是模块化还是端到端系统,仍然存在一些挑战,包括如何提高DST
的跟踪效率,以及如何在数据有限的情况下提高端到端系统的响应质量。
ODD
开放领域系统旨在与用户进行无任务和领域限制的聊天,可以分为三种类型:检索式系统、生成式系统和集成系统。具体而言,检索式系统总是从响应语料库中找到现有的响应,而生成式系统可以生成在训练集中可能不存在的响应。集成系统通过选择最佳响应或用生成式方法优化检索式模型,结合了检索式和生成式方法。先前的工作从多个方面改进了开放领域系统,包括对话上下文建模,提高响应的连贯性和多样性。
以大家伙最熟悉的ChatGPT
为例,其也属于开放领域对话系统的范畴,整个Pipeline
如上图所示。不过,除了回答各种问题外,ChatGPT
还可用于论文写作、代码调试、表格生成等等。
4.1.2 机器翻译
机器翻译是指将一种语言的文本自动翻译成另一种语言的技术。在ChatGPT
还没出来之前,大家用的比较多的应该就是这个服务。关于这一块内容,笔者在吴军博士所著的《数学之美》一书中也曾有涉猎过。以往的机器翻译大都是基于某种规则设定的,耗时耗力不说,准确率也远远达不到商业化的地步。后续基于统计的方法让人们重新看到了希望,直到近些年随着深度学习技术和算力的崛起,基于神经机器翻译(NMT)逐渐成为主流方法,因为它具有更强的能力捕捉句子中的长依赖关系。神经机器翻译的成功主要归因于语言模型,它的核心是预测一个单词在前面的条件下出现的概率,这当中“隐马尔科夫”的功劳不言而喻。
Seq2seq & Transformer
Seq2seq
是一项将编码器-解码器RNN
结构应用于机器翻译的开创性工作。当句子变长时,Seq2seq 的性能会下降,因此后续人们提出了一种新的注意力机制,以帮助进行额外的单词对齐翻译。在注意力机制的不断提高下,谷歌的 NMT 系统在 2006 年成功地将人类翻译工作量减少了约 60%。虽然基于卷积神经网络的架构也曾经尝试过多次,但无法像注意力机制增强的 RNN 一样达到相同的性能。最后便是被一种称为Transformer
的架构超越了。无论是 RNN 或 Transformer 作为架构的情况下,NMT 通常利用自回归生成模型,在推理过程中贪婪地搜索最高概率的单词来预测下一个单词。
NMT 的趋势是在资源有限的情况下实现令人满意的性能,其中模型是用有限的双语语料库进行训练。缓解数据稀缺性的一种方法是利用辅助语言,如使用其他语言对的多语言训练或以英语作为中间支点语言的枢轴翻译。另一种流行的方法是利用预先训练的语言模型,例如BERT
或GPT
。例如,使用 BERT 或 RoBERTa 初始化模型权重显着提高了英语-德语翻译性能。无需进行微调,GPT 系列模型也表现出竞争性能。最近,ChatGPT 在机器翻译方面显示出其强大性能,完全可与商业产品(例如谷歌翻译或网易的有道翻译)相媲美。
4.2 多模态文本生成
4.2.1 图像到文本
首先介绍下image-to-text
,即图像到文本,也称为图像字幕生成,是指用自然语言描述给定图像的内容。
该领域的一个开创性工作是神经图像字幕生成(NIC),它使用卷积神经网络作为编码器来提取输入图像的高级表示,然后将这些表示输入到循环神经网络解码器中生成图像描述。这种两步编码器-解码器架构后来被广泛应用于图像字幕生成的后续研究中,并分别称为视觉编码和语言解码。在这里,我们首先回顾了图像字幕生成中这两个阶段的历史和最新趋势。
视觉编码
提取图像的有效表示是视觉编码模块的主要任务。从 NIC 开始采用 GoogleNet 提取输入图像的全局特征开始,后来的多个工作采用各种 CNNs 骨干作为编码器]。然而,仅使用全局视觉特征难以生成细粒度的标题。接下来的工作引入了关注机制,用于精细的视觉特征,包括关注 CNN 特征的不同网格或不同视觉区域。另外一部分工作则采用图神经网络来编码不同区域之间的语义和空间关系。然而,人为定义的图结构可能会限制元素之间的交互。最后,应该说现如今,大家都是统一用 ViT 模型来作为视觉编码器了。
语言解码
在图像字幕生成中,语言解码器通过预测给定词序列的概率来生成字幕。受 NLP 领域的突破启发,语言解码器的主干从 RNN 进化到 Transformer 架构,并取得了显著的性能提升。除了视觉编码器-语言解码器架构,另一种方法采用类似 BERT 的架构,在单个模型的早期阶段将图像和字幕融合在一起,采用单个编码器学习图像和文本的共享空间。思路很简单,就是在大型图像-文本语料库中进行预训练,然后进行微调即可。
4.2.2 语音到文本
接下来,我们再简单聊聊Speech-to-Text
,即语音转文字技术,也被称为自动语音识别(ASR),是将口语语言,特别是语音信号,转换成相应的文本的过程。自从 20 世纪 50 年代以来,ASR 一直是一个令人兴奋的研究领域,因其许多潜在应用,如语音拨号、计算机辅助语言学习、字幕生成以及像 Alexa 和 Siri 这样的虚拟助手。ASR 的发展从隐马尔可夫模型(HMM)到基于深度神经网络(DNN)的系统。
这一块笔者接触的甚少,但听说在深度学习没出来之前,这块工作还是挺难的,以至于真正研究这块的人其实并不是很多。后面有了深度学习,万物都可硬train一发
,直接将整个工作难度降低了好几个数量级。不过,尽管这种端到端模型在各种语言和方言中实现了令人印象深刻的性能,但仍存在许多挑战。首先,它们在应用于资源匮乏的语音任务时仍具有挑战性,因为获取大量的注释训练数据成本高且耗时。其次,这些系统可能难以处理具有特殊的未知词汇的语音,并且在训练数据上表现良好,但可能不能很好地推广到新的或未知的数据。此外,训练数据中的偏见也可能会影响受监督的 ASR 系统的性能,导致某些人群或语音风格的准确性较差,这就跟人脸识别对黑人兄弟的偏见是一个道理。
为了克服这个问题,我们可以参考视觉这块去解决。其中,一种方法是多任务学习,该方法可以在不同任务之间共享编码器来优化 ASR 系统的性能。此外,自监督学习在 ASR 系统的应用也成为了研究的热点之一,因为它不需要依赖大量标记数据,能够在未标记的大量语音数据上进行预训练,然后在少量标记数据的基础上进行微调,从而提高 ASR 系统的效率。自监督 ASR 系统可以用于处理低资源语言、不同的说话风格或噪声条件,以及转录多种语言。所以说现在学深度学习有个好处就是,有时候学会一个方向,后面真的是一通百通,学习成本大大降低。
5. 图像生成
与文本生成类似,图像生成任务也可以根据其输入控制分为不同的类别,只不过输出对象是图像。Image Generation
包含很多任务,如超分辨率、去模糊、编辑、翻译等。图像类型控制的一个局限性是缺乏灵活性。 相比之下,文本引导控制可以按照人类的自由意志生成具有任何样式的任何图像内容。文本到图像属于跨模态生成的范畴,因为输入文本与输出图像是不同的模态。
5.1 图像到图像
5.1.1 图像复原
由于从退化图像到清晰图像有无限多种可能的映射方式,图像复原任务非常棘手,本质上是一种典型的不适定问题。退化的来源主要有两种:一种是原始图像信息的缺失,另一种则是对清晰图像添加了一些不希望出现的内容。
前者的退化类型包括以低分辨率拍摄照片从而丢失了一些细节信息、裁剪了某个区域以及将彩色图像转换为灰度形式等。恢复任务按顺序依次是图像超分辨率、修补和上色。另一类恢复任务旨在消除不良的扰动,如去噪、去雨、去雾、去模糊等。
早期的恢复技术主要使用数学和统计建模来去除图像退化,包括用于去噪的空间滤波器、用于去模糊的核估计等。近年来,基于深度学习的方法在图像恢复任务中变得占主导地位,因为它们比传统方法具有更好的多样性和视觉质量。卷积神经网络被广泛用作图像恢复中的构建块,而最近的研究探索了更强大的Transformer
结构,在各种任务中取得了令人印象深刻的性能,如图像超分辨率、上色和修补等。当然,也有不少工作是结合 CNN 和 Transformer 的混合架构工作,这一块我们就不展开来讲了,其实都是换汤不换药。
5.1.2 图像编辑
与用于增强图像质量的图像修复任务不同,图像编辑是指修改图像以满足某种需要,如风格转移。从技术上讲,一些图像修复任务,如着色,也可以被视为通过添加颜色来满足所需需要的图像编辑。现如今,哪怕是我们日常中使用的手机,其实大都也具有基本的编辑功能,如锐度调整、自动裁剪、消除红眼等。然而,在AIGC
中,我们更关注于可以以各种形式更改图像语义的高级图像编辑任务,如内容、风格、对象属性等。
一类图像编辑任务的目标是修改图像中主要对象(如面部)的属性(如年龄)。典型的用例是面部属性编辑,可以改变发型、年龄甚至性别。在基于预训练 CNN 编码器的基础上,一系列开创性的工作采用基于优化的方法,这种方法由于其迭代性质而耗时。另一系列工作采用基于学习的方法直接生成图像,从编辑单一属性到多个属性的趋势。大多数上述方法的缺点是依赖于属性的注释标签,因此,无监督学习也是一个热门的研究方向。
与图像复原任务相比,各种编辑任务可以更灵活地生成图像。然而,它的多样性仍然是有限的,通过允许其他文本作为输入来缓解这一点。例如,最近基于扩散模型的图像编辑应用也很热门。例如,DiffusionCLIP
是一项开创性的工作,它微调预训练的扩散模型以对齐目标图像和文本。相比之下,LDEdit
避免了基于 LDM 的微调。另一方面,DiffEdit
建议自动预测指示要编辑的部分的掩码。此外还有基于扩散模型和文本引导编辑 3D 对象的作品等等,有兴趣的小伙伴可自行查阅相关文献。
5.2 文本到图像
文本到图像任务旨在从文本描述生成图像,并且可以追溯到根据标签或属性生成图像。例如,AlignDRAW
是从自然语言生成图像的开创性工作,它可以从新颖的文本生成图像,例如“停车标志在蓝天中飞翔”。目前,文本到图像生成领域的进展可以分为三个分支,包括基于 GAN 的方法、自回归方法以及基于扩散模型的方法。
5.2.1 基于GAN的方法
上面我们提到文生图的鼻祖AlignDRAW
,它的局限性之一在于生成的图像不真实,并且需要额外的 GAN
进行后处理。另一方面,基于深度卷积生成对抗网络DCGAN
是第一个从字符级到像素级的端到端差分架构。为了在稳定训练过程的同时生成高分辨率图像,StackGAN
和 StackGAN++
提出了一种多阶段机制,多个生成器生成不同尺度的图像,高分辨率图像的生成以低分辨率图像为条件。此外,AttnGAN
和 ControlGan
采用注意力网络根据相关词对子区域进行细粒度控制。当然,自从Diffusion
火起来之后,好像就没GAN
啥事了,虽然不定时会看到什么反击,但终究是掀不起什么大风浪了。
5.2.2 基于自回归的方法
受自回归 Transformers 成功的启发,有些工作尝试通过将图像映射到一系列 token 以自回归的方式生成图像,其中 DALL-E
便是一个开创性的工作。具体来说,DALL-E 首先使用预训练的离散变分自动编码器 (dVAE) 将图像转换为图像标记,然后训练自回归 Transformer 以学习文本和图像标记的联合分布。同时期的CogView
提出了与 DALL-E 相同的想法,并在模糊的 MS COCO 数据集上实现了优于 DALL-E 的 FID 分数。此外,CogView2 通过引入 mask 机制屏蔽不同的标记将 CogView 进一步扩展到各种任务,例如图像字幕。当然还有前阵时间很火爆的ControlNet
等等,只能说摩尔定律已经完全不适用了,现在是每月,不对,应该是几乎每隔几天就有一个大新闻,so crazy~~~
5.2.3 基于扩散模型的方法
基于扩散模型的方法则可以通过直接在像素空间或潜在空间上进行分类。例如,GLIDE
通过将类条件扩散模型扩展到文本条件设置来优于DALL-E
,而 Imagen
通过预训练的大型语言模型(例如 T5)捕获文本语义进一步提高了图像质量。另一方面,为了减少像素空间中扩散模型的资源消耗,Stable Diffusion
首先将高分辨率图像压缩到低维潜在空间,然后在潜在空间中训练扩散模型。这种方法也称为潜在扩散模型 (LDM) 。 与仅基于图像学习潜在空间的稳定扩散不同,DALL-E2
应用扩散模型来学习先验作为CLIP
图像空间和文本空间之间的对齐。
这里有个一直困扰笔者的点便是,现有的多模态文图生成模型,很多都是通过 CLIP 来提取文本嵌入,或者通过 VAE 等来提取图像嵌入,最后将用一个 cross-attention 去融合两个不同模态的信息。按理说,图像是二维空间,文本是一维空间,本身存在巨大的 GAP,这种暴力融合的方式可能会导致信息的丢失或混淆。只能说是一种 sub-optim 的 option,要真解释起来大概只能说是神经网络本身具有自主学习的能力吧?
6. 视频生成
与图像生成相比,视频生成相关的工作要少特别多,主要在于对算力的要求和对高维数据的处理让许多人望而却步,有心而无力。视频生成不仅涉及生成像素,还涉及确保不同帧之间的语义连贯性,可分为非引导式生成和引导式生成(例如,文本、图像、视频和动作类)。
6.1 非引导式视频生成
将图像生成从单帧扩展到多帧的早期工作是具有时变可视化的空间重复模式。随着生成模型的发展,许多研究重心将探索从朴素的动态纹理扩展到真实的视频生成。尽管如此,大部分工作还是仅限于具有低分辨率数据集可用性的简单场景的短视频。不过最近不少工作致力于进一步提高了视频质量,其中《Video diffusion models
》被认为是扩散模型用于视频生成的开创性工作。
6.2 引导式视频生成
与可以创建几乎逼真的图片的文本到图像模型如 Mdjouray
相比,由文本引导的视频生成更具挑战性。基于 VAE 或 GAN 的早期作品专注于在简单的设置中创建视频,例如数字弹跳和人类行走。鉴于 VQ-VAE 模型在文本引导图像生成方面的巨大成功,一些作品将其扩展到文本引导视频生成,从而产生更逼真的视频场景。 为了获得高质量的视频,上面提到的 VDM 首先将扩散模型应用于文本引导视频生成,并刷新了评估基准。 之后,Meta 和 Google 分别提出了基于扩散模型的 Make-a-Video 和 Imagen Video 。
具体来说,Make-a-Video 将基于扩散的文本引导图像生成模型扩展到视频生成,可以加快生成速度并消除训练中对成对文本-视频数据的需求。然而,制作视频需要大规模的文本视频数据集进行微调,这会导致大量的计算资源。最新的 Tune-a-Video 则提出了由文本引导和图像输入驱动的一次性视频生成,其中单个文本-视频对用于训练开放域生成器。
7. 工业应用
毫无疑问,自 2022 年以来,AIGC 在社交媒体上已经走红。例如,用户积极分享使用 ChatGPT 进行交互式对话或使用 Midjourney 生成文本提示图像的经验。然而,如果 AIGC 不能用于行业实际应用以展示其价值,这种炒作预计将逐渐减弱。因此,本篇章将集中讨论 AIGC 如何影响各个行业。
7.1 教育
生成式 AI 技术可用于个性化辅导、设计课程材料、评估和评价等,可节省教师的时间和精力。此外,还可以帮助学生写作文、在家完成测试或测验、理解某些理论和概念,以及阅读学术问题中的不同语言的文章和论文。特别地,像ChatGPT
这样的聊天机器人可以为学生提供即时的写作反馈,帮助他们从错误中学习并提高写作技能。然而,此项技术仍然存在一些挑战和问题,例如生成材料的质量和训练人工智能的数据中存在偏见的可能性。总的来说,,AIGC 有可能通过改善教育内容的质量和可访问性、增加学生的参与和保留率,以及为学习者提供个性化支持来改变教育行业。
7.2 游戏
在游戏和元宇宙中,个性化是提供最佳用户体验的关键,而一刀切的内容并不能满足用户需求。生成式人工智能可以实现个性化,让用户自定义角色和场景,并提供多样化的情节和故事情节,从而增强游戏体验。其中,AI Dungeon
、Horizon Worlds
和Traveler
都是可以通过生成式人工智能来提供个性化体验的游戏。此外,元宇宙也成为人工智能应用的新领域,比如Roblox
、Fortnite
和Minecraft
都利用生成式人工智能技术创建虚拟世界,让用户创造和体验个性化内容。笔者相信,随着技术不断提升,人工智能在游戏和元宇宙中的应用将会不断增加。
7.3 媒体
随着 AIGC 的普及,其在媒体和广告领域发挥着越来越重要的作用。生成式 AI 技术不仅促进了媒体多样性,提供了更好的观众体验,而且使媒体从业者的工作更加高效。应用生成式人工智能技术的媒体具有更多样化的内容和报道方式,改变了媒体的生产模式和组织结构。例如,应用生成式人工智能技术的写作机器人、新闻主播和字幕生成,可以使新闻报道更加高效和响应迅速。
一些媒体机构已经应用了生成式人工智能技术,例如美联社每年可以生成大约40000篇文章,彭博新闻推出的Buttetin,以及洛杉矶时报的Quakebot等。同时,AI 新闻主播(数字人)也随着生成式人工智能技术在媒体中的深度应用而出现,可以与真人主播合作,使信息传播更加多元化。中国的新华社和搜狗等机构开发了不同形象和语言的 AI 新闻主播,例如 3D AI 新闻主播 Xin Xiaowei 和韩国的 AI 新闻主播 AI Kim,能够在不同情况下快速响应并进行报道。此外,生成式人工智能技术也可以用于开发智能字幕和手语服务,使得听障人士可以更好地获取信息。
7.4 广告
AI 技术在广告行业中的广泛应用已经为广告主提供了强大的工具,可以创造出创新而有吸引力的内容,更好地连接消费者。其中,AIGC 尤其具有影响力,可以让广告主创造个性化和有吸引力的内容,与个体消费者产生共鸣。通过实现创意广告系统(CAS),广告创作者可以更好地理解创意不是精英特权,而是一个可以通过数据和计算辅助的系统性过程。
另外,品牌标志生成器Brandmark.io
也是一款基于 AIGC 的工具,可以自动生成企业标志。广告主可以购买并使用该工具创建的标志,使其成为标志设计的简单且经济实惠的解决方案。此外,AIGC 还可以自动生成广告海报,例如Vinci
。最后,自动生成的技术还可以帮助广告主自动化生产“合成广告”,从而节省时间和资源,创造高度个性化且吸引人的内容。不难预料,未来 AIGC 技术将在广告行业中发挥更多的创新和影响力。
7.5 电影
AIGC 技术已经在电影制作的各个环节中产生了深刻影响,包括协助剪辑、标注、视频检索等多种方面。AI 生成的剧本软件对电影制作过程产生了显著影响,它们为电影制作带来了新的体验,如集成了视觉效果(VFX)和声音效果(SFX)等。 VFX,自动字幕和 AI 带回已故演员的 deepfake 技术等工具也在电影制作中发挥着重要的作用。此外,还有Colorlab.Ai
和Descript
等工具,不断为电影行业带来新的变革。指不定哪天可以直接给足够的prompt
生成一部电影?(当然不是哪种简单的短视频动画啦)
7.6 音乐
人工智能在音乐行业的应用也越来越受到关注。通过分析数据集,AI 不仅可以发现人类很难注意到的模式和趋势,还可以为业余音乐人提供前沿的技术来增强他们的创作过程。许多专家、研究人员、音乐人和唱片公司正在探索将 AI 技术融入音乐的新趋势。有些使用 AIGC 来创作全新的音乐,而一些软件则会按照各种作曲家的风格来编辑作品。无论是因为使用 AI 来创作音乐还是帮助音乐人,音乐行业都预计在这一领域有巨大的支出。
Google 的 Magenta 项目和 IBM 的 Watson Beat 都是非常成功的例子。AI 也广泛用于数字音频的处理和改进,如 LANDR。在歌词创作方面,许多音乐人都使用AI来创作新歌词。OpenAI 的 GPT 不仅可以产生真实的新闻,还可以为披头士和其他音乐流派创作歌词。AI 不仅可以产生文本,还可以创作原创的配乐和旋律,如 Sony CSL 的流式机器和 AIVA。除了上述工具之外,还有许多其他应用程序对音乐行业产生了重大影响,如基于 iOS 的工具 Amadeus Code、基于云的平台 Amper 和 Ecrett Music 等。
7.7 绘画
人工智能创新地影响了绘画行业,从提供自动绘画工具到鼓励创意实验。AI 程序可以分析图片,产生配色方案、图案和纹理,可以生成独特、复杂的艺术作品。AI 还能够分析人的喜好、兴趣和风格,创造定制的艺术品,提高艺术品的吸引力和价值。许多艺术家使用MidJourney
等功能全面的 AI 图像生成器,生成灵感。AIGC 还可以协助艺术品的保护和修复,AI 算法能够分析和修复损坏的艺术品,帮助保护修复者更好地将艺术品恢复到原始状态。
此外,AIGC 还开创了协作艺术的新时代,AI 算法可以创建涉及多位艺术家的协作绘画,分析每位艺术家的风格并产生统一的风格。另外,AIGC 还能帮助非专业人士创作高质量的视觉效果。近期,ControlNet
通过为扩散模型添加额外的约束条件,可以增加生成图像的变化性,描述生成图像和边缘绘制、深度信息、Hough线图、法向图和姿势估计等其他约束条件。AI 的创新正在促进绘画的发展,例如抽象画生成、中国山水画和中国水墨画等。
7.8 代码
AIGC 可以在不需要手动编写代码的情况下创建代码。研究表明,通过生成高质量的测试用例,可以提高测试效率和覆盖率。此外,为了优化数据工程的效率,可以设计一种基于神经网络的数据集增强软件工程方法。AI生成的技术还可以协助代码重构,改善现有的代码而不改变其原有的功能。著名的代码重构工具包括DeepCode
,它是一种基于 AI 支持的代码审查工具。此外,AIGC 还可以对电子商务和金融行业产生影响。电子商务平台可以利用 AI 提供购物指南服务,从而为企业节省成本。金融公司可以使用虚拟投资顾问为客户提供证券账户开户、金融投资等相关服务。最后,重点点名GitHub Copilot
,这是每一名程序猿不可不知的 AI 代码自动补全工具,目前还没任何的产品体验能超过它。
7.9 软件
越来越多的 AIGC 应用以娱乐为导向的移动应用程序的形式出现,通常以图像和视频编辑的形式呈现。传统的图像编辑工具 Photoshop 需要手动处理,费时费力,可能会导致输出不自然或不现实。此外,视频编辑涉及对每个视频剪辑进行分析,并根据音频和视觉内容做出编辑决策。这个过程很费时,因为视频是一种时间为基础、双轨道的媒介,需要仔细考虑每一帧。
随着技术的不断迭代更新,基于面部交换的一些流行应用程序在互联网上越来越受欢迎。这项技术使用先进的 AI 技术来分析并在几秒钟内交换人们的面孔与他们最喜欢的名人或任何其他人,与传统的 PS 技术相比更易于使用和更快速。VanceAI、Voila AI Artist 和 FaceAPP 是领先的人物,其中 FaceApp 被认为是最佳面部照片编辑应用程序,赢得了 numerous awards,被下载了超过 5 亿次,目前数量还在不断激增。
另一个流行的应用程序是语音转换技术。该技术可以调整人声的音高、音色、语速和其他特征,以改变人声的质量。MagicMic 和 Voicemod 是两个流行的实时语音修改和声音板操作应用程序,人们可以用它们来改变自己的声音,创建有趣的内容,进行直播或其他目的,增强人与人之间的沟通乐趣。
还有一个技术趋势是将个人转变为虚拟角色,从而增加娱乐价值。虚拟角色是虚拟世界中的人物数字化头像,可以是真实人物的部分复制品,甚至完全数字化的版本。苹果的第一个“数字化头像”技术 Animoji 主要关注生成预设的卡通和动物角色,并不支持自定义生成。第二代“数字化头像”技术代表的是 iPhone 的 Memoji 和小米的 Mimoji,开始支持个性化头像定制,提供了各种各样的选项,从发型、眼睛、鼻子、服装等方面开始。
7.10 其它
除了以上提到的领域,人工智能生成内容技术还有更广泛的应用前景。例如,研发一种新药物通常需要耗费大量的时间和金钱,平均需要10年以上和30亿美元的成本才能推向市场。因此,利用人工智能来加速药物发现过程、降低成本成为了一种新的解决方案。DeepMind 于 2018 年推出的 AlphaFold 能够准确预测蛋白质的结构,被认为是药物研发和基础生物研究的里程碑。其更新版本 AlphaFold2 于 2020 年发布,并具有更高的准确性。此外,ProteinMPNN 能够为特定任务设计蛋白质序列,可以在几秒钟内快速生成全新的蛋白质。
除了直接应用生成的内容,人工智能生成内容技术还可以帮助各行业的从业者提高效率。例如,在医疗咨询领域,患者可以通过聊天机器人获得基本的医疗建议,在需要更深入的疾病诊断时才去咨询医生。
在制造设计领域,可以将人工智能生成内容技术与广泛使用的计算机辅助设计系统相结合,以最小化重复劳动量,让设计师能够集中精力处理更有意义的部分。
8. 总结
8.1 挑战
虽然AIGC在各个领域展现出了令人瞩目的成功,生成了逼真多样的结果,但在实际应用中仍然存在许多挑战。除了需要大量的训练数据和计算资源之外,我们列举了以下一些最重要的挑战。
(1) 解释性不足。虽然AIGC模型可以产生令人印象深刻的输出,但我们仍然很难理解模型是如何得出这些输出的。当模型生成不理想的输出时,这尤其令人担忧。缺乏解释性使得控制输出变得困难。
(2) 道德和法律问题。AIGC模型容易受到数据偏见的影响。例如,主要在英文文本上训练的语言模型可能对西方文化有偏见。侵犯版权和侵犯隐私是不可忽视的法律问题。此外,AIGC模型还存在被恶意使用的潜在风险。例如,学生可以利用这些工具在作文作业上作弊,这就需要AI内容检测工具的支持。AIGC模型还可以被用于传播误导性内容,用于政治宣传等。
(3) 领域特定的技术挑战。在当前和不久的将来,不同领域需要独特的AIGC模型。每个领域仍然面临着独特的挑战。例如,流行的文本转图像AIGC工具"稳定扩散"(Stable Diffusion)有时会生成与用户期望相差甚远的输出,比如将人物画成动物、一个人画成两个人等。另一方面,ChatBot在某些情况下会犯一些事实上的错误,例如,哪怕它给出的答案是正确的,但此时只要用户说它错它也会立马更正原本对的答案。
8.2 机遇
另一方面,尽管生成式人工智能(AIGC)具有前所未有的流行度,但它仍处于早期阶段。下面我们将介绍AIGC在不久的将来可能的发展方向。
(1) 更加灵活的控制。AIGC任务的一个主要趋势是实现更加灵活的控制。以图像生成为例,早期基于生成对抗网络(GAN)的模型可以生成高质量的图像,但控制能力较弱。最近基于大规模文本-图像数据训练的扩散模型通过文本指令实现了控制。这有助于生成更符合用户需求的图像。然而,当前的文本-图像模型仍然需要更精细的控制,以便以更灵活的方式生成图像。
(2) 从预训练到微调。目前,像ChatGPT这样的AIGC模型的发展主要集中在预训练阶段。相应的技术相对成熟。然而,如何对这些基础模型进行微调以适应下游任务是一个尚未深入探索的领域。与从头开始训练模型不同,微调的目标需要在基础模型的原始通用能力和适应新任务的性能之间进行权衡。
(3) 从大型科技公司到创业公司。目前,AIGC技术主要由谷歌和Meta等大型科技公司开发。在大型科技公司的支持下,一些初创公司展现出了很高的潜力,例如OpenAI(由微软支持)和DeepMind(由谷歌支持)。随着关注重点从核心技术开发转向应用,预计由于需求增加,将会有更多的创业公司涌现。
8.3 讨论
最后,我们再一起讨论下投资、泡沫和就业机会。从技术角度来看,毫无疑问,生成式人工智能(AIGC)在过去几年取得了重大进展。当一项具有变革性的技术出现时,市场往往对其潜在应用和未来增长持过于乐观的态度,生成式人工智能也不例外。根据PitchBook
的数据,风险投资(VC)对生成式人工智能的投资在过去两年中显著增加。一些批评者担心生成式人工智能可能成为下一个泡沫。他们的主要担忧之一是大多数AIGC
工具主要是娱乐性的,而非实用性的。例如,文本到图像模型很有趣,但它们如何产生收入尚不清楚。很难预测生成式人工智能的发展方向。然而,考虑到生成式人工智能是一个相对新兴且迅速发展的领域,具有许多潜在应用,它不太可能成为下一个泡沫。关于生成式人工智能是否会取代人类,导致大量就业机会的丧失,存在激烈的辩论。另一方面,生成式人工智能也可以为具有人工智能研究和实施技能的个人创造新的就业机会。受益于生成式人工智能的行业也可能蓬勃发展,并产生更多的就业机会。
References
AIGC: https://arxiv.org/pdf/2303.11717.pdf
[2]ChatGPT: https://openai.com/blog/chatgpt,
[3]Midjourney: https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F
[4]视频生成: https://36kr.com/p/2149600978209282
[5]IBM: https://en.wikipedia.org/wiki/Georgetown%E2%80%93IBM_experiment
[6]AlexNet: https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html