AIGC&ChatGPT发展专题分析报告
(报告出品方/作者:华福证券,钱劲宇)
Part 1 AIGC行业介绍及发展趋势
AIGC产业生态迎来爆发期
AIGC最基本的能力是生成内容,包括文本、图像、视频、代码、3D内容或者几种媒介类型转换组合 形成的“多模态内容”。生成算法、预训练模型、多模态等AI技术累积融合,以及深度模型方面的 技术创新,共同催生了AIGC的大爆发。AIGC是相对于过去的PGC、UGC、AIUGC而提出的。过去的传统AI偏向于分析能力,基于已有内容 ;现在的AI基于训练数据和生成算法模型,可以自主生成各种形式的内容和数据。
2022年,AIGC(AI-Generated Content,人工智能生成内容)爆火出圈。 2022年10月,Stable Diffusion、DALL-E 2、Midjourney等可以生成图片的AIGC模型风行一时;2022年12月,OpenAI发布能够回答问题、生成代码、构思剧本和小说的聊天机器人模型ChatGPT ,将人机对话推向新高度。
目前,从提供预训练模型的基础设施层公司到专注打造AIGC产品和应用工具的应用层公司,围绕 AIGC生长出繁荣的生态,技术创新引发的应用创新浪潮迭起,中国有望凭借领先的AIGC技术赋能各行 各业。
AIGC市场规模到2025有望达500亿元
在传统PGC和UGC模式下,内容生成领域存在产能约束 和质量约束,PGC受制于人力资源的供给侧限制,UGC 虽然降低了PGC的生产门槛,但因用户创作能力和工具 功能的局限存在质量约束。AIGC突破内容生成产能和质 量约束,应用广泛,市场规模将会大幅扩大。根据《中国AI数字商业产业展望2021-2025》报告,预 测AI数字商业内容的市场规模将从2020年的40亿元,增 加到2025年的495亿元。
AIGC产业生态体系呈现上中下三层架构
目前AIGC产业生态体系的雏形已现,呈现上中下三层架构。第一层为上游基础层,是由预训练模型为基础搭建的AIGC技术基础设施层。第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。在预训练的大模型基础上快速抽取生成 场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署。第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。
AIGC将逐步革新数字内容的生产和艺术的创造
AIGC的社会价值体现为革新数字内容与艺术创造领域,并将辐射到其他领域和行业,孕育新的技术形 态和价值模式,甚至会成为通往AGI(通用人工智能Artificial general intelligence)的可能性路径。
AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求 丰富的行业取得重大创新发展,市场潜力逐渐显现。在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的AIGC应用都在快速发展, 未来AIGC的应用领域将会进一步拓宽。
AIGC落地场景:AI绘画、AI建模、聊天机器人ChatGPT等
2022年被称为AIGC元年,多个AI领域迅速发展,绘画、音乐、新闻创作、主播等诸多行业被重新定义 。目前AIGC正在从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作 素材为代表)转移,文本-图像-视频的跨模态/多模态内容生成正在进展中。已有的落地场景包括AI绘画、AI建模、聊天机器人ChatGPT等。
Part 2 ChatGPT介绍及发展趋势
文本生成式AI:聊天机器人ChatGPT火热来袭
OpenAI:由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联 合创始人彼得·蒂尔等硅谷科技大亨于2015年12月创立,主要用于制造“通用”机器人和使用自然 语言的聊天机器人。
2020年5月, OpenAI 发布了以Transformer为基础的NLP(自然语言生成)预训练模型GPT-3,此 前已经历过GPT-1、 GPT-2。
2022年11月30日,OpenAI公司发布聊天机器人模型ChatGPT,ChatGPT对GPT-3模型进行微调, 并引入RLHF(基于人类反馈的强化学习)方法。只需向ChatGPT文字提出需求,即可让其完成回答 问题、书写代码、创作文本等指令,发布一周内用户量超过百万。
ChatGPT可能改变搜索引擎使用方式,挑战谷歌霸主地位
ChatGPT属于AIGC的范畴,能够回答连续性的问题、质疑不正确的假设,甚至拒绝不合理的要求,大幅提 高了AI在人机对话时的准确度和可控性,将有望改变人类使用搜索引擎的方式。Open AI的CEO称AIGC的最终目标是做一个类似于新时代的搜索引擎。目前ChatGPT展示出来的内容输出 质量和内容覆盖维度,已经可以直面“搜索引擎”与“问答社区”。外媒The Information 报道显示,微软可能在2023年3月之前将ChatGPT引入自家的搜索引擎Bing,用人 工智能来回答一些搜索查询,此举或将改变搜索引擎的运行模式,革新性地提升搜索引擎效率。StatCounter数据2020-2022谷歌全球市场份额超90%,ChatGPT出现将挑战谷歌搜索引擎的霸主地位。
微软追加投资,ChatGPT商业化进程加快
微软近日考虑宣布将向OpenAI进行近百亿美元的投资,此前微软分别于2019年和2021年对OpenAI进行投 资,若此次投资完成微软将拥有OpenAI 49%的股权。微软对单个100GPU的收费是3美元/时,按照 ChatGPT加载模型和文本的速度,生成一个单词的费用约为0.0003美元;而ChatGPT的回复通常至少有 30个单词,因此ChatGPT每回复一次,至少花OpenAI 1美分。微软既能提供钱,又能提供算力。2023年1月,ChatGPT的活跃用户数或已达1亿,可能是史上增长最快的消费者应用。因访问量过大, OpenAI对ChatGPT进行了大规模限流,包括限制每小时的提问数量,以及高峰时段排队等举措。OpenAI于2023年2月正式推出ChatGPT Plus版本(率先对美国地区用户开放),收费20美元/月,Plus版 ChatGPT全天可用,无需排队。
依托微软生态, ChatGPT不断拓展应用领域
ChatGPT作为文字模态的AIGC发展潜力大,可以与图形模态的AIGC相结合,打造从文字描述到图 片生成的AI辅助工具。依托微软生态:依托于微软的操作系统、office等产品在全球市场份额的优势地位和强大产品生态, ChatGPT更多应用场景有望快速推进。微软CEO表示,微软正迅速推进OpenAI工具的商业化, ChatGPT等工具将整合进微软旗下产品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云 服务、Teams聊天程序等 。下游应用场景丰富:ChatGPT的下游应用场景包括代码机器人、小说衍生器、对话类搜索引擎、语 音工作助手、对话虚拟人(客服、外呼、营销)等。
星星之火可以燎原,ChatGPT有望进一步打开AIGC海量空间
ChatGPT爆火的背后是AIGC生态的逐渐繁荣,随着数字经济与实体经济融合程度不断加深,以及互联 网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为 新型的内容生产方式,已经在传媒、电商、影视、娱乐等行业取得重大创新进展。2022年,AIGC发展速度惊人,迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续入局 ,未来随着国内政策环境的优化,虚拟人、人机交互等场景需求旺盛,有望推动AI技术在金融、政府、 医疗、工业等领域的加速落地。AIGC有望成为数字内容创新发展的新引擎,为数字经济发展注入全新 动能。
Part 3 从NLP到Transformer到GPT
NLP的最初发展:传统模型的改进
自然语言处理( Natural Language Processing, NLP)是 一种机器学习技术,使计算机能够解读、处理和理解人 类语言。传统模型:循环神经网络(RNN)以及它的改良版本LSTM 。
注意力机制(Attention Mechanisms)的引入:针对 RNN语言模型中状态S作为上下文这一机制的改进。引 入Attention之后,计算第i个词后的状态从单纯的Si变成 了S0,S1...Si的组合,而具体“如何组合”,即哪个状态 比较重要,也是通过数据拟合出来的。在这样的情况下 ,模型的表达能力又得到了进一步的提高,它可以理解 一些距离较远但是又非常密切的词汇之间的关系,比如 说代词和被指代的名词之间的关系。
传统模型的弊端:在RNN中计算当前词后的状态Si主要 是通过计算上一个词时的状态Si-1迭代出来的,因此它 假设了距离较近的词汇之间的关系更密切, 而在人类真 实的语言中这一假设并不一定成立。
NLP的跨越式发展:Transformer与GPT的提出
Transformer模型的提出:在注意力机制提出后3年后,谷歌发表了著名的Attention Is All You Need,提出Transformer模型,对自然语言处理有巨 大的影响,使NLP的性能再次提升一个台阶。Transformer与原始模型不同的是:Transformer模型中没有RNN,完全基于Attention。在大型数据集上的效果可以完全 碾压RNN模型(即使RNN中加入Attention机制)。Transformer的架构使得建立词与词之间的复杂关系成为了可能, 显著提 高了模型的表达能力。以当前热门预训练模型为例,BERT(仅使用了Transformer的Encoder部分),GPT-2、GPT-3(使用的是Decoder部分)等, 都是基于Transformer模型而构建。
GPT模型的提出:生成式预训练(Generative Pre-Training,GPT) 是一种新的训练范式,通过对海量数据的无监督学习来训练语言模型。由于GPT底层借用了表达能力很强的Transformer,互联网经过长时间的发展,海量的无标记的自然语言数据也不再稀缺, 所以训练出来的模型对语言有了相当深入地理解。
ChatGPT的诞生:GPT迭代而来的当今最强版本
ChatGPT是由最初的GPT迭代而来:基于文本预训练的GPT-1, GPT-2,GPT-3都是采用的以Transformer为核心结构的模型。2018年发布GPT-1模型,其规模和数据量都比较小。2019年发布GPT-2模型,使用了更多参数的模型和更多的训练数据 , 且使用zero-shot设定实现仅通过一次预训练的就能完成多种任务 ,减少了下游微调的频率。2020年发布GPT-3模型,最显著改变的是把模型参数提升到了千亿 级,并在代码编写和数学运算等方面也有上佳表现。GPT3的缺陷是存在预训练模型的偏见性,由于预训练模型都是通 过海量数据在超大参数量级的模型上训练出来的,其生成的内容无 法被保证,会存在包括种族歧视,暴力血腥等危险内容。因此推动 了InstructGPT和ChatGPT的诞生,即GPT3.5。
InstructGPT是基于GPT3的微调版本:通过激发模型的理解能力 ,可以根据人类反馈进行微调,使语言模型与用户对各种任务的 意图保持一致,使输出内容的真实性提高且危险性降低。ChatGPT是InstructGPT的兄弟模型, 但在数据收集上提高了对 话类数据的占比,更多地将提示转换为Q&A,因此ChatGPT更 容易结合上下文,其连续对话能力会更好。
ChatGPT的特点与优势
InstructGPT和ChatGPT, 即GPT3.5, 采用了GPT-3的网络结构,通过指示学习构建训练样本来训练一个反应预测内容效果 的奖励模型(RM),最后通过这个奖励模型的打分来指导强化学习模型的训练。训练任务分为3步:1. 根据采集的SFT数据集对GPT-3进行有监督的微调(Supervised FineTune,SFT):了解如何回答查询。2. 收集人工标注的对比数据,训练奖励模型(Reword Model,RM):构建用于对查询进行排名的模型。3. 使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型 :学习人类的说话方式。
GPT3.5的优势:效果更加真实:ChatGPT在GPT-3之上进行根 据人类反馈的微调,引入了不同的labeler进行 提示编写和生成结果排序,这使得训练奖励模型 时对更加真实的数据会有更高的奖励。无害性提升:由于指示微调的引入,使语言模型 与人类意图保持一致,大大降低危害内容生成的 概率。具有更强的Coding能力:基于GPT-3制作的 API积累了更多的Coding代码,通过Coding相 关的大量数据以及人工标注训练出来的GPT3.5 模型具备更强大的Coding能力。
报告节选:
(本文仅供参考,不代表我们的任何投资建议)
关于我们
我们是一家专注于分享国内外各类行业研究报告/专题热点行业报告/白皮书/蓝皮书/年度报告等各类优质研究报告分享平台。所有报告来源于国内外数百家机构,包含传统行业、金融娱乐、互联网+、新兴行业、医疗大健康等专题研究.....目前已累积收集近80000+份行业报告,涉及众多大板块,多个细分领域。
文琳编辑
免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl 微信联系删除。
为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!
文琳编辑
▼长按2秒识别二维码关注我们
《文琳资讯》
提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注
今日导读:点击下面链接可查阅
今日导读:点击下面链接可查阅
公众号 :文琳阅读