人工智能行业专题:AIGC全方位解析与投资展望
(报告出品:兴业证券)
一、为什么是AIGC?
AIGC(Artificial Intelligence-Generated Content)即“人工智能自动生成内容”, 是利用 AI 来生成各种形式和风格的内容,如文本、图像、音频和视频等。与传统基于数据分析和推荐系统的内容处理方式相比,AIGC 可以直接根据用户需求 来生成最合适的内容,具有更强的主动性和创造性。根据 Gartner 预计,2022 年 AIGC 占全球数字数据量为 1%,到 2025 年,这一 比例将提升至 10%。应用领域广泛,如软件编程,医药研发,精准营销,影视 娱乐等,涉及行业的广度和深度远超从前。而根据 OpenAI 研究论文预计,除了内容产出的变革外,AIGC 也将有效的提高 工作效率,减少工时。以美国为例,OpenAI 预计未来将有 80%的工人至少 10% 的任务会受到影响,19%的工人有超一半的任务会受到影响。
为什么是AIGC:易用性、生产力、适配
我们看到,AIGC(1)用人类最熟悉的自然语言作为媒介,简单易用;(2)替 代人类的重复思考与工作,有效地释放了生产力;(3)下游应用广泛,适用性 强,各行各业都有适配 AIGC 的场景与需求。这三大特性使得 AIGC 不同于过往 互联网概念的炒作,而是真正有望大幅度提高人类的生产力和创造力,推动产业 发展与创新,成为互联网新发展的助推剂。
为什么是现在:算力、算法突破瓶颈
制约 AIGC 发展的两座大山,算力以及算法,获得解决。中国信通院将 AIGC 的 发展划分为三个阶段,即(1)早期萌芽阶段(90 年代之前),这一阶段科技水 平落后,受限于算力,仅能进行小范围实验;(2)沉淀积累阶段(1990s2010s),AIGC 从实验性向实用性逐渐转变,到 2006 年,深度学习算法取得重 大突破,图形处理器(GPU)和张量处理器(TPU)等硬件性能持续提升,互联 网的普及为人工智能算法提供了大量训练数据,使人工智能大幅进步,但这一阶 段,囿于算法瓶颈,内容生成效果较差,产品有待迭代;(3)快速发展阶段 (2010s-至今),深度学习算法不断迭代,人工智能生成内容逐步迈向成熟,人 工智能生成内容的应用百花齐放,目前 Text-to-text(文本到文本)、Text-toImage(文本到图像)、Text-to-3D(文本到 3D)等 AIGC 应用已初崭头角。
1、构建AIGC的三大核心能力
AIGC 的核心建立在三个关键能力之上,分别为算法、算力、数据。以下我们以 文本生成模型为例进行分析。
1.2.1、算法:Transformer奠定基础
目前语言大模型的核心底层算法为 Transformer,于 2017年由谷歌大脑团队推出 并奠定了大模型时代基础,当前流行的大模型大多都是基于 Transformer 的变体 或扩展,例如 2020年的 ViT(Vision Transformer)与 DDPM(Denoising Diffusion Probabilistic Models),2021 年的 InstructGPT,及 2022 年的 ChatGPT。自 Transformer之后底层算法未有较大突破,业界将目光更多集中于算法的具体落地、 算力芯片与数据集升级等方面。
Transformer 是一种自然语言处理(NLP)模型,用于翻译、文本生成、摘要等任 务。相比于传统的循环神经网络模型,Transformer 模型使用了一种名为“自注意 力机制”(Self-Attention)的新型计算方式,即对于输入序列中的每个单词或字符, 计算其与其他单词或字符之间的相似度,并根据相似度来分配注意力权重。然后, 使用这些权重来加权计算每个单词或字符的表示,使得模型在处理长文本时效果 更好且速度更快。通过多层堆叠自注意力机制和前馈神经网络,Transformer模型 可以同时对输入文本的所有部分进行处理,并学习输入序列之间的关系,从而获 得更好的语言表示。
除底层算法选择外,模型微调在大语言模型训练中也至关重要。不同语言模型 在训练数据、模型和微调方面存在差异,但共性是都遵循用户指令进行模型优化。通常而言,最初仅经过预训练的模型所生成的内容会不符合用户意愿,因此模型 开发者会使用指令调整的方法来优化模型,比如利用指令微调(Instruction FineTuning, IFT)、监督微调(Supervised Fine-tuning, SFT)、思维链(Chain-ofthought,CoT)等微调方法对模型进行优化,提高模型性能。再借助人类反馈强 化学习(Reinforcement learning from human feedback, RLHF),生成更符合人类 期望的内容。
人类反馈强化学习(RLHF)微调:由于网络数据来源千差万别,存在一个提示 将会对应许多“正确答案”的问题,因此 InstructGPT引入人工微调手段 RLHF进一 步解决语言模型生成答案不符合人类预期的问题,RLHF 利用人类与 API 互动的 真实反馈,对输出内容进行排序标注,以生成多样性和安全性兼顾的内容。Open AI 的 InstructGPT、ChatGPT,DeepMind 的 Sparrow,Anthropic 的 Constitutional AI 均采用 RLHF 对模型进行微调。
引入 RLHF 后 InstructGPT 生成真实且信息量大的答案的频率是 GPT-3 的两倍, 输出中不存在的信息的频率大约是 GPT-3 的二分之一,输出有害信息也较 GPT-3 有所改善,RLHF 使在网络数据语料库中训练的语言模型能与复杂的人类价值观 对齐,输出内容更为精准与专业。ChatGPT 沿用了 InstructGPT 的指示学习 (Instruction Learning)和人工微调手段 RLHF 来指导模型训练,使其适应对话的场 景,能够生成更自然、流畅、有趣和有用的回复。因此,ChatGPT 在与人类交流 时比其他语言模型更出色。
1.2.2、算力:驱动大模型的燃料
OpenAI 公司的 GPT-2 到 GPT-3 的参数数量从 15 亿增加到 1750 亿,这 种参数数量的大幅增加使 GPT-3 的总算力消耗达到 3640 PF-days,不仅仅是OpenAI,谷歌的预训练模型 Bert 参数量达到了 4810 亿,Deepmind 的 Gopher 参 数量达到 2800 亿。而使用 Transformer 架构的预训练模型(如 OpenAI 的 GPT 系 列模型)的运算量正以每两年 750 倍的速度快速增长,因此 AI 大模型对算力需 求愈发旺盛。据微软表示,OpenAI 使用的是一台全球排名前五的超级计算机系统用以训练 GPT-3,系统拥有超过28.5万个CPU核心,1万个GPU(每个的性能都达到400G 每秒),训练成本约为 1200 万美元。
高性能芯片为算力关键一环。在 AI 机器学习“训练”环节和“云端”应用场景中需 要大规模的并行运算,而 GPU 算力佳且擅长并行计算的特点使其成为 AI芯片的 扛鼎者,占据了大部分 AI 芯片的市场份额。AI 训练和推理芯片主要包括 GPU、 FPGA、ASIC,其中训练芯片由于在 AI 训练环节需要具备高内在并行度、巨量 浮点计算以及矩阵运算,因此训练芯片对算力性能要求较高,高端 GPU 占据训 练芯片的绝大部分份额。应用场景方面,AI 芯片又分为云端、边缘、终端三种。在云端应用场景中,AI 在处理海量数据的同时也要提供训练和推理的工作,因 此对于 AI 芯片的算力提出最高要求,具有高性能且能批量处理密集任务的 GPU 脱颖而出,成为构建云端服务器的主要芯片。
1.2.3、数据:语料库丰富度与数据标注缺一不可
数据是训练和迭代 AIGC 模型的核心要素。例如 ChatGPT,其用于 GPT-3的训练 集为集合近一万亿单词的 Common Crawl 数据集(2283 亿 token)、WebText 2、 Books1 数据集(120 亿 token)、Books2 数据集(550 亿 token)、Wikipedia(30 亿 token)、Reddit 链接、Stack Exchange 技术问答社区、Github 代码、ArXiv 论 文、RealNew 新闻存档、PubMed 医疗数据等等,并进行人工轻度过滤,通过将 较高质量的数据集更频繁的采样、重复与模糊的数据删除、将已知的高质量参考 语料库添加进训练组合中,促使 ChatGPT 的输出精准性大幅提升。
ChatGPT 数据准确度与实时度仍需提高,这对数据库的优质性提出更高要求。准确度方面,ChatGPT 的回答质量基于数据来源的专业程度,比如在 ChatGPT未 获取 IDC、Gartner等数据集的情况下,就会导致其生成的半导体产业数据分析内 容质量较差。实时度方面,ChatGPT 所用数据集停留在 2021 年,微软的 Bing 在 后续将搭载 GPT-4 版本,预计该版本相较于 ChatGPT 而言更强大,且具备实时 性,弥补信息老旧问题,不再局限于 2021 年的内容。
除了丰富的语料库外,高质量、大规模的数据标注将显著提升 NLP 模型训练效 果,使其输出更精确且更符合正向价值观。因此 ChatGPT 引入 InstructGPT 后, 运用 RLHF(人类反馈强化学习)进行训练的第一个步骤中就加入人工数据标注, 优化输出结果,利用已标注数据进行 GPT-3 有监督的训练。第二个核心步骤也收 集了对生成文本的质量偏好标注,人工标注者对输出结果按照偏好进行排序,采 用近端策略优化调整模型,训练奖励模型使模型(Reward Model)生成人类偏好的 内容,使模型的价值观与人类契合度大幅提升。
1.2.4、其他AIGC模式
除了以上介绍的基于 Transformer 模型的文生文 AIGC 外,我们看到文生图,文 生音,视频生成等多种 AIGC 模式也在快速发展。
二、OpenAI:AIGC领军者
OpenAI成立于2015年,是一家人工智能研究和部署公司,创始团队有Elon Musk、 美国创投 Y Combinator 总裁阿尔特曼、全球在线支付平台 PayPal 联合创始人彼 得·蒂尔等。它由营利组织 OpenAI LP 与母公司非营利组织 OpenAI Inc 所组成。公司以实现安全的通用人工智能(AGI)为核心宗旨,确保人工智能造福人类。2019 年 7 月,微软投资公司 10 亿美元,由非营利性机构转变为营利性公司,合 作为 Azure 云端平台服务开发人工智能技术。2020 年,GPT-3 语言模型发布,微 软获得独家授权(拥有 GPT-3 的代码和体系结构的独占访问权,未来基于 GPT-3 的产品微软都有权使用),开放 Open AI API商用。此外,据 OpenAI早期创始人 Elon Musk 披露,作为微软投资 OpenAI 的条款之一,微软对 OpenAI 的代码库有 独家访问权。
2022 年, ChatGPT 与 DALL-E2 发布。2023 年 1 月微软宣布以 290 亿美元估值投资公司100 亿美元,其旗下所有产品将全线整合 ChatGPT。2023 年 2 月 2 日,公 司宣布推出ChatGPT Plus 订阅服务,2月 8日,新版 Bing上线,技术内核由 GPT3.5 的升级版 GPT-4 提供支持,微软称之为“普罗米修斯模型”。2023 年 3 月 14 日,GPT-4 多模态大模型发布,新增识别图像生成内容功能,回答准确性、创意 性、处理复杂任务的能力远超 GPT-3.5。
2.1、ChatGPT发展历史
OpenAI 在 2022 年 11 月末推出 ChatGPT,是 GPT-3 与 GPT-4 之间的过渡版本, 由于其优秀的产品表现,一周时间内便突破百万用户,仅用 2 个月时间就累积 1 亿用户,是人类有史以来突破亿人用户最快的消费端互联网产品,打破了 TikTok9 个月破亿用户的纪录,引发了市场对 AIGC 的关注。GPT(Generative Pre-Tranning)模型是一种生成式AI模型,基于我们前文提到的 Transformer 架构。ChatGPT 放弃传统的 RNN 架构,改而使用 Transformer 架构, 这种基于注意力机制的神经网络模型可进行并行计算,更好地处理长序列的输入 和输出,提高模型生成的质量和效率。
ChatGPT 周访问量达 3.87 亿次,其他 AIGC 应用如 Midjourney 等访问量迅速增 长。即使在经常宕机和开放国家受限的情况下,ChatGPT 仍然保持着强大的用户 粘性和吸引力。根据 Similarweb数据显示,ChatGPT周网页访问量从最初的 2145 万次到目前约 3.9 亿次,除了 ChatGPT 本身的成功,其他 AIGC 应用的热度也在 不断增加,如 Midjourney 网页周访问量从 326 万次增长至目前的 1207 万次。
ChatGPT 为何优秀:ChatGPT 并不是一蹴而就,而是迭代多次才不断完善,而在此前,不仅 OpenAI, 也有多个平台发布类似产品,但是表现平平。我们认为,区别于此前的 AI 问答, ChatGPT 的出彩之处在于:(1)情景学习(In-Context Learning):以往的 AI 模型需要海量样本方能识别物 体,例如识别猫科动物需要一万张相关图片,而 In-Context Learning 可以使模型 仅通过一定的指令与示范较少的实例即可生成 Prompt,实现 few shot(少样本学 习)或者 Zero shot(零样本学习)。(2)指令学习:当用于调整 ChatGPT 的指令数量具有一定规模时,能增强模型 泛化能力,生成从未见过的新指令的有效回答。指令学习也提高了模型的通用性, 以往的 AI 模型仅能于单一任务上进行操作,指令学习可使 ChatGPT 实现多任务 学习与操作。
(3)思维链(Chain-of-Thought):增强模型在需要逐步思考的任务上的生成表现, 展示答案的逻辑将更为清晰,有效防止语言模型规避用户问题,并使用户理解其 回答的原因与依据。(4)人类反馈强化学习(RLHF):模型算法使用 RLHF(人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督对NLP(自然语言处理) 和 RL(强化学习)进行微调,为信任域策略优化算法带来了成本效益,相比 GPT-3,新加入的 RLHF(人类反馈强化学习)范式,增强了人类对模型输出结 果的调节,并且对结果进行了更具理解性的排序。RLHF 使 ChatGPT 与人的沟通 能力得到了显著提升,ChatGPT 输出的内容更加符合人类的期望(无害、符合价 值观、有帮助的),但也因需要对齐人类价值观,ChatGPT 会牺牲部分其性能, 即“对齐税 (Alignment Tax)”。
(5)海量文本数据训练:ChatGPT 拥有 1750 亿参数量,使其储存了海量知识,能满足人类对通用知识的基本需求。ChatGPT 的知识来自哪里:ChatGPT 大量的文本数据训练主要来自:1、Common Crawl,美国的一个非营利 性组织,总部位于加利福尼亚州旧金山和洛杉矶,负责抓取网络并免费向公众提 供其档案和数据集,持续抓取了互联网 10 年的数据(75%英语,3%中文,2.5% 西班牙语,2.5%德语等)。2、OpenWebText(开源版本),数据是从 Reddit 论坛上 收集的URL,再把内容抓取下来。3、其他一些代表性的数据包括Wikipedia维基 百科,Books 开放图书,Stack Exchange 技术问答社区,Github 代码,ArXiv 论文, RealNew 新闻存档,PubMed 医疗数据。
驱动 ChatGPT 的动能:大量的文本资料训练依靠算力实现,对于ChatGPT而言,支撑其算力基础设施至 少需要上万颗英伟达 GPU A100(AlphaGO 只需要 8 块),一次模型训练成本超 过1200万美元,而推理部分则依赖微软的azure云计算服务,由1万个V100 GPU 组成的高性能网络集群,总算力消耗约 3640PF-days (即假如每秒计算一千万亿次, 需要计算 3640 天)。
2.2、GPT-4:AGI(通用人工智能)的早期版本
GPT-4 为多模态大模型,相较 GPT 3.5 新增图像处理能力,并具有更强大的文本 处理能力。3 月 14 日,OpenAI推出了 GPT 系列前所未有的强大模型 GPT-4。相 较于之前的语言大模型,GPT-4 拥有图像识别能力并能处理视觉任务,扩展至 2.5 万字的文本输入限制、显著提高的回答准确性以及推理能力,还能实现多种 风格转换。经过 6 个月的努力,OpenAI 借助对抗性测试程序和 ChatGPT 的宝贵 经验对 GPT-4 进行了持续优化,使其在真实性和可控性等方面取得了空前的成果。
根据微软针对 GPT-4 所发布的研究论文,GPT-4 可被视为 AGI 的早期版本。据 美国心理学会(APA)1994 年对智力的定义,智力涵盖推理、规划、问题解决、 抽象思维、理解复杂思想、快速学习和从经验中学习的能力。微软的研究结果表 明,GPT-4 所展现的广泛且强大的能力突显了其具备通用人工智能(AGI)的早 期特征。GPT-4 能够在无需特别提示的情况下,成功解决诸如数学、编程、视觉、 医学、法律、心理等多个领域中的新任务和难任务,并且在这些任务中的表现远 超过了之前的模型,例如 ChatGPT。此外,GPT-4 的表现在所有这些任务中也惊 人地接近于人类的表现水平,这也意味着 GPT-4 摸到 AGI 的门槛。
GPT-4 的功能进步(相较 ChatGPT):(1)回答的准确度与创作性提高,尤其是面对复杂任务时。当任务复杂性达到 足够阈值时, GPT-4 相较于 GPT-3.5 表现出更高的可靠性、创造力,并能应对更丰富的细节指令。(2)可输入超长上下文,输入上限拓展达 2.5 万字,ChatGPT 仅能输入 3000 字。(3)拥有多模态功能,可向 GPT-4 输入图片内容。例如 GPT-4 可根据草稿图生 成网站 HTML代码。与 ChatGPT相比,GPT-4能识别图片、识别网络梗图并可描 述笑点。
(4)在专业和学术基准测试中表现出人类水平的性能,例如,在模拟律师考试 中,GPT-4 跻身前 10%,而此前的 GPT-3.5 仅位于倒数 10%。此外,在 GPT-4 参 与的多语言性能评估等各类基准测试中,GPT-4 多项指标的表现优于现有的大型 语言模型。(5)GPT-4 回答准确度提高,涉及敏感问题时更安全。在真实性方面,GPT-4 相比 GPT-3.5提高了 40%。内部评估显示,相较 GPT-3.5,GPT-4响应不允许内容 的可能性下降 82%,给出事实性响应的可能性提高 40%。(6)开发者可定制模型语言风格。与 ChatGPT 的统一语气和风格不同,开发者 可通过 GPT-4 定制 AI 的风格。
微调手段的进步:GPT-4 在人类反馈强化学习(RLHF)训练中额外融入了一个的安全奖励信号, 以降低有害输出。该奖励由 GPT-4 零样本分类器提供,判断安全边界和完成方式。为防止拒绝有效请求,OpenAI 收集了多样化的数据集,应用安全奖励信号(正 负值)。此外,OpenAI 聘请了 50 多位不同领域专家对模型进行对抗性测试,并 根据专家反馈进行改进。与 GPT-3.5 相比,这些措施显著提升了 GPT-4 的安全性 能,降低了 82%的非法内容请求响应倾向,同时增加了 29%符合 OpenAI 政策的 敏感请求响应。
2.3、探索中的盈利模式
OpenAI 目前正在探索多条盈利路径:1)API 收费;2)ChatGPT Plus 订阅服务;3)Azure OpenAI 服务;4)Microsoft 365 Copilot 服务;5)集成 GPT 至具体软 件。1)API 收费:除了与微软合作外,公司还构建了 AI服务的基础层,借助 GPT-3 和 DALL-E 2等 大型生成模型产品,为希望在其基础模型之上开发应用程序的企业提供 API(应 用程序编程接口)。语言模型 API收费:通过 API将公司的生成模型货币化,收取许可费。语言模型则使用 token 定价(1000 个 token 大约能输入 750 个字(words)),每个模型都提供 不同的功能,因此定价不同;客户还可以微调公司的现有模型,为此需要支付额 外费用(例如在语言模型上微调 Davinci为0.12 美元/1k token,而标准模型为0.02 美元/1k token)。
GPT-4 API 收费:美东时间 2023 年 3 月 14 日 GPT-4 发布后,OpenAI 官网更新了 GPT-4 API 的 Token 定价。目前 GPT-4 的 API 仅支持文本输入,使用先需加入等 待列表。2)ChatGPT Plus 订阅服务 公司还围绕付费会员模式,发布了 ChatGPT Plus 订阅服务,提供的服务包括全天 高使用性、更快响应与优先访问新功能。3 月 14 日 GPT-4 上线,仅面向 ChatGPT Plus 订阅者开放使用权限。定价:用户需支付 20 美元/月以订阅 ChatGPT Plus。
3)Azure OpenAI 服务:微软与 OpenAI 合作发布 Azure OpenAI 企业级服务,有助于企业实现更优的数据 管理,提升生产力。Azure OpenAI 的收费基于每个模型的使用量,消费模式为现 收现付,每种模式都有一个单位价格。
4)Microsoft 365 Copilot 服务:Copilot,基于 OpenAI 的 GPT-4 技术,以聊天机器人的形式集成在 Microsoft 365 应用的侧边栏中,协助用户创建文档、电子邮件和演示文稿等。Copilot 与 Microsoft 365 的结合主要分为两种:一是直接嵌入 365 应用程序;二是推出Business Chat 功能,Business Chat 能够跨越日历、电子邮件、会议记录、文档、 联系人等信息,仅需简短的自然语言提示,即可根据会议、邮件和聊天记录等 生成状态更新。借助 Microsoft Graph 和 GPT-4 的强大能力,Business Chat 将用户 的数据整合至一起,更有效实现团队协作与工作推进。目前该服务已经向部分商 业用户推出。官方表示在未来几个月内将会公布更多关于价格和细节方面的信息。
5)集成 GPT-4 模型功能至具体应用中,合作商家包括:多邻国、Be My Eyes、 Stripe 等。3 月 15 日,多邻国将集成了 GPT-4 的新功能商用,宣布推出 Duolingo Max 订阅服务,月收费 30 美元,年收费 168 美元。
2.4、特殊的股权投资协议:目前与微软深度绑定
OpenAI LP 在企业组织形态上采用的是有限合伙,OpenAI Nonprofit 是其负责投资管理的普通合伙人,实际控制权将掌握在 OpenAI Nonprofit 的董事会,并适度 向两位联合创始人配置权重倾斜。微软前期对 OpenAI 不余遗力投资。公司在 2019 年宣布了来自 ReidHoffman 慈 善基金以及 Khosla Ventures 的 pre-种子轮投资;2019 年 7 月,微软向公司注资 10 亿美元;2021 年微软对公司追加投资;公司于 2021 年底完成 2.5 亿美元的 A 轮 融资,投资人包括微软、马斯克、谷歌风投、老虎环球基金、A16z、YC 等;2023 年 1 月,微软投资公司 100 亿美元。
公司未来盈利后的利润分配将按照四个阶段进行:其全新的股权投资协议具有盈 利上限,第一轮投资者的回报上限是 100 倍,超额部分将反哺 OpenAI Nonprofit, 用于实现“确保创建和采用安全有益的通用人工智能,造福全人类”的使命,而在 OpenAI 利润达920 亿美元的第三阶段,微软持有 OpenAI 的股份下降至 49%,其 他投资者持有另外 49%的股份,OpenAl 的非营利母公司则持有剩余 2%的股份。而据媒体报道, OpenAI 的 2022 年收入约 3500 万美元,年亏损超 5 亿美元,但 公司预计其将于 2023 年、2024 年分别实现 2 亿美元、10 亿美元营收。
三、中国AIGC现状与展望
3.1、政策端扶持
《新一代人工智能发展规划》是国务院于 2017 年发布的我国首个 AI 领域的顶层 设计文件,后续颁布的支持政策显示人工智能在国家战略中的地位日益突出, 政策端给予 AI 领域强有力的支持和推动,明确了不同阶段的发展目标和任务, 强调了人工智能与制造业、服务业、数字经济等领域的深度融合。加大对人工智 能核心技术、产品和服务的研发投入,并推动人工智能在重点行业和领域的示范 应用和场景创新。同时,政策还加强了对人工智能领域的标准建设、伦理规范、 安全保障等方面的探索和引导,为人工智能健康可持续发展提供了制度保障。
3.2、国内AIGC进展:多头并进,百花齐放
ChatGPT 引领全球 AIGC 浪潮,AIGC 不仅受到政府与学术界的高度重视,也 成为国内众多科技企业的探索方向和商业化目标,各大企业纷纷宣布加快 AI 领 域的进展。国内深度学习先驱百度已经于 2023 年 3 月上线大模型文心一言,百 度在 AIGC 领域已有多年的研究和投入,其深度学习框架、生成模型及下游应用 均处于行业领先水平,大模型文心一言的商业化也正处于起步阶段,To-B 端已 有多个企业接入,涵盖媒体、互联网、汽车、金融等领域。此外,腾讯的混元大 模型、阿里的通义大模型、华为的盘古大模型也逐渐展现出其强大的能力和潜力。
构建 AIGC 大模型的三大底座为算法、算力、数据。1)算力:面对国内 AI 大模 型快速发展而飞涨的算力需求与美国的科技封锁,国产芯片的重要性日益凸显。近年来,国产芯片不断创新突破,提升了自主研发和生产能力,随其不断迭代将 为国内 AI 大模型的落地提供强有力的支撑。2)数据集:中文预训练数据集例如 悟道、CLUE Corpus 2020、MNBVC 可为中文语言大模型的构建提供丰富的素材。3)算法:文心一言使用的算法是基于 GPT 系列算法的语言模型。
3.3、中国深度学习之路:任重而道远
目前国内与人工智能领域发展较早的美国仍存在一定差距,主要在算力、高质 量的专业数据、研究与投资方面。算力:目前国内高性能 GPU 芯片短缺。据《财经十一人》,运行 ChatGPT 类似 的大模型需要 1 万枚英伟达 A100 GPU 芯片支持,但目前国内拥有 1 万枚以上 GPU 芯片的企业寥寥无几,仅不到 5 家。而国内高端 GPU 主要依靠海外进口, 受 2022 年 8 月美国贸易限制的影响,国内企业无法再获取英伟达 A100 芯片以及 更高阶的 H100 芯片。针对芯片问题,国内企业的解决方案为:1)采用国内自研 GPU;2)用分布式 CPU 替代进行大模型训练。
高质量数据:AI 文本生成较高质量的数据来源于学术论文、专业书籍、专业新 闻、专业的全球数据库、各细分领域龙头数据库以及高质量的论坛,而目前高质 量数据库仍以英文为主,给中文大模型训练提升了难度。顶尖人才与科研:《State of AI Report 2022》显示,美国在 AI 论文数量上仍然领 先中国,但中国学者的产出增速更快。美国学者在 2022 年发表了超过 1 万篇 AI 论文,位居全球第一,而中国学者发表不及 7500 篇,位列第二。然而,在 AI 论 文产出增速方面,中国学者以 24%的年增长率远超美国学者的 11%,这表明中国 在科研方面正在加快追赶美国。
AI 领域投资:据《2021 AI Index Report》,在 2020 年美国企业对于 AI 领域的投 资是中国企业的 2 倍。据 CBInsights 数据统计,美国 AI 相关企业达到 4171 家, 累计融资金额达到 1601.9 亿美元,而国内 AI 相关企业为 1275 家,AI 企业融资 总额为 470.7 亿美元。
3.4、百度:国内深度学习先锋
文心一言虽非完美,但蕴藏潜能。3月16日,百度举办文心一言发布会,CEO李 彦宏在会上表示虽然文心一言在内测体验中并非完美,但潜能可期,文心一言可 借用户与数据的接入逐步迭代,在未来实现更优的性能。百度早年间基于 AI 与 大模型领域积累了多年的技术与研究,自 2019 年的 ERNIE1.0 至 2023 年的 ERNIE3.0,始终领跑国内 NLP 领域,目前的大模型已基本具备后续接入下游应用落地的能力。此外,由于文心一言是国内首个推出的大模型,有利于获取先发 优势,吸引大量用户与数据用于训练与迭代产品,抢占大模型后续落地商业化先 机。
四、AIGC短期与长期对互联网行业的影响
AIGC 方兴未艾,我们认为其对于互联网行业的影响分为短期与长期。短期来看,云计算厂商受益于训练需求大增。由于大模型训练与调用需要庞大的 算力资源,因此在各家企业纷纷入局的当下,算力需求大幅度提升。TrendForce 数据显示,以 A100 算力为基础,GPT-3.5 模型就需要高达 2 万张,未来商用后可 能需要超过 3 万张。但对于大参数的语言模型,仅备足 GPU 是不够的,千亿参 数的模型需要(1)多机多卡分布式训练,(2)解决网络通信延迟问题,(3) 解决海量数据存储问题,因此没有一个面向 AI 高度优化的云计算平台,训练千 亿参数以上的模型是不现实的。因此,随着大模型训练需求量以及未来 AIGC 应用的增加,云计算厂商,如海外 的微软Azure,谷歌的 GCP,亚马逊的 AWS,国内的阿里云、百度云、以及腾讯 云都将迎来增量的需求。
而长期来看,互联网应用层也将迎来变革。正如微软所说,GPT-4 目前已经摸到 了 AGI 的门槛,在很多任务上惊人地接近人类水平。而根据 OpenAI 研究,80% 的劳动力有至少 10%的任务将受到大模型影响;19%的劳动力有至少 50%的任 务将受到大模型影响。因此我们相信,AIGC 对互联网的影响将是深远的,包括 效率的提升、内容产能的增加、新的流量渠道等等。对搜索、物联网、应用商店、 办公软件、外包行业、游戏、影视、电商等互联网行业均会有深远影响。
4.1、搜索:New Bing撼动搜索垄断格局
谷歌在搜索引擎市场垄断多年,大模型引入赋能搜索引擎或将改变格局。截至 2023 年 2 月,谷歌搜索引擎市场份额仍为 93.4%,Bing 的市场份额为 2.8%。但 我们也看到,随着 new bing 上线,ChatGPT 对 Bing 流量增益明显显著。搜索广告格局或同样将迎来变动。2022 年全球搜索广告市场规模稳步上升,增 速趋缓,市场规模达2,600 亿美元,占总量的 42%,是当今市场的重要广告投放 模式,随着“AIGC+搜索引擎”落地,搜索广告将获得更多广告商更多关注,增长 速率或将提升。
微软 New Bing 的推出对 Google 搜索引擎提出新的挑战。面对 Bing 的流量的快 速增长,谷歌的搜索垄断格局面临较大调整。因此谷歌计划整合新的 AI 功能到 搜索引擎中,并于 2023 年 3 月对 Bard 开启公测。但谷歌若将语言模型引入搜索引擎,将挤占其利润空间。AIGC 赋能搜索引擎需 要解决算力问题,将大型语言模型(LLM)加至搜索引擎,需要更多的算力, 提高每次查询成本,降低谷歌单次搜索利润率。相比谷歌,微软搜索广告市场份 额每增加 1%,每年可带来 20 亿美元的收入,并且微软 CEO 于 2023 年 2 月 7 日 表示,愿意接受搜索业务“不盈利”,以便有机会蚕食谷歌的市场份额。
4.2、物联网:交互方式进一步革新
物联网解决方案的需求旺盛,终端数量持续增长,生成大量数据。2021 年全球 物联网(企业级)支出规模达 6903 亿美元,并有望在 2026 年达到 1.1 万亿美 元,2022-2026 复合增长率将达 10.7%。在全球范围内,物联网终端数量高速增 长,预计 2025 年全球物联网终端连接数量将达到 250 亿个,其中消费物联网终 端连接数量达到 110 亿个,工业物联网终端连接数将达到 140 亿个。IDC 预测, 到 2025 年,物联网设备生成的数据量预计将达到 73.1 ZB。
AIGC 能够整合原有的软硬件产品,对物联网的数据进行智能化分析,推动物联 网对场景业务的探索融合。物联网基于万物互联,软件交互载体需要依托终端对 用户进行交互,能够产生大量的流量数据,而 AIGC 基于物联网,多模态技术获 取多维信息,实现更加智能的人机交互,使得物与物之间、物与人之间连接的深 度和广度将进一步拓展,提供更加完善丰富的应用场景,又助推用户使用物联网 终端产生更多的数据,实现正向循环。比如智能家居就利用物联网技术,将家居 设备智能化,实现远程控制、自动调节、情景模式等功能,提高家庭的舒适度、 安全性和节能性,当 AIGC 应用在智能家居平台,智能音箱的回答不只是固定的 范式,家庭里各种机器人也不局限于固定的任务,而是拥有陪伴的能力,这些都 促进用户与设备进行交互,提高物联网的数据产出。
2023 年 4 月 4 日,阿里版 ChatGPT 语音助手公布,天猫精灵团队通过音箱端接 入阿里大模型,展示出一定的多轮对话及 AIGC 能力,阿里巴巴对此称“天猫精 灵和达摩院一直在紧密合作,其中包括推进大语言模型、声学模型、语音 AI 等 综合应用”“天猫精灵智能交互系统(AliGenie)在达摩院大模型的加持下将得到 全面提升,给用户带来更好的服务体验”。
4.3、应用商店:ChatGPT Plugins或带来流量分发新渠道
Plugins 集成第三方软件功能,解锁通用大模型向细分领域延伸的潜能,重构应 用软件新范式。目前 OpenAI 提供两个插件,网络浏览器与代码解释器,首批接 入的还有公司插件,跨足旅游、餐饮、购物、交互、教育、法律等多个领域,展 示了插件无限的可能性和广泛的应用场景。ChatGPT Plugins 对标 IOS 与安卓操作系统,开启 OpenAI 扩张应用生态版图之 路。回顾 App Store 的发展历史,应用程序数量、下载量与收入以极快的速度攀 升,随着生态系统基础建设的完善,百万款应用软件逐步问世,所创造的商业空 间非常广阔。此外,Plugins 的独特优势是提供用户利用自然语言创建插件的可 能,大幅降低创作者门槛与开发软件难度,未来涌现的应用数量或将数倍于 App Store 与 Google Play。
4.4、办公软件:解放生产力的重要一步
AIGC已能优秀地作用于办公领域,典型产品为微软推出的Copilot,Microsoft 365 Copilot使用户可用自然语言与办公软件进行交互,革新传统办公方式,人力 的重心自传统的重复性任务转为以创造性任务为主,降低冗长工作线程压力,提 高生产效率。To-C 端主要在四个方面赋能用户:1)释放创意潜能:Copilot 可为用户提供初稿及后续编辑的内容,为用户节省思 考创意、寻找资源与协作编辑时间。
2)提高生产力:AI可自动执行重复性任务,用户利用自然语言即可令 Copilot转 化创意想法为可视化数据或文本,在短时间内实现想法落地,减少冗杂工作流程, 为用户提供更多与有意义任务的接触时间,带来庞大的业务优势。2021 年推出 的 GitHub Copilot 的数据显示足见其对工作者的帮助,在使用 GitHub Copilot 的 开发人员中,88% 的人表示他们的工作效率更高,74% 的人表示他们可以专注于 更令人满意的工作,77% 的人表示这有助于他们花更少的时间搜索信息或示例。3)提升学习曲线:Copilot 可让用户在擅长的领域提高效率,并让用户在不熟悉 的领域快速掌握尚未学习的内容。用户使用自然语言即可解锁 Microsoft 365 中可 用的数千个指令,并尝试此前未探索的新功能。
4)打通办公软件,无缝衔接办公元素:Business Chat 可以横跨 Microsoft 365 的 各项功能,包括文档、电子邮件、日历、聊天、会议、联系人或其他业务数据, 集成并合理排列,命令应用程序之间进行协作,在用户需要时与用户工作上下文 相结合。例如集成用户参与的某个主题的会议、与之相关的电子邮件交流与聊天 对话等,在用户需要该主题信息时能及时提供准确、相关、具有上下文意义的回 应。在 To-B 端,Microsoft 将 AI 技术集成于 Dynamic 365 和 Power Platform 中,为 客户提供独特的企业级 AI 优势。Copilot 将 GPT4 和 Microsoft 365 应用程序与企 业用户在 Microsoft Graph 中的业务数据相结合,通过自然语言命令软件功能并传 达信息给每个团队成员。另外,作为世界上首个在 CRM 和 ERP 中都具备 AI 功 能的 Copilot,Dynamics365 Copilot 将为每条业务线带来下一代 AI。
Copilot 能影响的市场规模测算涉及云服务及办公软件服务。办公软件服务的市 场空间收入增速可参考金山软件办公软件及服务营收,在发展期同比增速可高达 52.7%。用户体量方面,以国内 WPS 为例,月度活跃用户与付费用户也在迅速上 扬,积累付费用户于2022年第四季度达到2997万人,累积付费用户比例达5%, 由于 Copilot 能为用户带来独特的优势,加入市场后或将在原有的市场基础上吸 引更多企业与用户的订阅。
4.5、外包:效率提升带来需求减少
1)职业外包公司方面,例如 Upwork 提供在线的服务交易平台,让自由职业者 和企业能够更加便捷地进行合作,从而节省时间和成本。但 AIGC 技术可以高效地完成一些重复性、低技能的任务,相比外包工作者,AIGC 可以降低客户的服务成本和提高工作效率,因此会与 Upwork 上的一些低技能工作产生竞争。此 外,AIGC 产品也可提供自动化的项目匹配和推荐服务,帮助自由职业者更快速 地找到适合自己的项目。AIGC 将从多方面影响 Upwork 的商业与盈利模式。
2)客服外包公司方面,例如 Teleperformance 的主要业务是提供客户服务解决方 案,包括呼叫中心、多渠道客户服务、技术支持、营销和销售等服务,而 AIGC 基于人工智能和自然语言处理技术,可以提供自助服务、虚拟助手、语音识别、 情感分析和实时数据分析与反馈等服务,能够更好地满足客户需求,并且大幅降 低了人力成本,或将对 Teleperformance 的盈利模式产生冲击。
4.6、游戏:效率提升带来成本下降与产能提升
尽管我们看到 AIGC 技术可能会对一些通用办公软件的商业模式产生潜在影 响,但值得强调的是,AIGC 技术对于游戏等重度内容创意平台的发展可能带来 可观的增益。AIGC 能给游戏策划创意产生提供思路,提高游戏内玩家与 NPC 交互性,丰富 玩家游戏体验。比如网易推出的国内首个游戏版 ChatGPT—逆水寒 GPT。游戏 中 NPC 的对话文字、表情、语音均由 AI 自动生成,玩家能够与智能 NPC 自由 生成对话(打字或语音聊天),并基于对话内容,NPC 能够自主给出逻辑上合 理的行为反馈。这些反馈能够启发策划人员产生有关后续剧情发展的创意。其中 NPC 有记住过往对话的能力,使各个 NPC 之间互相影响、互相对话,在此过程 中,不同玩家与 NPC 的对话均能够产生蝴蝶效应,给予玩家十分具有代入感的 游戏体验。
全球游戏厂商研发费用率较高,提高游戏工业化水平,利用 AIGC 降本增效是 长期叙事,目前最受益方向是美术成本。游戏的高质量研发能帮助游戏厂商适应 不同类型用户,拓展市场空间和商业模式,因此全球游戏厂商积极投入研发,平 均研发费用率稳定上台阶,根据 Newzoo,2022 年全球游戏市场收入 1968 亿美 元,平均研发费用率约 18%,全球游戏研发成本高达 354 亿美元,相应的,高质 量的游戏离不开对美术的高要求,美术成本占研发费用约 50%。而 AIGC 在美术 方面能看见直观的效果,比如 OpenAI 的 DALL-E2,百度的文心一格等大模型都 能够生成游戏原画,一般制作一张原画需要 2-3 天,使用 AIGC 技术,只需要几 秒钟即可完成,因此随着 AIGC 生成的原画越来越精美, AI 工作流程的完善, 美术方面的人员配备、人员数量还是工作时间都会显著受益。
4.7、影视:降本增效助力利润空间释放
减量提质背景下,尽管中国剧集发行数不断下降,2021 年中国剧集制作总成本 仍然由 2017 年的 290 亿增长至 340 亿,复合年均增长率为 4.2%(广电总局、弗若斯特沙利文)。以柠萌影业为例,该公司剧集制作成本长期占据销售成本(影 视公司收入减销售成本即为毛利)90%以上。高额制作成本决定了影视行业高成 本、低毛利的局面,而 AIGC 技术有望为影视行业降本增效,缩短回收周期、释 放被严重挤压的利润空间。
AIGC 技术的应用能极大压缩影视产业链中概念策划和剧本开发的工作量,并为 剧本创作者提供灵感。对于内部开发的原创剧本,智能检索有助于从现实和网络 中提取热点题材以预测市场偏好、启发创作,输入设定理念和关键词后智能生成 剧本框架作为二度修改的基础能有效缩短创作周期;对于采购 IP,AIGC 技术可 在于 IP 初步筛选评估和文本转写上节省大量工时。目前 DeepMind推出了 Dramatron,使用预训练大语言模型生成分层故事,以交互方式生成人物描述、情 节点、场景和对话,为剧本创作者完成冗杂的初步工作,提供汇编、编辑和改写 的材料。此外,AIGC 可用于预告片和海报制作。光线传媒综合运用 Midjourney、 Stable Diffusion 和 GPT-4 大模型制作了《去你的岛》海报。
AIGC 还能覆盖技术密集和人力密集的拍摄和制作环节,包括美术(概念设 计)、数字化场景、动画、特效、剪辑、灯光渲染/合成/调试等部门。除了在游 戏行业已经应用相对广泛的概念设计,AIGC 在数字化场景建模方面可以避免转 场和高成本真实置景,在真人动画拍摄方面能省去复杂的人工动作捕捉和细节调 整并提高准确性。后期制作成本拆分后,占比最大的支出是技术团队平均薪酬*制作周期。目前 Runway 发布的 Gen-2 可通过文本、图片或二者结合生成视频片 段,完全打破了传统视频制作流程,此类 AIGC 应用能压缩团队规模、缩短制作 周期,最终削减在影视预算中占比较高的后期成本。
4.8、电商:智能导购新形式
对于电商平台和电商 SaaS、AIGC 技术都有广阔的应用前景。电商服务平台 Shopify日前已经率先接入 ChatGPT API,向消费者提供智能导购,通过与客户 的交互对话为客户推荐合适的商品。
从智能推荐角度看,电商搜索引擎能利用 AIGC 生成更符合消费者侧写的产品推 荐页面,从而提升消费者体验体验、提高 GMV;营销角度,各品牌能通过消费 者决策算法大模型处理海量用户的个性标签、历史购买记录和行为特征等信息, 并由此总结更有购买倾向、客单价较高的潜在消费者,选择合适的推广战略并为 广告服务平台提供更精准的字符串或人口统计信息、提高广告转化率;视听角度, AI 3D 建模可全方位展示商品、通过虚拟试穿赋予客户沉浸式体验,虚拟主播能 在真人主播下班时间接棒直播,且相对真人主播具备更高可控性、不需要佣金分 成等优势;成本控制角度,目前较为直观的应用是智能客服——AIGC 生成的客服响应较传统在线自动客服根据关键词推送相关链接的模式具备更强针对性和准 确率,较真人语音客服掌握更多解决方案.能增强消费者与客服沟通的流畅度、 降低消费者对真人客服的需求。
(本文仅供参考,不代表我们的任何投资建议)
关于我们
我们是一家专注于分享国内外各类行业研究报告/专题热点行业报告/白皮书/蓝皮书/年度报告等各类优质研究报告分享平台。所有报告来源于国内外数百家机构,包含传统行业、金融娱乐、互联网+、新兴行业、医疗大健康等专题研究.....目前已累积收集近80000+份行业报告,涉及众多大板块,多个细分领域。
文琳编辑
免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl 微信联系删除。
为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!
文琳编辑
▼长按2秒识别二维码关注我们
《文琳资讯》
提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注
今日导读:点击下面链接可查阅
今日导读:点击下面链接可查阅
公众号 :文琳阅读