人工智能大模型专题报告:方兴未艾,并驱争先
(报告出品方:中信证券)
报告缘起:AI 趋势明确,大模型为关键环节
全球 AI 产业发展趋势明确,波动中前行。自 1956 年约翰·麦卡锡首次提出“人工 智能”的概念以来,全球人工智能产业逐渐进入学术研究和产业实操并进的阶段。尽管 在算力性能、数据量、硬件成本等多重因素影响下,人工智能产业经历了“三起两落” 的螺旋式发展,但全球人工智能发展的趋势仍然明确,通用人工智能(AGI)仍然是人工 智能行业发展的主线。
ChatGPT 加速推进 AI 产业发展,需求爆发倒逼供给创新。ChatGPT 在全球范围内 快速传播,在短时间内完成了对企业和用户的市场教育,需求端的爆发驱动着供给端加 速创新,加快推动全球 AI 产业发展进程。IDC 预测,2026 年全球 AI 市场规模有望达 3082.8 亿美元,2023-2026 年 CAGR 约 26.7%。而 AI 作为下一代全球科技竞速的重要 领域,我国从顶层设计到科技企业均积极参与,有望进一步带动国内 AI 产业发展。IDC 预测,2026 年,我国 AI 市场规模有望达 264.4 亿美元,2023-2026 年 CAGR 约 21.5%。
政策重点支持,人工智能有望维持高景气。人工智能作为展现大国国际竞争力的重 要领域,我国在顶层设计方面始终重视对人工智能产业发展的鼓励和引导,在关键技术 投入、人才培养、人工智能赋能实体经济、基本伦理要求等方面均推出相关政策。政策 积极支持下,我国人工智能行业有望维持高景气。
9 月 1 日,网信办发布第二批境内深度合成服务算法备案信息,百度文心大模型、抖 音云雀大模型、京东言犀大模型、腾讯混元助手大模型等 110 款深度合成服务算法通过 备案。随着国产大模型陆续向公众开放服务,有望加速产品落地进程及模型迭代飞轮, 并驱动 AI 的商业化变现。
产业结构:大模型是重要一环,AI 时代的入口之争。从 AI 产业结构来看,大模型是 连接底层算力和上层应用的重要一环,成熟的大模型能力和生态是真正实现通用人工智 能和未来应用端繁荣的基础,拥有更强计算和推理能力、更高通用性的大模型企业有望 把握 AI 时代的流量入口和话语权。
竞争态势:格局明晰尚需时间,看好互联网巨头领 先优势
发展阶段:国内大模型百家争鸣,格局明晰尚需时间
全球:中美领先发展,但行业格局或将相对独立。从全球范围来看,中美在大模型 领域引领全球发展。其中,基于在算法模型研发上的领先优势,美国大模型数量居全球 首位,根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合发布的 《中国人工智能大模型地图研究报告》,截至 2023 年 5 月,美国已发布 100 个参数规模 10 亿以上的大模型。中国亦积极跟进全球大模型发展趋势,自 2021 年以来加速产出, 如 2021 年 6 月北京智源人工智能研究院发布 1.75 万亿参数量的悟道 2.0、2021 年 11 月 阿里 M6 大模型参数量达 10 万亿等。截至 2023 年 5 月,我国已发布 79 个大模型,在全 球范围占据先发优势。但考虑到数据安全、隐私合规以及科技监管等因素,我们认为中 美的大模型市场有望形成相对独立的行业格局。
海外:OpenAI 及谷歌双龙头+Meta 开源追赶+垂类特色厂商的格局已较为清晰。从 海外大模型格局来看,目前已经形成较为清晰的双龙头领先+Meta 开源追赶+垂类繁荣的 格局。同时,基于通用大模型能力已相对成熟可用,其上的应用生态已逐渐繁荣。得益于对先进算法模型的集成以及较早的产品化,OpenAI 不仅展现了 GPT 在 人机对话中的超预期表现,同时基于 GPT 的应用生态也已逐渐繁荣,微软数款 产品(Bing、Windows 操作系统、Office、浏览器、Power Platform 等)、代码 托管平台 GitHub、AI 营销创意公司 Jasper 等均已接入 GPT。谷 歌 在 人 工 智 能 领 域 持 续 投 入 , 其 提 出 的 IeNet 卷 积 神 经 网 络 模 型 、 Transformer 语言架构、BERT 大语言模型等均对全球人工智能产业产生重要推 动。但由于公司团队变动及更谨慎的产品化落地的态度,谷歌前期尚未大规模 推出面向 C 端的 AI 产品。在 ChatGPT 快速流行的带动下,谷歌亦推出聊天机 器人 Bard 及 PaLM2,并将接入谷歌的协作与生产力工具 Workspace 以及与 Spotify、沃尔玛、Uber Eats 等外部应用融合。Meta 通过开源方式快速追赶,7 月发布最新开源大模型 LLaMA 2,使用 2 万亿 tokens 训练,上下文长度翻倍,实现了更强大的表现能力和更广泛的应用场景。此外,Anthropic、Cohere、Hugging Face 等基于各自的垂类特色和定制化服 务也在海外 AI 市场中扮演着重要角色。
国内:大模型投入如火如荼,格局明晰仍需时间。ChatGPT 获得良好用户反响并在 全球范围引发关注以来,中国头部科技企业(阿里、百度、腾讯、华为、字节等)、新兴 创业公司(百川智能、MiniMax 等)、传统 AI 企业(科大讯飞、商汤科技等)以及高校研 究院(复旦大学、中科院等)亦加速大模型领域投入。当前国内大模型仍处研发和迭代 的早期阶段,各个大模型的性能差异及易用性仍在市场检验的过程当中,我们预计国内 大模型领域竞争格局的明晰仍需一定时间。
竞争要素:技术投入、核心人才和应用场景构成核心壁垒
技术投入、核心人才和应用场景构成核心壁垒。我们认为,大模型是一个重资源禀 赋、高进入门槛的赛道,其对算法模型的有效性、高质量的数据、算力的支撑能力均有 极高要求,模型的优化迭代亦有赖于资金和人才的持续投入。此外,大模型的实际落地 和行业应用能力也是市场检验的重要标准。
模型架构:理论创新与工程实践有效分离,加速 AI 技术创新效率。2017 年 transformer 模型的出现,以及引入的自注意力机制,推动 AI 在语言类问题(NLP 等)上 取得快速进展的同时,亦先后扩展至图像生成、音视频生成、计算机视觉等领域,并逐 步成为众多 AI 算法的底层基础。各类算法输入数据规模、模型参数的指数级增长,以及 模型 scale 带来更优的计算精度、问题泛化求解能力等,推动大模型快速普及,据 Percy Liang、Rishi Bommasani、李飞飞等人在 2021 年论文《On the Opportunities and Risk of Foundation Models》中提及,具有“表达能力、可扩展性、多模态性、记忆容量和组 合性”特征的大模型将成为学术研究的核心方向,并成为 AI 产业的底层基础模型 (foundation model)。ChatGPT 的成功表明,算法架构+工程实践的有效结合,经过 fine-tuning 之后的基础模型部署于各类应用场景,将能显著改善 AI 技术研发效率、产业 化门槛。我们判断,基础模型理论创新将逐步回归至科研机构、科技巨头等,而众多算 法企业的差异化能力将进一步向工程实践领域迁移,并成为下游应用场景厂商紧密的合 作伙伴。
大模型训练对算力及资金均提出极高要求。我们对 ChatGPT 单次训练成本进行测算, 假定预训练单次,且训练过程中没有出现错误时的成本。实际情形中,考虑到训练过程 中出现工程类错误的可能性,实际成本会高于我们计算的理想情况成本。假设参数量为 175B、训练数据 500B Tokens 的情况下,根据《Scaling Laws for Neural Language Models》(Jared Kaplan, Sam McCandlish, Tom Henighan 等)的分析,在使用 256 个 英伟达 HGX A100 服务器(包含 2048 个 A100 GPU 卡)的情况下,模型 FLOPs Utilization(MFU)假设为 Megatron-LM 的 51.04%,我们推测单次训练时长约为 30.7 天,对应约 151 万 GPU 小时。假设训练使用成本价约为 1 美元/GPU 小时的情况下,耗 费服务器端成本约为 151 万美元。
数据:高质量的数据,能够为模型自身的学习、迭代,以及对推理能力的训练带来 正向影响。按照当前 LLM 的技术范式,数据集主要应用于预训练和模型调优阶段。预训 练阶段需要大规模、多类别、高质量的训练数据,在模型调优阶段,垂类小数据集、提 示词工程同样重要。近年来全球数据量呈现爆发式增长,据 IDC 统计,2019 年全球产生 的数据量为 41ZB,过去十年的 CAGR 接近 50%,IDC 预计到 2025 年全球数据量或高达 175ZB,2019-2025 年仍将维持近 30%的复合增速,其中超过 80%的数据都将是处理难 度较大的文本、图像、音视频等非结构化数据。从 Bert 开始到 GPT-3 再到谷歌的 PALM, 网络中的公开语言数据源已经在被尽可能地利用(论坛、新闻、维基百科等),但模型优 化仍需更多数据,这要求模型开发商有能力接触到优质私有数据来源,从而才能在模型 的数据底层取得差异性优势。
场景:应用落地时检验模型能力的重要标准。一方面,通用大模型与行业场景结合, 在带来生产力和效率的实质性提升后才能真正实现普及。另一方面,大模型结合行业应 用落地后,更多的真实用户反馈也有望加速大模型的优化迭代,从而不断强化模型能力。
格局推演:有望形成互联网巨头主导+垂类厂商共存的格局
历史积累:互联网巨头具备先发优势,芯片层、模型层、应用层布局完备。互联网 巨头在 AI 领域投入已久,百度 2014 年即成立人工智能实验室,阿里、腾讯、字节跳动 也于 2016 年成立人工智能实验室,此后各家在芯片层、模型层及应用层持续探索,不断 完善布局,在研发、模型、数据、应用等方面已积累显著的先发优势。
算法模型:追随海外技术进展,研发突破是竞争关键。从技术路线来看,国内大模 型主要追随海外进展。基于谷歌在人工智能领域更高的影响力以及 BERT 开源代码,前 期我国企业在大模型领域的探索更多参考 BERT 路线。随着 ChatGPT 在人机对话领域的 超预期表现验证了高质量数据+反馈激励(大模型预训练+小数据微调)的有效性,国内 大模型技术路线也逐渐向 GPT 方向收敛。我们认为,尽管模型架构设计的不同对特定任 务上的表现有一定影响,但国内大模型厂商在技术上基本同源,从而导致了现阶段较为 相似的模型能力,而下一阶段对于 GPT 方向的研发突破将是竞争关键。
算力:互联网厂商在算力资源上具备优势。随着模型参数和复杂度的提升,大模型 对算力的需求也在加速增长。当前国内已发布的大模型中,参数规模达到千亿及以上的 厂商仅为 10 个左右,一定程度上体现出各厂商之间算力能力的差异。我们认为,互联网 厂商在算力资源上具备相对优势,主要原因系:1)互联网企业业务布局多元,用户基数 庞大,海量数据高频更新,使得互联网企业自身对算力有大量需求,阿里、字节、百度、 腾讯等头部互联网企业是全球芯片及服务器领域的重要客户。2)阿里云、百度云、腾讯 云等为国内头部云厂商,在云计算中心、AI 算力平台、超算中心等新型高性能计算基础 设施上布局领先,如阿里云推出 PAI 灵骏智算服务,提供覆盖 AI 开发全流程的平台和分 布式异构计算优化能力;腾讯云发布新一代 HCC(High-Performance Computing Cluster)高性能计算集群,算力性能较前代提升高达 3 倍。
数据:优质开源中文数据集稀缺,自有数据及处理能力构成模型训练壁垒。得益于 开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严 谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加 丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成 本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较 大差距,数据来源较为单一,且更新频率较低,从而导致模型的训练效果受限。因此, 大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网 时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠 加更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。例如,阿 里在研发 M6 时,构建了最大的中文多模态预训练数据集 M6-Corpus,包含超过 1.9TB 图像和 292GB 文本,涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源,并 设计了完善的清洁程序以确保数据质量。百度 ERNIE 模型的训练数据集中也运用了大量 百度百科、百度搜索以及百度知识图谱等生态内数据,通过更高质量的数据保障了模型 的训练效果。
资源投入:互联网厂商重研发投入,资金及人才实力领先。大模型的训练需要较高 且可持续的研发投入,头部互联网企业兼具高资本密度和高人才密度优势。资金方面, 2022 年,腾讯/阿里/百度研发费用达 614/567/233 亿元,明显领先于行业相关公司。人 才方面,根据脉脉人才库,在计算机视觉、深度学习、语音识别、自然语言处理 4 个人 工智能重要的技术方向上,互联网大厂是人才储备最丰富的企业。持续的高研发投入以 及极高的人才密度有望驱动头部互联网企业保持在 AI 及大模型领域的领先优势。
场景:业务丰富多元,互联网厂商天然具备落地实践场景。考虑到数据隐私和安全 合规,初期通用大模型在行业落地时可能会面临一定的信任问题,从而导致较高的获客 成本。而头部互联网平台基于自身在电商、搜索、游戏、金融等领域丰富的业务积累, 天然具备落地实践场景。在提高产品效率的同时,也有望率先形成示范效应,从而有助 于外部客户和应用的拓展。
格局推演:互联网巨头有望保持领先地位,中小厂商或将面临路径选择。综合上述 分析,结合行业竞争要素,并参考海外当前竞争格局,我们认为,国内大模型赛道有望 形成与海外相似的产业趋势,兼具技术、资金、人才和场景优势的头部互联网企业有望 成为大模型领域的重要玩家,而中小厂商或将面临路径选择。一方面,中小厂商可以利 用自身在垂类场景和数据层面积累的优势,成为聚焦垂类的核心特色玩家;另一方面, 基于训练和用户调用带来的算力需求的激增,考虑到资源优势和经济性,中小厂商或将 寻求云厂商的支持和合作。
互联网大模型对比:短看技术突破,长看生态壁垒
历史积累:百度、阿里技术积累深厚,大模型已实现良好性能
本章节,我们对国内头部互联网企业在 AI 领域的发展现状、自研布局以及对外投资 进行了梳理。从时间线上看,国内头部互联网企业阿里、百度、腾讯、字节均在 2014- 2016 年间成立人工智能实验室,但此后在发展思路和框架布局上各有侧重。我们认为, 阿里、百度更偏重对底层技术的投入,兼具先发优势和完备自研布局,目前推出的大模 型产品已实现良好的中文对话能力。腾讯在 AI 领域亦积极跟进,并于 2022 年 12 月公布 万亿中文 NLP 预训练模型混元的最新进展;同时,腾讯在大模型领域也保持了开放的投 资风格,与企业共同成长。字节此前在 AI 领域的投入更多与自身业务相关,如音视频识 别、内容创作、AR/VR 等,算法能力突出,但在大模型领域的积累则相对薄弱,推出火 山方舟,通过 MaaS 的方式积极参与行业竞争。
阿里巴巴:AI 自研投入已久,数据、算法及算力积累上已占据领先身位。作为国内 头部科技企业,阿里在人工智能等前沿科技方向上早有投入,2014 年即成立了数据科学 与技术研究院,2016 年成立人工智能实验室,2017 年成立达摩院,后续成立 AI 芯片自 研团队作为算力支持,并陆续发布了中文社区最大规模预训练语言模型 PLUG 和多模态 大模型 M6。同时,阿里在电商、智慧城市等业务中积极运用深度学习等智能化技术,通 过技术进步提升业务效率。我们认为,基于在数据、算法和算力上的沉淀,阿里在国内 人工智能和大模型竞速中已占据领先身位。
对外投资:广泛布局,打造 AI 生态圈实现共赢。除自研投入外,阿里也在 AI 核心 产业环节积极进行对外投资,在芯片领域投资寒武纪、深鉴科技等,机器视觉和深度学 习领域投资商汤科技、旷视科技等,应用领域投资小鹏、小 i 机器人等。通过 AI 领域的 广泛布局,阿里巴巴有望与相关企业形成协同效应和战略合作,进一步实现效率提升和 业务拓展,通过打造 AI 生态圈的方式实现共赢。
技术架构:IaaS+PaaS+MaaS 重新定义 AI 架构。面向新的 AI 时代,阿里云重新定 义了 IaaS+PaaS+MaaS 的三层技术体系。IaaS 层,阿里云专门为 AI 设计了云基础设施, 包括异构计算、高效高速的网络存储等。同时,在训练方面提供灵骏计算集群,在推理 方面提供弹性计算 ECS 集群,通过更加稳定高效的基础设施为 AI 发展提供坚实的基础。PaaS 层,阿里云基于长期的技术和软件能力积累提供了丰富的大数据及机器学习产品, 从数据清洗、特征工程训练等方面助力模型训练。此外,阿里云于 2022 年 11 月推出魔 搭社区,提出 MaaS(model as a service),通过打造大模型开源社区和生态共建的方式 加速模型发展及迭代。
百度:深耕十年,全栈自研构筑核心壁垒。基于自身业务需求和浓厚的工程师文化, 百度始终重视对 AI 的投入,2011 年在硅谷开设办公室,并在 2017 年提出“All in AI”的 公司战略。从 AI 技术体系来看,百度是国内少数在 AI 领域全栈自研布局的公司之一,在 芯片层、框架层、模型层和应用层均有自研投入,已形成一定的产业生态和影响力。
对外投资:长期投入,加速布局大模型领域。百度长期关注人工智能赛道,坚持布 局前沿科技领域,在芯片、大模型、AI+制药、应用等领域均有投资。2023 年以来,随 着 ChatGPT 引发新一轮 AI 产业热潮,百度亦加速在 AIGC 及多模态大模型领域的布局, 先后投资 text-to-video 生成技术与社区的初创企业 Morph Studio、人工智能公司西湖心 辰及多模态大模型公司生数科技,有望进一步完善公司的 AI 生态布局并加快协同发展。
芯片+框架+模型+应用全栈自研布局,强化内部反馈迭代。百度在 AI 领域全栈自研 布局,芯片层,百度已有两代自研昆仑芯实现量产,预计第三代昆仑芯将于 2024 年初实 现规模上市;框架层,百度飞桨经过 6 年开发并逐渐成熟后,成为中国首个开源开放、 功能完备的端到端深度学习平台,截至 2022 年 11 月,百度飞桨已有 535 万开发者,服 务了 20 万家企事业单位,创建了 67 万个模型;模型层,百度最早于 2019 年推出文心大 模型并不断迭代,并于 2021 年发布百亿级大模型文心 ERNIE 3.0 和千亿级大模型文心ERNIE 3.0 Titan;应用层,百度推出生成式 AI 对话产品文心一言以及面向企业客户的文 心千帆大模型平台,积极通过实践场景验证大模型能力。我们认为,百度全栈自研布局 的优势在于各层之间的反馈有望进一步驱动技术能力的优化,提升迭代效率。
腾讯:重视 AI 发展,内生+外延双轮并驱。腾讯 2016 年成立 AI Lab,并在 2017 年 提出“make AI everywhere”的战略愿景,2018 年建立以人工智能与前沿科技为基础的 两大实验室矩阵。根据腾讯 RoboticsX 实验室微信公众号,截至 2022 年底,腾讯 AI Lab 已累计在 AAAI、CVPR、ACL、ICML、NeurIPS 等国际顶级 AI 学术会议或期刊发表超 780 篇文章,并持续推动 AI 与机器人、数字内容生成、生命科学、医疗医药、游戏等行 业应用的结合。对外投资方面,根据 IT 桔子,截至 2022 年底,腾讯共投资 53 家国内 AI 公司,多次投资 AI 算力芯片公司燧原科技、企业级认知智能服务平台明略科技等,并在 2023 年投资深言科技、MiniMax、光年之外等大模型企业。在大模型领域,腾讯仍然保 持以投资见长的风格,有望与企业共享成长果实。
腾讯:从 MaaS 切入大模型赛道,算力支持及应用工具完备。6 月 19 日,腾讯云首 次正式公布行业大模型研发进展,并发布面向 B 端客户的腾讯云 MaaS 服务解决方案。有别于阿里、百度等直接发布大模型产品,腾讯率先以 MaaS 的方式切入大模型赛道, 在金融、文旅、政务、传媒、教育等 10 大行业提供超 50 个解决方案,以更懂行业、更 易落地的方式满足企业需求。同时,腾讯 TI 平台提供数据标注、训练、测试、评估、部 署等全套工具,技术底座提供 HCC 高性能计算集群、向量数据库等算力支撑,以保障行 业大模型的运行效果。
字节跳动:2023 年成立大模型团队,搜索、智创两部门牵头。字节跳动于 2016 年 成立人工智能实验室,将其定位为公司内部的研究所和技术服务商,为平台输出的海量 内容提供 AI 技术支持。此前公司 AI 研究成果主要与业务相结合,研发重点集中在机器翻 译、智能语音、视频图像和多模态等领域,而大模型相关积累相对薄弱。根据 36 氪,字 节跳动语言大模型团队在今年组建,由搜索部门牵头;图片大模型团队则由产品研发与 工程架构部下属的智能创作团队牵头。
字节跳动:从 MaaS 切入,应用先行丰富行业经验。6 月 28 日,火山引擎发布大模 型服务平台火山方舟,面向企业提供模型精调、评测、推理等全方位平台服务,已接入 百川智能、复旦大学 MOSS、澜舟科技、MiniMax、智谱 AI 等多家 AI 科技公司及科研院 所的大模型,并已对外启动邀测。我们认为,由于前期在大模型领域的积累相对薄弱, 通过 MaaS 的方式切入大模型赛道是更具可行性的方式。一方面,通过 MaaS 模式为需 求方提供丰富多元、灵活选择、具有性价比的大模型使用方式;另一方面,行业应用的 落地和行业经验的积累也有望反哺字节自身在大模型领域的积累和迭代。
核心人才:关注人才密度与粘性,兼顾基础研发与业务落地
(本文仅供参考,不代表我们的任何投资建议)
文琳编辑
免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl 微信联系删除。
为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!
《文琳资讯》
提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注
今日导读:点击下面链接可查阅