中国人民大学口述史研修班预热(二)| 曾一杰:人工智能大语言模型(LLM)最新进展和行业应用
中国人民大学口述史研修班(第一期)
负责人工智能大模型产品研发和基础设施建设,从无到有建立了澜舟工程研发团队,成功开发了澜舟MengziGPT大模型产品矩阵,并在金融、文娱、翻译、客服等行业实施落地。曾在网易集团工作近十年,担任高级技术总监、资深技术专家,管理超过500人技术团队,在分布式系统、账号系统、测试、运维、网络和安全等领域都有丰富实战经验。
北京澜舟科技有限公司(简称澜舟科技)成立于 2021 年,是一家业界领先的认知智能公司,致力于以自然语言处理(NLP)技术为基础,为全球企业提供新一代认知智能平台,助力企业数字化转型升级。其主要产品是基于“孟子预训练模型”打造的一系列功能引擎(包括搜索、生成、翻译、对话等)和垂直场景应用。
AI大模型专题报告:大语言模型(2024)
研究报告内容摘要如下2022 年底,ChatGPT 震撼上线,大语言模型技术迅速“席卷”了整个社会,人 工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,我们不禁要 问:支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的 思考焦点。
大语言模型对科技发展的影响
大语言模型真正令我们震撼的地方是,它与小型预训练语言模型采用了相似 的网络架构以及训练方法,但通过扩展模型参数规模、数据数量以及算力资源,却 带来了令人意料之外的模型性能跃升。大语言模型首次实现了单一模型可以有效 解决众多复杂任务,人工智能算法从未如此强大。
大语言模型对人工智能技术的未来发展方向带来了重要影响,ChatGPT 和 GPT-4 的出现引发了人们对于实现通用人工智能(Artificial General Intelligence, AGI)可能性的重新思考。2023 年 2 月,OpenAI 发布了一篇名为“Planning for AGI and beyond”的技术文章,讨论了实现通用人工智能的短期和长期计划 [32]; 来自微软的研究团队也在一篇 arXiv 论文中详细地展示了 GPT-4 强大的模型性能, 并认为 GPT-4 可能被视为通用人工智能系统的早期版本 [20]。随着大语言模型技术的迅猛发展,人工智能相关研究领域正发生着重要的技术变革,下面以四个典 型的领域进行介绍:
自然语言处理. 在自然语言处理领域,大语言模型可以作为一种通用的语言 任务解决技术,能够通过特定的提示方式解决不同类型的任务,并且能够取得较 为领先的效果。进一步,很多传统任务的研究意义在衰减,甚至有些任务被宣告 “结束”(如摘要任务),研究范式开始全面转向大语言模型技术,研究人员的关注 重点由“解决特定任务”迁移到“如何进一步提升大语言模型的综合能力”。语言 智能开始成为主导人工智能发展方向的重要路径。
信息检索. 在信息检索领域,传统搜索引擎受到了人工智能信息助手(即 ChatGPT)这一新型信息获取方式的冲击。在基于大语言模型的信息系统中,人们 可以通过自然语言对话的形式获得复杂问题的答案。微软也推出了基于大语言模 型增强的搜索引擎 New Bing,将大语言模型与传统搜索引擎进行融合。但是,目 前大语言模型信息系统的精确性与实时性还有待提升,无法完全胜任现有搜索引 擎的角色。鉴于大语言模型与搜索引擎各自的优势,信息检索领域主要关注两个 新兴方向的研究,即检索增强的大语言模型以及大语言模型增强的搜索系统,全 面围绕大语言模型技术展开。
计算机视觉. 在计算机视觉领域,研究人员为了更好地解决跨模态或多模态 任务,正着力研发类 ChatGPT 的视觉-语言联合对话模型,GPT-4 已经能够支持图 文多模态信息的输入。由于开源大语言模型的出现,可以极大地简化多模态模型 的实现难度,通过将图像、视频等模态的信息与文本语义空间相融合,可以通过 计算量相对较少的微调方法来研发多模态大语言模型。进一步,基于下一个词元 预测的思路也可能会带来多模态领域的基础模型架构的转变,例如 OpenAI 最新 推出的 Sora 模型就是基于图像块序列建模的思路进行构建的。
人工智能赋能的科学研究(AI4Science). 近年来,AI4Science 受到了学术 界的广泛关注,目前大语言模型技术已经广泛应用于数学、化学、物理、生物等 多个领域,基于其强大的模型能力赋能科学研究。例如,著名数学家陶哲轩曾多 次在社交网络表示,他在数学科研中广泛使用大语言模型,用于辅助提供解题灵 感甚至用于论文的撰写。此外,大语言模型也多次被证明在新材料发现、生物制 药等多个方面都能起到一定的促进作用。随着大语言模型训练数据规模与范围的 扩展,在未来将会在人类科学研究中扮演更为重要的角色。 除了在特定学科领域的应用,大语言模型对于整体的科研范式也正产生着重要影响。
为了有效提升大模型的性能,研究人员需要深入了解大模型相关的工程 技术,对于理论与实践的结合提出了更高的需求。例如,训练大模型具备大规模 数据处理与分布式并行训练方面的实践经验。进一步,大语言模型将改变人类开 发和使用人工智能算法的方式。与小型预训练语言模型不同,访问大语言模型的 主要方法是通过提示接口(Prompting Interface),例如 GPT-4 API。为了更好地发 挥模型性能,使用者需要了解大语言模型的工作原理,并按照大语言模型能够遵 循的方式来描述需要解决的任务。
此外,大语言模型对于产业应用带来了变革性的技术影响,将会催生一个基 于大语言模型的应用生态系统。例如,微软 365(Microsoft 365)正利用大语言模 型(即 Copilot)来加强自动化办公软件的自动化办公工作;OpenAI 也进一步推动 Assistants API 和 GPTs 来推广大模型智能体(Agent)的研发,从而实现特定任务 的求解工具。在未来,将出现更多的以大语言模型为基础技术架构的科技应用产 品,简化原来繁复的功能处理流程,加快软件研发周期,极大地改善用户体验。
Transformer 模型
当前主流的大语言模型都基于 Transformer 模型进行设计的。Transformer 是由 多层的多头自注意力(Multi-head Self-attention)模块堆叠而成的神经网络模型。原 始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以 独立使用,例如基于编码器架构的 BERT 模型 [13] 和解码器架构的 GPT 模型 [14]。 与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量 维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对 于 Transformer 本身的结构与配置改变并不大。本部分内容将首先介绍 Transformer 模型的基本组成,包括基础的输入、多头自注意力模块和前置网络层;接着分别 介绍 Transformer 模型中的编码器和解码器模块。
信息检索中的大语言模型
大语言模型对于传统信息检索技术与应用范式带来了重要影响。这两者在技 术路径上具有紧密的互补性。大语言模型拥有强大的语言理解、推理与生成能力, 能够助力构建更为智能的信息检索系统;而信息检索技术能够高效地从外界获取 所需要的相关信息,可以为大语言模型提供更为精确、可靠的上下文信息。本部 分将概要介绍如何利用大语言模型提升信息检索效果,以及检索增强的大语言模型,图 13.2 展示了具体样例。
多模态大语言模型
多模态大语言模型(Multimodal Large Language Model, MLLM)主要是指那些 能够处理和整合多种模态信息(比如文本、图像和音频)的大语言模型。本节内容 将以视觉-语言大语言模型1为例,对相关技术进行介绍,类似的技术也可扩展到其 他模态(如音频-语言)。多模态大语言模型的模型结构和训练数据如图 13.4 所示。 通常来说,多模态大语言模型主要由一个用于图像编码的视觉编码器和一个用于 文本生成的大语言模型所组成,进一步这两个模型通过连接模块进行组合,从而 将视觉的表示对齐到文本语义空间中。在文本生成的过程中,图像首先被分割成 图像块(Patch),然后通过图像编码器和连接模块转换成图像块嵌入,以得到大语 言模型可以理解的视觉表示。随后,图像块嵌入和文本嵌入进行拼接并输入到大语言模型中,使得大语言模型可以自回归地生成文本回复。下面将讨论多模态大 语言模型的训练、评测、代表性模型,以及应用建议与未来方向。
报告原文节选如下:
以上部分内容转载自“幻影视界”公众号
中国人民大学口述史研修班(第一期)报名(点击下方海报链接)为深入推进口述史学科建设,提升口述史工作者的理论素养和实践能力,中国人民大学历史学院特举办“口述史研修班(第一期)”。本期研修班将邀请国内口述史研究领域的知名专家学者授课,内容涵盖口述史的理论、方法与应用等多个方面。通过前沿理论讲座、经典案例分析、实地参访与互动交流等多种形式,本期研修班将帮助学员深入认识与理解口述史的学术价值和社会意义,提升口述史研究和应用能力。
完成全部课程学习并考核合格者,由中国人民大学颁发《中国人民大学口述史研修班(第一期)》结业证书,证书统一编号,可登陆中国人民大学终身学习服务平台查询。
往期精彩回顾
END