查看原文
其他

AI大模型 | 新需求&新趋势

凌宇时代 时代凌宇
2024-09-09


本期是第1[ AI大模型 ] 

第四章 新需求&新趋势 


引言


前几章内容向大家介绍了AI大模型的基本概念、种类区别和行业应用。本章内容我们邀请到了北京科技大学自动化学院生物启发与智能计算梯队的硕、博研究生,与我们一起挖掘大模型发展的新需求和新趋势。


大模型发展的三个核心要素

大模型作为一条新的技术路径,对人工智能算法的研究与实践产生了重要的影响,间接带动了其它人工智能领域的技术改进与升级,其取得成功的关键有三点:

01


规模扩展

在较早期的研究中,OpenAI 从参数、数据、算力三个方面深入地研究了规模扩展对于模型性能所带来的影响,建立了定量的函数关系,称之为“扩展法则”(Scaling Law)

可拓展的Transformer 训练架构与学习范式能够拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为预测下一个词,即“上下文学习”,这一通用学习范式。


GPT 系列模型技术发展的历程图

02


数据工程

在通用的预训练范式下,模型能力本质上取决于所用的训练数据。全面的数据采集、高质量的数据来源、精细的数据清洗、有效的数据配比与数据工程,能加强模型对于数据语义信息的利用效率。

目前针对英文的开源高质量数据集合比较丰富,高质量、超大规模中文数据工程技术仍需要广泛加强研究。


03


高效预训练方法

大模型由于参数规模巨大,需要使用大规模分布式训练算法来优化神经网络的参数。

为了有效支持分布式训练,很多研究机构发布了专用的分布式优化框架来简化并行算法的实现与部署,其中具有代表性的分布式训练软件包括DeepSpeed、Megatron-LM 等,能够有效支持千卡甚至万卡的联合训练。

数据爆炸及参数增长导致算力需求激增

“无算力、不模型”,当前大模型的实现,需要强大的算力来支持训练过程和推理过程。根据Open AI数据,训练GPT-3 175B的模型,需要的算力高达3640 PF-days(即以1PetaFLOP/s的效率要跑3640天)。

2018年以来,大模型的参数量级已达到数千亿参数的量级规模,对算力的需求将呈现指数级增长。


2018-2022年大模型参数增长变化趋势


传统算力体系中的普通服务器采用串行架构,主要由CPU提供算力,在进行逻辑判断时需要大量分支跳转处理,CPU结构复杂,算力提升主要依靠核心数的数量提升,目前单个CPU的核心数已经接近极限。爆炸式增长的数据、逐步复杂的算法模型、不断深入发展的应用场景,使得普通服务器已无法满足不断增长的算力需求。


各个模型所需计算量及参数量

(来源:澎湃新闻,Open AI,平安证券研究所)


AI芯片成为行业发展的助推剂


根据《COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING》研究结果,AI芯片的性能提升已经成为决定大模型从理论实践到大规模应用的关键要素。


在供给端,众多AI芯片厂商推出了性能越来越强的新产品来应对不断上涨的算力需求。以英伟达为例,A100相比上一代的V100性能涨幅约3倍,第九代H100在AI 推理速度方面又比A100提升了30 倍。近日发布的B200的晶体管数量达2080亿个,约为H100的2.5倍。值得一提的是,英伟达已经在2023年超越高通,成为全球收入最高的芯片设计厂商。


人工智能不同时代对算力翻倍的需求时间


英伟达芯片性能比较
(来源:《COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING)


大模型的应用新趋势

01


下一代人机交互,加速世界迈入更智慧的AI时代

在真实业务场景中,用户的需求通常较为灵活多变,很多任务的解决方案可能需要多次迭代。


大模型可以被视为是一种人机协同系统,用户给出输入与模型交互,模型生成响应,并根据用户的反馈进行调整和改进。


目前市场上已经出现了多种基于人机交互打造的产品。例如将文字转化为生动的声音,为用户带来全新阅读体验的有声书;通过构建逼真的虚拟数字人,实现与客户的智能交互,提升服务质量和效率;模拟实战场景,帮助警员更好掌握应对各种复杂情况的智慧公安科创方案等。这些应用不仅展现了人机交互技术的巨大潜力,更为我们描绘了一个更加智慧、便捷的未来世界。


多类应用场景中的人机交互
(来源:《AIGC应用与实践展望报告:人工智能重塑内容产业的作业模式》)

02


模拟环境的推荐服务,助力打造更加精准的客户画像

大模型在用户偏好理解、跨领域推荐、冷启动推荐等复杂推荐场景中展现出较强的性能。LLM可作为推荐模拟器,为推荐系统中的每位用户构建一个智能体。

以RecAgent为例,为每个智能体集成用户画像模块、记忆模块和动作模块,通过模拟用户和物品在真实推荐系统中的交互行为场景,进而帮助改善用户稀缺场景下的推荐系统服务。

RecAgent的模拟环境

(来源:《RecAgent: A Novel Simulation Paradigm for Recommender Systems》)


03


大模型走向多模态,实现复杂业务场景下的智能决策

多模态大模型(MM-LLM)以融合为核心,基于五大核心技术环节:表征、翻译、对齐、融合、联合学习,解决复杂问题——视觉理解、视觉生成、统一视觉、LLM 支持、多模态 Agent 等。

其训练可以被分为多模态理解与多模态生成两个步骤。多模态理解包含多模态编码器,输入投影与大模型主干三个部分,而多模态生成则包含输出投影与多模态生成器两个部分。

多模态大模型的一般模型体系结构和每个组件的实现选择

(来源:《MM-LLMs: Recent Advances in MultiModal Large Language Models》)

多模态大模型能够处理和整合多种模态信息(比如文本、图像和音频),更接近人类接收、处理和表达信息的方式,与现实世界融合度高,能更好地拓展应用场景,极大促进提升任务解决能力,推动人工智能迈向通用人工智能。

多模态大模型发展的时间轴

(来源:《MM-LLMs: Recent Advances in MultiModal Large Language Models》)


【参考】
人民大学高瓴人工智能学院 Zhao W X, Zhou K, Li J, et al. A survey of large language models[J]. arXiv preprint arXiv:2303.18223, 2023.
大语言模型中文版电子书(最新版本于2024年4月底更新)
AI算力行业分析报告:供需格局、产业发展前瞻、产业链及重点公司梳理



大家对AI大模型有任何想法和见解

欢迎评论区留言,一起探讨~


---

内容:李晓萌

校对:李宇凡

排版:龚泓月


-- 推荐阅读 --


继续滑动看下一个
时代凌宇
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存