查看原文
其他

LLama-3 简介

renee创业狗 Renee 创业随笔
2024-10-09

这两天一直在看斯坦福《2024年人工智能指数报告》。今天分个叉,讲一下LLama-3。

首先,让我们来看看2024年4月19日🏆LMSYS Chatbot Arena Leaderboard 的排行榜,LLama-3位居第五。

LLama-3提供了两个版本,分别是8B70B预训练模型,同时支持针对广泛应用场景的指令调优版本。未来计划推出一个参数高达400B的模型。目前400B的大模型尚处于训练阶段,在未来几个月,Meta将推出多款具备新功能的模型,包括多模态能力、支持多种语言交流、更长的上下文窗口以及更强大的整体能力。

目前可以在Meta AI的官网使用 - https://www.meta.ai,也可以下载模型自己部署。- https://llama.meta.com/docs/get-started

接下来,让我们看看官方发布的性能基准测试数据。

模型架构

LLama-3采用了较为标准的单解码器变压器(Transformer)架构。相比于LLama-2,我LLama-3中实施了几项关键改进:LLama-3使用了一个包含128,000词汇的分词器,该分词器能够更高效地编码语言,从而显著提升模型性能。为了提高模型的推断效率,无论是8B还是70B版本,都采用了分组查询注意力(Grouped Query Attention,GQA)技术。此外,训练模型处理长达8,192个词汇的序列,并使用遮罩以确保自注意力不跨越文档边界。

训练数据

LLama-3预训练了超过15万亿词汇,全部来自公开资料。此数据集是LLama-2的七倍大,且编程内容多四倍。为适应多语言需求,超过5%的数据覆盖30多种语言,但非英语表现或稍逊。开发了多种数据过滤技术,如启发式过滤、成人内容过滤、语义去重和质量预测分类器,以保证数据质量。这些技术帮助LLama-3在多种应用场景下都能保持良好表现。

扩展预训练

在LLama-3模型的预训练中,通过制定详尽的扩展法则来高效利用预训练数据,从而优化数据组合并明智地使用训练计算资源。这些扩展法则还能帮助预测最大模型在关键任务上的表现,如代码生成的HumanEval基准测试。

在开发LLama-3期间,对模型扩展行为进行了新的观察。例如,虽然一个8B参数模型的理想训练计算量约为200B词汇,但Meta团队发现在数据量增加十倍后,模型性能仍在提升。8B和70B参数模型在训练至15万亿词汇后,性能依然按对数线性增长。

为了训练LLama-3的大型模型,我用了数据并行、模型并行和流水线并行三种并行化技术。在16K GPU同时训练时,达到了每GPU超过400 TFLOPS的计算利用率。还在两个自建的24K GPU集群上进行了训练,同时开发了新的训练架构,自动化错误检测和处理,显著提高了GPU的运行时间效率。此外,改进了硬件可靠性和静默数据损坏的检测机制,开发了新的可扩展存储系统,减少了检查点和回滚的开销。这些改进使得LLama-3的训练效率比LLama-2提高了约三倍。

Fine-Tuning

为了最大限度地发挥预训练模型在聊天应用中的潜力,团队也创新了指令微调的方法。这包括监督式微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)。SFT中使用的提示质量以及PPO和DPO中使用的偏好排名,对模型性能有显著影响。通过精心策划这些数据并对人工注释者提供的注释进行多轮质量保证,实现了模型质量的显著提升。通过PPO和DPO学习偏好排名,显著提升了LLama 3在推理和编程任务上的表现。即使模型在回答推理问题时遇到困难,它有时也能生成正确的推理轨迹:模型知道如何产生正确答案,但不知道如何选择它。通过偏好排名训练,模型学会了如何做出选择。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存