查看原文
其他

最强开源LLM -- Llama 3 迎来首波加强|中文化 + 轻量化 + 微调免费化

AI沃茨 卡尔的AI沃茨
2024-11-11

关注卡尔的AI沃茨并设为“星标“第一时间接收最新AI资讯✨

作者:祝豪

动手学AI 教程知识库 👉 learnprompt.pro 你想学的都在这里🎉

在前一阵子Claude 3系列模型的发布之后, OpenAI的遥遥领先的地位也坐不住, 面对GoogleGeminiClaude 3轮番开卷,  OpenAI也没有发布新一代GPT的意思, 但Meta却重拳出击带来了全新的Llama 3!

在他们的介绍Blog中, 他们自己给Llama 3的标签是最强大的公开可用的LLM,这篇文章我就来带大家了解一下最新发布的Llama 3!

最先进的开源LLM

最新一代Llama 3具备两个型号,分别具备8B和70B参数.

Meta也在Blog中说到他们对Llama 3的目标是想构建与当今最好的专有模型相媲美的最佳开放模型(开源万岁!), 相比较与其他闭源大模型, Meta这一波还是非常伟大的!

而且他们的目标让 Llama 3 实现多语言和多模式,具有更长的上下文,并继续提高推理和编码等核心 LLM 功能的整体性能。

最先进的性能

从这份基准测试的表格中,我们可以看到Llama 3的这两个版本在同量级的模型还是有着不错的表现.

Llama 3 8B可以说是秒杀同级别的模型!而70B 已经与前段时间发布广受好评的Claude 3 Sonnet媲美了,甚至还稍稍领先,想对比较与Claude 3频繁封号, Llama 3 可以完美替代了!

在 Llama 3 的开发过程中,Meta 研究了标准基准上的模型性能,并为寻求优化实际应用场景的性能, 创建了一套新的高质量人类评估集,该集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。

为了防止 Meta 的模型在此评估集上意外过度拟合,Meta 自己的建模团队都没有访问权限。上图显示了 Meta 对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果.

甚至连Llama 3预训练模型都有着不错的表现.

并且在LLM排名中 Llama 3 70B 取得了第五名的成绩!

甚至在英语类别中取得了与GPT4 Turbo并列第一的成绩!(一个开源模型和OpenAI最新的GPT4 Turbo平手这你受得了吗?!)

模型架构

Llama 3选择了相对标准的decoder-only Transformer 架构.

与Llama 2 相比的改进:

  • Llama 3 使用具有 128K 标记词汇表的标记器,可以更有效地对语言进行编码,从而显着提高模型性能。

  • 在 8B 和 70B 大小上采用了分组查询注意力 (GQA),提高了Llama 3模型的推理效率.

  • 在 8,192 个标记的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

训练数据

更庞大的数据集

Llama 3 经过超过 15T token的预训练, 它的训练数据集比 Llama 2 使用的数据集大七倍,并且包含四倍多的代码。为了应对多语言用例, Llama 3 预训练数据集超过 5% 由涵盖 30 多种语言的高质量非英语数据组成。

更高质量的数据

为了确保 Llama 3 接受最高质量数据的训练,我们开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

并且利用Llama 2识别高指令数据的能力,使用 Llama 2 为为 Llama 3 提供支持的文本质量分类器生成训练数据。

扩展预训练

为了有效利用预训练数据, meta投入了大量精力来扩展预训练, meta为下游基准评估制定了一系列详细的扩展法则, 这能够选择最佳的数据组合,并就如何最好地使用训练计算做出明智的决策.

更重要的是,扩展法则能够在实际训练模型之前预测最大模型在关键任务上的性能(例如,在 HumanEval 基准上评估的代码生成)。这有助于确保最终模型在各种用例和功能上都具有强大的性能。

并且meta还表示:

"为了训练我们最大的 Llama 3 模型,我们结合了三种类型的并行化:数据并行化、模型并行化和管道并行化。

当同时在 16K GPU 上进行训练时,我们最高效的实现可实现每个 GPU 超过 400 TFLOPS 的计算利用率。我们在两个定制的 24K GPU 集群上进行了训练。

为了最大限度地延长 GPU 的正常运行时间,我们开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。我们还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。

这些改进使总体有效培训时间超过 95%。综合起来,这些改进使 Llama 3 的训练效率比 Llama 2 提高了约三倍。"

下一步是什么?

Meta表示Llama 3只是一个开始!接下来会推出更多的产品!他们正在训练一个400B的参数!

在接下来的几个月里,他们将发布多个具有新功能的模型,包括多模态、以多种语言交谈的能力、更长的上下文窗口和更强的整体功能。一旦他们完成 Llama 3 的训练,他们还将发布一份详细的研究论文。

现在Llama 3已集成到 Meta AI 中,可以在 Facebook, Instagram, WhatsApp, Messenger和 他们的网站上使用: https://www.meta.ai/

Llama 3被玩疯了?!

更适合中国宝宝体质的Llama 3

刚发布不久, 就有清华大佬基于Llama 3 8B微调了中文聊天模型Llama3-8B-Chinese-Chat,这是第一个通过 ORPO 在英汉数据集上进行微调的 llama3 模型。

该模型始终能够比 Llama-3-8B-Insturct 对中文提示产生更好的响应,并且在逻辑、编码、数学和写作方面表现出色。

项目地址: https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat


直接上手! Colab微调

unslothai 推出了 微调 Llama-3 8b 模型的 Colab 方案,可以在免费 T4 上运行(有条件的小伙伴还是推荐使用 Colab Pro 的H100 或 A100),Llama3 微调热潮已经袭来!

Colab:https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing

项目地址:https://github.com/unslothai/unsloth

在Ipone 15 pro上跑 Llama 3?
Next level:QLoRA 在 iPhone 15 pro 上微调 4 位 Llama 3 8B。

David Koski 传入的 (Q)LoRA MLX Swift 示例:https://github.com/ml-explore/mlx-swift-examples/pull/46 适用于许多模型(Mistral、Gemma、Phi-2 等)


写在最后

读到这里不知道你是否也认同Llama 3 是最领先的公开模型呢? 我是对Llama 3非常看好, 并且我认为Meta能将这么强的模型公开还是非常伟大的!开源万岁! 同时也期待他们Llama 3 400B的发布! 


最后,谢谢你看到了这里👏 想要第一时间接收到我们的推送,可以点个星标 ⭐ 如果喜欢这篇文章,不妨随手来个 点赞、在看、转发 一键三连👍 你的支持将是我们更新的最大动力!

如果希望一起交流讨论,或参与LLM相关的讨论群,或者建立合作的话,加我个好友位吧!我们在群里会分享最新的LLM相关资料,加我备注“大模型”

aiwarts101


继续滑动看下一个
卡尔的AI沃茨
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存