查看原文
其他

细观察 - Llama-2开源新闻刷屏背后...... 商用?没戏,“中文”被排除在外!

ai汤源 AI范儿 2023-09-14

图|汤源

文|汤源

llama 2随开源新闻放出的技术报告

题记

又是AGI纪元前夜的一天,像往常一样一早5点准时醒来,一打开手机,时间线就被硅谷社区传开的一则“关于llama-2开源且可商用”的消息刷屏了......
作为AI范儿自封的首席提示官(Chief Prompt Officer),一直引导社区交互prompt风格,喜欢写有深度思考的、阅读量寥寥的、有关这波AI现象、本质以及开未来脑洞的公众号文章。
CPO是不屑于扒表面新闻蹭蹭流量的(其实是睡得早错过了,llama-2即将开源的消息在推上已经传了有几天了,一直也有关注),但赶第二波稍微有点深度,又可以和AI²Paradigm范式结合思考,才是CPO眼里追求的有价值的流量。

新闻背后

道听途说不如扒开官方开源文档仔细研读。

“Llama 2及Llama 2-Chat训练流程示意图”
Llama 2: Open Foundation and Fine-Tuned Chat Models

▩摘要
在这项工作中,我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语言模型(LLM),其规模从 70 亿到 700 亿个参数不等。我们的微调 LLM 被称为 Llama 2-Chat,针对对话使用案例进行了优化。在我们测试的大多数基准测试中,我们的模型都优于开源聊天模型,而且根据我们对有用性和安全性的人工评估,我们的模型可能是封闭源模型的合适替代品。我们将详细介绍我们对 Llama 2-Chat 进行微调和安全性改进的方法,以便社区能够在我们工作的基础上,为负责任地开发 LLMs 做出贡献。
▩发布了多个模型:LLAMA 基础模型(7B、13B、34B、70B)和具有相同规模的 LLAMA CHAT应用微调“化身”。Meta 公司 "将预训练语料库的规模扩大了 40%,将模型的上下文长度增加了一倍(达到 4k),并采用了分组查询注意力机制(grouped-query attention)(Ainslie 等人,2023 年)"。
▩模型能力:广泛的基准测试,确信一个70B开源模型达到了 ChatGPT 的水平(当然coding能力除外,笔者注:业界有WizardCoder LM可以改进这一点)。
▩模型成本:大量的预算和投入(例如,如果按市场价格计算,参考数据估计的成本约为 2500 万美元),同时需要非常庞大的团队,和制作一个通用模型的投入人力相当。
▩其他组件:人工反馈强化学习(RLHF)这部分并没有发布奖励模型或数据集。
▩Meta公司组织结构:显示了Meta AI组织变革的迹象--负责这个项目的组织-GenAI,似乎有别于 Yann Lecun 和最初 FAIR 的所有人。
▩代码/数学/推理:论文和 RLHF 过程中对代码数据的讨论并不多。例如,StarCoder的150亿个参数击败了HumanEval的40.8和Python的49.5 MBPP最佳模型。
▩多轮一致性:多轮一致性(multi-turn consistency)的新方法--Ghost Attention(GAtt),灵感来自 Context Distillation。在我们更好地理解如何根据我们的需求训练模型之前,这些方法通常是提高模型性能的黑客手段
▩奖励模型:使用两个奖励模型来避免在 Anthropic 的工作中发现的安全与有用性之间的权衡。
▩数据控制:大量关于分布控制的评论(正如作者所说的,分布控制是 RLHF 的关键)。这很难再现。
▩RLHF 流程:使用两阶段 RLHF 方法,从拒绝采样(Rejection Sampling)开始,然后进行拒绝采样 + 近端策略优化 (PPO),指出 RLHF 极其重要,"LLM的卓越写作能力......从根本上说是由 RLHF 驱动的"。
▩生成:需要根据具体情况调整温度参数(例如,创造性任务需要更高的温度,见技术报告第 5 节/图 21)
▩安全/危害评估:非常非常长的安全评估(几乎占了论文的一半)和详细的情境蒸馏(context distillation)和 RLHF,以确保安全。虽然结果并不完美,也有不足之处,但这是朝着正确方向迈出的一步。
▩使用许可:该模型可用于商业用途,除非您的产品月活跃用户大于等于 7 亿。需要填写表格才能获得访问权限,也可以从 HuggingFace 中心下载模型。(此信息在下载表格 "Llama 2 社区许可协议 "中)。

△附-https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models & https://www.interconnects.ai/p/llama-2-from-meta

先说一个小细节:模型名称的变化,由之前的LLaMA(Large Language Model Meta AI)变成了Llama 2。本次开源的产品其实有两个:
  • 炼丹后的Pre-Trained模型:Llama 2

  • 针对会话任务的微调Fine-Tuned化身模型: Llama 2-Chat

简而言之,LLAMA 2 是 LLaMA“炼丹”配方的延续,在数据质量、训练技术(包括新型研究工件)、能力评估、安全训练和发布责任等方面进行了大量技术扩展。技术研究论文包括所有这些领域的大量细节。总的来说,在人工智能领域,研究共享处于历史最低水平,监管关注处于历史最高水平的情况下,这是 LLM 生态系统迈出的一大步。
基座模型(foundation model)似乎非常强大(超越了 GPT3),而经过微调的聊天模型似乎与 ChatGPT 处于同一水平。这是开源技术的一次巨大飞跃,也是对闭源模型服务商的一次沉重打击,因为使用这种模型将为大多数公司提供更多的可定制性和更低的成本。

▩开源不等于完全免费,更不是没有任何范围限制

开源技术报告中提到不得用于月活MAU大于700M的产品,基本把互联网大厂给限制了,感觉有一点针对Twitter,当然Elon的团队也不用轻易用竞争对手的开源产品。
还有一个限制可能大家都忽略了:报告最后76页-A.7 Model Card的适用场景部分

“以任何违反适用法律或法规(包括贸易合规法)的方式使用。在英语以外的语言中使用。以LLAMA 2的可接受使用政策和许可协议禁止的任何其他方式使用。”

开源模型并不适用于除英语以外的语言中使用,这基本堵死了国内一众贴牌大模型公司,准备借LLAMA 2开源商业,合法升级千模大战的伪“炼丹”之路。

▩首个开源LLM Chat模型的秘密

有人扒了一下源代码中的Llama 2 的新默认系统提示词(default system prompt)。


"""
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. 
If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. 
"""
"""
您是一位乐于助人、尊重他人、诚实守信的助手。请在保证安全的前提下,尽可能地回答问题。您的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保您的回答不带任何社会偏见并具有积极意义。
如果问题没有任何意义或与事实不符,请解释原因,而不要回答不正确的问题。如果您不知道问题的答案,请不要分享虚假信息。
"""

△附:AI²Paradigm v1-v3范式迭代,详情请阅读下一章节:AI²Paradigm价值模型迭代路径

可以看到Llama 2采用了类似@openai的角色(role)概念,我认为这将更容易实现为@simonw所期望的函数调用 API 的 OSS 复制品。

同时有人统计了Llama 2的推理模型依赖包、代码量以及权重文件大小:

Llama的推理模型部署运行只需要4项安装包依赖,以及整个python代码只有638行。这一事实让人对于模型原生的计算范式印象深刻,远比传统软件和web计算范式实现类似功能,要简单得简直无法想象。
而且社区进展神速,除了llama2.ai的游乐场可以把玩(nat.dev的LLM游乐场也已更新),7B-13B的中型模型已完全量化(quantized )并转换为 GGML格式,并且权重文件也已经放出 - 这些可能是比通过 Meta自家的经常出错/不可靠的下载.sh 脚本更容易/更快下载 Llama 2 的方法。

https://huggingface.co/TheBloke/Llama-2-7B-GGML

https://huggingface.co/TheBloke/Llama-2-13B-GGML
▩Llama 2 与LLaMA的训练数据集比较
参数量级一致,但决定一个模型性能的还有训练方法与数据集:
Meta 对他们使用的数据非常谨慎,但 7B 模型是在 2T(两万亿)tokens上训练出来的,而且损失并不均衡。tokens与参数的比率是 285 倍,只要有更多数据,我们就能继续前进,提升模型性能。

对了数据集时限,预训练数据截止2022年9月。但是微调数据部分很新到2023年7月发布的时候。

Llama 2及Llama 2-Chat开源带来的AI²Paradigm范式思考

首先meta AI为了最新的开源战略调整了组织架构,一个全新的组织浮出水面:GenAI Meta。
这个看起来专为meta开源战略成立的团队,规模不小,甚至不亚于OpenAI;而且这次在训练数据集上狠狠地压榨了同等参数量级上的模型性能,并借机开源了对标ChatGPT的Llama 2-Chat。这使得AI²Paradigm范式“化身”(Fine-Tuning),在基座模型以及超级应用上,都形成了与“炼丹”范式对等的开源与闭源竞争态势

“AI²Paradigm范式当前版本为v4.0”

这是CPO乐于所见的范式现象新发展,而这一切不过才刚刚开始。同时可能AI范儿社区投资的群友更感兴趣的是微软,在第一时间就在Azure上推出了与Llama 2的合作。

“微软CEO SatyaAI²Paradigm范式当前版本为v4.0”

这个长得有点让人想起印度英雄甘地的微软CEO-Satya,左手闭源OpenAI,右手开源Llama,在AI大模型时代玩得一手好牌,真比PC时代的Bill Gates也不差,甚至可以说再造了一个新微软。

微软投资OpenAI LP的创投范式CPO在公众号多篇文章有提及。包括在最新的解读AI狂潮“卖淘金铲子“范式解读中也有描述,微软Azure是这波AI狂潮中,唯一赚到卖铲子钱的云厂商。

新观察-上篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-AI²Paradigm之“Shovels”服务路径范式解读

AI范儿社区CPO携群友prompt共创的AI²Paradigm范式,将密切跟进中美这波AI范式现象发展,构建范式底层商业与智能、工程演进逻辑,与这波AI狂潮中寻找方向的群友一起,继续为AI发电!

参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-相关推文

-Llama 2: Open Foundation and Fine-Tuned Chat Models

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/


END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存