微调工程研究必读·卡梅隆博士系列E03S02·开源LLM的历史:微调与对齐|A𝕀²·ℙarad𝕚gm化身范式工程方法系列
图|arXiv论文截图
题记
▩提示工程系列
E01S01:「提示工程系列」转译(1):思维链(CoT)提示-一种实用而简单的LLM“推理”方法
E02S01:「提示工程系列」转译(2):实用提示工程-成功提示 LLM 的提示和技巧
E03S01:「提示工程系列」转译(3):提示工程进阶-当小样本学习还不足以解决问题怎么办?
E04S01:「提示工程系列」转译(4):提示合奏使LLM更可靠-简单策略挖掘更多LLM潜能
原文题记
△
△
化身学习范式(Imitation Learning)
△
“The premise of model imitation is that once a proprietary LM is made available via API, one can collect a dataset of API outputs and use it to fine-tune an open-source LM.” - from [6]
"模型模仿的前提是,一旦通过 API 提供了专有 LM,人们就可以收集 API 输出的数据集,并用它来微调开源 LM"。- 摘自[6]
从这些模型中收集对话示例(例如,使用 OpenAI API)。 对这些数据进行(监督)微调(即使用普通语言建模目标)。
△
Koala [9] |在一个大型对话示例数据集上对 LLaMA-13B 进行了微调,该数据集既来自 Alpaca 微调集,也来自 ShareGPT、HC3、OIG、Anthropic HH 和 OpenAI WebGPT/Summarization。与之前的模仿模型相比,Koala 在更大的数据集上进行了微调,并进行了更广泛的评估;点击此处了解有关该模型的更多信息[ https://cameronrwolfe.substack.com/i/114077195/koala-a-dialogue-model-for-academic-research ]。
GPT4ALL [16]|在来自 GPT-3.5-turbo 的超过 800K 聊天完成上对 LLaMA-7B 进行了微调。除了模型,作者还发布了训练/推理代码和量化的模型权重,可用于使用最少的计算资源(如笔记本电脑)进行推理;更多详情,请点击此处。[ https://gpt4all.io/index.html ]
△
“Open-source models are faster, more customizable, more private, and … more capable. They are doing things with $100 and 13B params that [Google] struggles with at $10M and 540B. And they are doing so in weeks, not months.” - from [9]
"开源模式更快、更可定制、更私密、......能力更强。他们用 100 美元和 1,300 亿美元的参数就能完成[谷歌]用 1,000 万美元和 5,400 亿美元都难以完成的任务。而且它们只需数周而不是数月就能完成。- 摘自[9]
自 GPT-3 提出以来,闭源代码 LLM 一直占据着 LLM 的主导地位,而模仿模型的爆发式增长则是开源代码模型真正被视为闭源代码 LLM 潜在替代品的首批实例之一。尽管付费应用程序接口的使用已成为标准,但模仿模型令人印象深刻的性能使人们对开源 LLM 产生了希望。
△
△
在人类评估试验中,用于微调的模仿数据量并不能提高模型质量。
模仿模型在标准化基准上的表现往往比基础模型差(而且随着模仿数据的增加而恶化)。
增大基础模型的规模可以持续提高模仿模型的质量。
“We argue that the highest leverage action for improving open-source models is to tackle the difficult challenge of developing better base LMs, rather than taking the shortcut of imitating proprietary systems.” - from [6]
"我们认为,改进开源模型的最高杠杆行动是应对开发更好的基础 LM 这一艰巨挑战,而不是走模仿专有系统的捷径"。- 摘自[6]
有鉴于此,我们可能会提出的第一个问题是:为什么这些模型看起来表现如此出色?我们在 [6] 中看到,模仿模型会学习模仿 ChatGPT 这样的模型的风格。因此,即使该模型更频繁地生成与事实不符的信息(即更难轻松检查或验证),人类工作人员也会被诱骗,认为该模型是高质量的。
▩模仿学习真的有用吗?
“Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.” - from [1]
"我们的研究表明,从逐步解释中学习,无论这些解释是由人类还是更先进的人工智能模型生成的,都是提高模型能力和技能的一个有前途的方向"。- 摘自[1]
在[6]的研究发现模仿模型的表现并不如最初想象的那么好之后,研究界对模仿模型是否真的有价值并不清楚。值得注意的是,[6] 中的分析表明,局部模仿--即学习模仿模型在特定任务中的行为,而不是模仿其整体行为--是相当有效的。然而,这并不意味着模仿模型的质量能与一般的专有模型相媲美。为了使模仿模型在总体上更加出色,[6] 中的作者提出了两条前进之路:
生成更大更全面的模仿数据集 创建更好的基础模型,用于模仿学习
有趣的是,这两项建议在随后的研究中都得到了广泛的探讨,并取得了积极的成果。
△
Orca [12] |是一个基于 LLaMA-13B 的模仿模型;详情请参见此处。不过,与之前的模仿学习工作相比,Orca 是通过从 ChatGPT 和 GPT-4 收集的更高质量、更详细、更全面的数据集进行训练的。特别是,以前为模仿学习收集的数据集可以被认为是 "浅层 "的--它们只是由 ChatGPT 等模型生成的提示和回应对的例子;见上图。
“We conclude that broadly matching ChatGPT using purely imitation would require a concerted effort to collect enormous imitation datasets and far more diverse and higher quality imitation data than is currently available.” - from [6]
"我们的结论是,要想纯粹利用模仿来广泛匹配 ChatGPT,就必须齐心协力收集庞大的模仿数据集以及远比目前可用的更多样、更高质量的模仿数据"。- 摘自[6]
在浅层模仿的基础上,Orca 尝试用 ChatGPT 或 GPT-4 等模型生成的模仿数据集进行扩充:
解释跟踪 循序渐进的思维过程 复杂指令
为此,被模仿的模型要通过指令或系统信息对其反应作出详细解释。这种方法超越了简单的 "提示-响应 "对,它为模仿模型所看到的数据添加了额外的有用信息。在向 ChatGPT 等功能强大的 LLM 学习时,Orca 看到的不仅仅是模型的反应。也就是说,它可以从模型对复杂提示的反应所产生的详细解释和思维过程中学习!请看下面的示例。
△
在对包含如此详细模仿数据的海量数据集(即来自 ChatGPT 的 500 万个示例和来自 GPT-4-详见注释5-的 100 万个示例)进行微调后,我们发现与之前的模仿模型相比,Orca 的表现令人难以置信;见下图。
尽管 Orca 大大缩小了开源模仿模型与专有 LLM 之间的差距,但我们仍然可以从下表中看到,该模型的性能始终被 GPT-4 所超越。遗憾的是,即使是改进的模仿方法,也不足以完全媲美顶级专有模型的质量。
尽管如此,Orca 令人印象深刻的性能表明,模仿学习是一种有价值的微调策略,它可以大幅提高任何高质量基础 LLM 的性能。更进一步,我们在 [12] 中了解到,成功利用模仿学习有两个主要要求:
大型、全面的模仿数据集 每个反应中的详细解释痕迹
更好的基础 LLM。尽管 [6] 中的作者认为,收集一个足够大且多样化的模仿学习数据集非常困难,但我们通过 Orca 看到,这样的壮举至少是有可能实现的。此外,后来的工作还广泛探讨了 [6] 中的另一个建议:创建更强大的(开源)基础模型。虽然开源预训练 LLM 一开始表现不佳,但我们最近看到了各种强大的预训练 LLM 的提出,例如 LLaMA [3]、MPT [14, 15] 和 Falcon [13]。鉴于模型预训练是后续任何微调(如模仿学习、SFT、RLHF 等)的起点,因此从更好的基础模型开始也能改进下游的模仿模型!幸运的是,我们在本系列第二部分中介绍了所有最好的开源预训练语言模型。详情请见如下链接。
微调工程研究必读·卡梅隆博士系列E02S02·开源LLM的历史:更好的基础模型|A𝕀²·ℙarad𝕚gm化身范式工程方法系列
对齐开源LLM
△
“These closed product LLMs are heavily fine-tuned to align with human preferences, which greatly enhances their usability and safety. This step can require significant costs in compute and human annotation, and is often not transparent or easily reproducible.” - from [1]
"这些封闭产品的 LLM 经过了大量微调,以符合人类的偏好,从而大大提高了其可用性和安全性。这一步骤可能需要大量的计算和人工注释成本,而且往往不透明或不易复制"。- 摘自[1]
△
另外,如果我们看一看开放 LLM 排行榜(见上图),就会发现各种不同的模型都通过 SFT 在各类不同的数据集上进行了微调。开源 LLM 并没有完全避免对齐。不过,顶级的专有模型都会在高质量对话和人类反馈的海量数据集上进行 SFT 和 RLHF。相比之下,大多数开源模型仅使用 SFT 对缺乏质量和多样性的公共数据集进行对齐。为了真正达到专有模型的质量,开源 LLM 需要尝试复制其对齐过程。
▩LIMA:数据高效对齐[2]
https://cameronrwolfe.substack.com/i/134561977/lima-less-is-more-for-alignment
“A model’s knowledge and capabilities are learnt almost entirely during pretraining, while alignment teaches it which subdistribution of formats should be used when interacting with users.” - from [2]
"模型的知识和能力几乎完全是在预训练过程中学习的,而对齐则是教它在与用户交互时应使用哪种格式的子分布"。- 摘自[2]
△
用于训练 LIMA 的 SFT 数据集虽小,但质量却高得惊人。有趣的是,我们在文献[2]中看到,在对该数据集进行微调时,LIMA 的性能出奇地好,甚至接近 GPT-4 或 Claude 等最先进 LLM 的性能;见下图。
△
这一结果揭示了语言模型可以通过少量精心选择的示例进行有效的对齐。尽管 LIMA 的性能仍未达到 GPT-4 的水平,但能用如此少的数据进行如此高质量的配准,既出乎意料又令人印象深刻。这样的结果告诉我们,数据质量似乎是通过 SFT 进行配准的最重要因素。
我们学到了什么?|我们从 LIMA 中汲取了各种有益的经验教训。首先,数据质量对 SFT 来说极其重要。仅仅使用更多的数据是不够的,还需要高质量的数据;见上图。此外,[2] 中的结果还提出了 "表层对齐假说",为对齐提供了一个新的独特视角。简单地说,这一假说认为,LLM的大部分核心知识都是在前期预训练中学到的,而对齐则是寻找适当的格式或风格来浮现这些知识。因此,对齐可以通过数据高效的方式学习。
▩LLaMA-2:提高对齐研究的透明度 [1]
“Llama 2-Chat is the result of several months of research and iterative applications of alignment techniques, including both instruction tuning and RLHF, requiring significant computational and annotation resources.” - from [1]
"Llama 2-Chat 是数月研究和迭代应用对齐技术(包括指令调整和 RLHF)的成果,需要大量的计算和注释资源。- 摘自[1]
△
有用性:模型能够满足用户的要求并提供所需的信息。
安全性:模型避免 "不安全 "的响应
△
“Surprisingly, we found that the outputs sampled from the resulting SFT model were often competitive with SFT data handwritten by human annotators, suggesting that we could reprioritize and devote more annotation effort to preference-based annotation for RLHF.” - from [1]
"令人惊奇的是,我们发现从由此产生的 SFT 模型中采样的输出结果往往与人类注释者手写的 SFT 数据具有竞争性,这表明我们可以重新确定优先次序,将更多的注释精力投入到基于偏好的 RLHF 注释中"。- 摘自[1]
“Everything else being equal, an improvement of the reward model can be directly translated into an improvement for Llama 2-Chat.” - from [1]
"在其他条件相同的情况下,奖励模式的改进可以直接转化为 Llama 2-Chat 的改进"。- 摘自[1]
△
△
△
“[Alignment] can require significant costs in compute and human annotation, and is often not transparent or easily reproducible, limiting progress within the community to advance AI alignment research.” - from [1]
"[对齐]可能需要大量的计算和人工标注成本,而且往往不透明或不易复制,这限制了社区内推进人工智能对齐研究的进展"。- 摘自[1]
结束语
Bibliography
[1] Touvron, Hugo, et al. "Llama 2: Open Foundation and Fine-Tuned Chat Models." arXiv preprint arXiv:2307.09288 (2023).
[2] Zhou, Chunting, et al. "Lima: Less is more for alignment." arXiv preprint arXiv:2305.11206 (2023).
[3] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).
[4] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints." arXiv preprint arXiv:2305.13245 (2023).
[5] “Introducing Llama2: The next generation of our open source large language model”, Meta, https://ai.meta.com/llama/.
[6] Gudibande, Arnav, et al. "The false promise of imitating proprietary llms." arXiv preprint arXiv:2305.15717 (2023).
[7] Taori, Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).
[8] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).
[9] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).
[10] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.
[11] Wang, Yizhong, et al. "Self-instruct: Aligning language model with self generated instructions." arXiv preprint arXiv:2212.10560 (2022).
[12] Mukherjee, Subhabrata, et al. "Orca: Progressive Learning from Complex Explanation Traces of GPT-4." arXiv preprint arXiv:2306.02707 (2023).
[13] “Introducing Falcon LLM”, Technology Innovation Institute, https://falconllm.tii.ae/.
[14] “Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable Llms.” MosaicML, www.mosaicml.com/blog/mpt-7b.
[15] “MPT-30B: Raising the Bar for Open-Source Foundation Models.” MosaicML, www.mosaicml.com/blog/mpt-30b.
[16] Gou, Jianping, et al. "Knowledge distillation: A survey." International Journal of Computer Vision 129 (2021): 1789-1819.
[17] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.
[18] Glaese, Amelia, et al. "Improving alignment of dialogue agents via targeted human judgements." arXiv preprint arXiv:2209.14375 (2022).
▩原文注释
1 For now! I’m sure that I will write another post in this series after research on open-source LLMs continues to develop.
2 This “recipe”—commonly called the three-step technique—was proposed by InstructGPT (the sister model to ChatGPT) and has been heavily used by a variety of powerful LLMs ever since!
3 I’m not 100% sure whether imitation learning would be considered alignment. It is quite similar to SFT, where we choose dialogue examples for SFT from existing powerful LLMs (e.g., GPT-4). One could also consider imitation learning a form of generic fine-tuning or even an instruction tuning variant.
4 This metric is obtained via automatic evaluations that use GPT-4 as a judge.
5 Orca uses prompts from the FLAN collection to generate its imitation dataset, which takes several weeks to collect due to rate/token limits on the OpenAI API.
6 Interestingly, authors in [1] adopt two different approaches for RLHF, including the typical PPO variant of RLHF and a rejection sampling fine-tuning variant that i) samples K outputs from the model, ii) selects the best one, and iii) fine-tunes on this example. Notably, both methods are based upon reinforcement learning.
7 This public data may even come from other, powerful LLMs, as in the case of imitation learning. See, for example, dialogues available via ShareGPT.
附录
💡 A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1~v4范式迭代简介
AI范儿A𝕀²·ℙarad𝕚g𝕞从V1到V4的迭代,是一种全新的尝试,基本是沿着:“从GPT现象·看Prompt本质·找创投应用方向“这样的路径,在“AI范儿”社区一众群友prompt下共创并逐步思考迭代的过程。当前v4.0版本涵盖如下内容:1*整体框架与范式路径:(human level)Intelligence as a Service整体框架,与炼丹、挖矿、化身、具生4原生商业范式迭代路径2*服务路径:模型原生(models native)服务路径与卖铲子(shovels selling)服务路径3*智能发展路径:通用人工智能(AGI)发展路径、面向个人智能伴侣(PIA)发展路径以及硅基原生(Silicon Stack)智能发展路径
范式思维升级:v4版A𝕀²·ℙarad𝕚gm范式框架一个重大升级就是思维范式的变化,研究对象从GPT现象上升到智能现象,同时纳入了和人类及其组织智能对等的硅基原生智能及其生态,甚至在具有某种自主意识的AI智能体“具生”范式里,考虑在world of bits的纯数字世界里,和人类无关的agent形态。对等智能体分别为Human Intelligence Species(含群体组织)与 Silicon Native Entities(含群体生态),区别为human是否in loop。因此对等智能体之间的价值交互可分为:AI对于人类智能的增强; AI对于人类智能的替代; AI智能本体的自主化。
▩炼丹(pre-training) (v1. AIGC) - tokens as a service [~AGI/ASI]
▩挖矿(prompting) (v1. AIGC) - prompts as a service [~GPT agents]
▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service [~in-devices&on-premises agents]
▩具生(agents) (v3&v4. Promptless) - agents as a service [~world of atoms&bits | human in loop & Silicon Native Entities]△附:A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1-v4范式迭代路径简介版
△
“AI范儿的A𝕀²·ℙarad𝕚gm商业范式v4.0示意图”
进阶阅读
进阶阅读
卡梅隆博士系列E01S01:提示工程-CoT思维链实现LLM推理
卡梅隆博士系列E02S01:提示工程-实用提示工程建议与技巧
卡梅隆博士系列E03S01:提示工程-高级提示工程超越few-shot
卡梅隆博士系列E04S01:提示工程-提示合奏使LLM更可靠
卡梅隆博士系列E01S02:开源LLM的历史-早期
卡梅隆博士系列E02S02:开源LLM的历史-更好的基础模型
参考
说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。
-CAMERON R. WOLFE:The History of Open-Source LLMs: Imitation and Alignment (Part Three)
END
扫码加群,
立变AI🍚!
AI范儿读者群
那些prompt了我的,
是否也prompt了你...