查看原文
其他

A𝕀²ℙarad𝕚g𝕞范式智库认知构建路径|AI²Paradigm范式V3解读暨转译:蒸馏模型和开源的LLM革命

ai汤源 AI2Paradigm
2024-10-07


图|Deep(Learning)Focus

文|汤源编译/卡梅隆·沃尔夫博士原文
基础

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。

从理解SOTA(State of the Art)的大语言模型(LLM)背后的灵魂人物访谈、到读懂一系列机器学习工程论文,逐步构建A𝕀²ℙarad𝕚g𝕞范式智库认知路径。这是V3版本成文时的思考轨迹。

开源LLM社区运动推动下的大模型模仿与知识蒸馏

题图

卡梅隆·沃尔夫博士的Deep(Learning)Focus博客内容,专注且专业,几乎所有内容都是大量arXiv工程论文分析提炼汇总而成,笔者一直深受其内容所prompt,伴随着这波AI现象研究,公众号转译了多篇提示工程相关文章。
随着笔者注意力转向「AI²Paradigm」创业、投资、应用等范式的关注,在社区群友prompt共创下,「AI²Paradigm」得以初步形成4范式组成的框架。
AI²Paradigm v1-v3范式迭代
▩大模型炼丹(pre-training) (v1. AIGC)
▩大模型挖矿(prompting) (v1.AIGC)
▩大模型蒸馏(distillation) (v2. Models Anywhere)
▩大模型智能体(promptless) (v3. Intelligent Agents)


△附:AI²Paradigm v1-v3范式迭代

这两天一直在思考models anywhere的趋势下,大模型蒸馏范式的落地应用场景。正好看到卡梅隆博士的更新,提到了在meta AI开源了LLaMA后,社区对于LLM模仿(或说蒸馏)的研究一番繁荣景象。尤其提到这篇arXiv预印本论文:The False Promise of Imitating Proprietary LLMs。认为即利用ChatGPT对话数据集微调后的LLM功能较弱,这些模仿模型起初的表现似乎与ChatGPT相当,但完整的故事却有点复杂。
这个观点与笔者的认知是一致的,在最新的「AI²Paradigm」范式研究公众号文章里就提到:
......
社区沸腾了,在非常快的时间内,一长串通过各种fine-tunning手段(lora快速微调模型也适时开源了-low rank adaptation by miscorsoft)的开源LLMs纷纷推出。当然笔者认为这些模型能力拿来和OpenAI的ChatGPT竞争都是不现实的,更不用说GPT-4了。


△附:AI²Paradigm v2迭代-蒸馏

笔者认为大模型蒸馏出的模型完全可以运行于终端做推理,在一些细分场景,为个人或用户提供独有的数据与模型飞轮迭代,使得终端设备的智能具备自我学习进化特性,从而越来越比用户更懂用户自己。
看来笔者终于赶上了博士的研究与关注进度,甚至有点同频共振的认同感。同时转译推出博士本人的推文解读以及整篇文章综述内容。

原作者推文解读:LLM的模仿(imitation)与知识蒸馏(distillation)

LLaMA大型语言模型(LLMs)及其衍生模型套件导致了关于开源LLMs主题的研究论文发表激增。其中许多研究中采纳了“模仿(imitation)“的观点(笔者注:V3范式中称之为蒸馏distillation,后同):即利用ChatGPT对话数据集微调后的LLM功能较弱。这些模仿模型起初的表现似乎与ChatGPT相当,但完整的故事却有点复杂。
什么是模型模仿(model imitation)|模型模仿是基于更通用的知识蒸馏的想法,是一种(看似)有效的方法来微调不太强大的LLM,以迅速使它们在遵循指令方面更出色。要做到这一点,我们只需
- 从更强大的模型中收集对话实例(例如,使用OpenAI的API)。
- 用它们来微调较小的模型,使用正常的语言建模目标模式。
这种方法在商业上是不可行的(即有违OpenAI的API使用规则,见OpenAI API的条款和条件),但它被用来创建像Alpaca、Vicuna、Koala和GPT4All这样的模型。
开源的LLM运动|在LLaMA发布之后,几个不同的模仿模型相继发布。在许多情况下,这些模型声称其结果可与ChatGPT或GPT-4等顶级专有模型相媲美。因此,研究界很快采纳了这样的观点:开源模型将很快主导LLM领域。"开源模型更快、更可定制、更私密,而且......更有能力。他们正在用100美元和130亿的参数做一些事情,而[谷歌]在1000万美元和540亿的参数上都很难做到。而且他们是在几周内完成的,而不是几个月。" - 来自https://semianalysis.com/p/google-we-have-no-moat-and-neither
模仿的模型是否真有智能?|虽然看起来开源LLM的研究速度和路径会很快导致闭源私有模型变得不那么受欢迎,但故事并不那么简单。这些模仿模型中的大多数很少被严肃评估,而且主要是通过工作中使用人群的直观评价。再进一步说,使用工作中使用人群的评估可能会产生误导,因为与ChatGPT的风格相匹配的LLM通常可以得到很好的分数,即使它们缺乏相同的知识基础和事实性。简单地说,具有令人信服的风格的LLM可以得到很好的分数,即使他们输出不正确的信息。调查一个LLM的信息是否正确,需要投入大量的时间,导致幻觉(hallucination)在某些情况下被工作中使用人群忽略了。

(不幸的)真相|在《模仿私有LLM的虚假承诺》一文中,作者对各种模仿模型进行了严格的基准测试,试图教会开源模型在特定任务和一般情况下模仿ChatGPT。有趣的是,在接受更广泛和更严格的评估时,这些模型的表现比ChatGPT(甚至是基础LLM)差得多。虽然这些模型可以准确地模仿一个强大的模型在特定任务上的行为(即局部模仿),但教这些模型在一般情况下与ChatGPT的表现相当(即广泛的模仿),需要大量的模仿例子的数据集,这是很难微调达成的。因此,模仿模型往往只在那些在其微调数据集中有充分体现的任务上表现良好。

TL;DR: |众多的模仿模型被快速地提出来,让人觉得开源的LLM正在接管大模型的未来,但事实并非如此(尚未)。这些模型有很大的局限性,由于缺乏严格的评估而被忽略了。尽管如此,开源LLM运动仍然非常有活力,并在不断进步!模仿模型只是这个非常有前途的领域中的一个想法。
论文《模仿私有LLM的虚假承诺 》充满了令人难以置信的有用信息,是LLM领域的研究人员的必读之作。主要是这篇论文让我重新思考如何正确评估LLM和围绕它们建立的系统。
The False Promise of Imitating Proprietary LLMs 论文摘要:

一种新出现的低成本改善较弱语言模型的方法是在较强模型的输出上对其进行微调,比如像利用ChatGPT这样的私有系统(对如Alpaca、Self-Instruct和其他模型微调)。这种方法看起来是在用一个较弱的开源模型低成本地模仿私有模型的能力。在这项工作中,我们批判性地分析了这种方法。我们首先对一系列模仿ChatGPT的LM进行微调,使用不同的基础模型大小(1.5B-13B)、数据源和模仿数据量(0.3M-1.5M代币)。然后,我们使用人群评分器和经典的NLP基准来评估这些模型。最初,我们对我们的模仿模型的输出质量感到惊讶--它们在遵循指令方面似乎要好得多,而且群众工作者将它们的输出评为与ChatGPT竞争。然而,在进行更有针对性的自动评估时,我们发现,在模仿数据中没有大量支持的任务上,模仿模型几乎没有缩小与基础LM和ChatGPT之间的差距。我们表明,这些性能差异可能会瞒过人类评测员,因为模仿模型善于模仿ChatGPT的风格,但不善于模仿其事实性。总的来说,我们的结论是,模型模仿是一个错误的承诺:在开源和闭源LM之间存在着巨大的能力差距,在目前的方法下,只能通过笨拙的模仿数据或者使用能力更强的基础LM来弥补。反过来,我们认为,改进开源模型的最有杠杆效应的行动是直面困难挑战开发更好的基础LM,而不是走捷径模仿专有系统。

https://arxiv.org/pdf/2305.15717.pdf [Submitted on 25 May 2023]

附录:模仿模型和开源的LLM革命
像ChatGPT和GPT-4这样的私有LLM是否真的容易复制?

大型语言模型(LLM)的LLaMA套件[2]的提出导致了关于开源LLM主题的研究出版物的激增。在许多情况下,这些工作的目标是低成本地生产较小的、开源的LLM(用于研究目的),其质量与ChatGPT和GPT-4等专有模型相当。这些模型采用了一种模仿策略,通过更强大的LLM的合成对话数据来微调基础LLM。尽管训练成本低廉,但这些模型的表现似乎与ChatGPT等专有LLM相当。因此,深度学习研究界很快采纳了这样的观点:开源的LLM将统治未来--生产私有模型的开源变体既简单又有成本效益!
“Will the most powerful LLMs be closed-source or will they be freely distributed for anyone to use, modify, and extend?” - from [1]
"最强大的LLM将是闭源的,还是将免费发布给任何人使用、修改和扩展?"- 来自论文[1]。


△节选自原作附录论文[1]

不幸的是,对这些模型进行的初步评估,即依靠其他LLM(如GPT-4)或社区人群工作者提供的评级,有点粗略。模仿模型的表现是否真的与ChatGPT等模型的表现相匹配?为了更严格地回答这个问题,我们将研究最近的论文,分析模仿模型是否真正消除了专有LLM周围的 "护城河"。有趣的是,我们将看到这些强大的LLM的廉价复制品在人类评价中表现良好,因为它们有能力学习强大的LLM的风格。然而,它们缺乏事实性,在接受更广泛和有针对性的评价时表现不佳。在现实中,模仿模型的表现远不如ChatGPT这样的私有通用模型好。
▩模型模仿(Model Imitation)
“The premise of model imitation is that once a proprietary LM is made available via API, one can collect a dataset of API outputs and use it to fine-tune an open-source LM.” - from [1]
"模型模仿的前提是,一旦一个私有的LM通过API提供服务,人们可以收集API输出的数据集,并使用它来微调一个开源的LM。"- 来自[1]。


△节选自原作附录论文[1]

我们将在本综述中看到的大多数模型都是通过模型模仿策略训练出来的。这个策略是基于更通用的知识蒸馏(knowledge distillation)的想法,是一种看似有效的方法,可以对不太强大的LLM进行微调,使它们的行为与强大的LLM如ChatGPT和GPT-4更加相似。要做到这一点,我们只需:
  • 从更强大的模型中收集对话实例(例如,使用OpenAI的API)。

  • 用它们来微调较小的模型,使用正常的语言建模目标。
这种方法(虽然在商业上不可行)被各种开源的LLM大量利用--包括Alpaca、Vicuna、Koala等等[3, 4, 5]--创建的语言模型更接近于ChatGPT或GPT-4的质量。

“上图来自论文[7]”

知识蒸馏|深度神经网络的知识提炼的想法最初是在[1]1中探讨的。简单地说,知识蒸馏使用一个(大的)经过充分训练的神经网络作为另一个(小的)神经网络的训练信号;见上图。

如果我们同时使用

i)正常的训练数据,和

ii)一个更大、更强大的神经网络

在该数据上的输出来训练一个神经网络,那么我们通常会得出比单独在数据上训练一个神经网络更好的结果。通过使用其输出作为训练目标,我们可以将较大的 "教师 "神经网络的一些信息提炼到正在训练的较小的 "学生 "神经网络中。更多细节,请查看下面的链接。

Knowledge Distillation  

[https://towardsdatascience.com/knowledge-distillation-simplified-dd4973dbc764]

虽然存在许多类型的知识蒸馏,但本综述中考虑的变体被称为模型模仿,即我们将教师LLM的输出作为训练目标,对另一个LLM进行监督性微调。

模型模仿的类型|网上有各种高质量的LLM,但其中许多只能通过黑盒API访问。我们不能访问模型本身,而只能向模型提供输入并接收输出(可能有相关的对数概率)。模型模仿从这些API中收集数据并将其用于微调,允许任何模型模仿私有LLM的输出。有两种基本的模仿类型:

  • 局部模仿:学习模仿一个模型在特定任务上的行为,而不是模仿其整体行为。
  • 广泛模仿:学习广泛模仿一个模型的行为,跨越各种不同的主题。

广义模仿(一般)比局部模仿更难,因为它的目的是全面地捕捉一个模型的行为。虽然模仿一个具体的任务并不难,但从整体上复制一个模型的行为需要大量的数据,可能相当困难。

“Broad-coverage imitation is challenging because (1) one must collect an extremely diverse imitation dataset and (2) imitation models must capture this wide data distribution and generalize similarly to the target model on a myriad of held-out examples.” - from [1]
"广泛覆盖的模仿是具有挑战性的,因为(1)人们必须收集一个极其多样化的模仿数据集,(2)模仿模型必须捕捉到这种广泛的数据分布,并在无数被搁置的例子上做出与目标模型相似的概括。"- 来自[1]。


△节选自原作附录论文[1]

▩LLaMA的觉醒(The Wake of LLaMA)

最近关于开源LLM的研究对模型模仿进行了广泛的探索。这方面的工作始于 LLaMA 的提议[2],并迅速被后续模型如 Alpaca、Vicuna、Koala 等所扩展[3、4、5]。我们在之前的概述中了解到这些模型中的大部分:
  • LLaMA: LLMs for Everyone![https://cameronrwolfe.substack.com/p/llama-llms-for-everyone]

  • 超越LLaMA:开放的LLMs的力量 [https://cameronrwolfe.substack.com/p/beyond-llama-the-power-of-open-llms]
在这里,我们将快速介绍这些模型的基本知识,并提供相关的背景,使这一概述更容易理解。

LLaMA是啥?

“LLaMA催化了开源LLM的爆发-来自论文[3, 4, 5, 16]和DreamStudio”
LLaMA不是一个单一的语言模型,而是一套规模在70亿到650亿参数之间的LLM。从Chinchilla[13]中得到启发,这些LLMs比它们的同类模型小一些,但经过了广泛的预训练(即更小的模型,更多的训练tokens)。LLaMA模型的表现令人惊讶;例如,130亿参数的模型与GPT-3[14]相当,而650亿参数的模型则超过了PaLM[15]的表现。

完全开源|与在公共数据和专有数据的组合上进行训练的闭源模型不同,LLaMA只使用公开的数据进行预训练--LLaMA模型可以完全从网上资源中复制出来在为研究目的公开发布后,该模型的权重在网上被 "泄露 "了。即使如此,LLaMA仍被禁止用于任何商业应用,即使人们能够获得模型的权重文件。

模仿模型:Alpaca, Vicuna, Koala, and More

“分别来自论文[3, 4, 5, 16]”
有趣的是,LLaMA的权重在网上被泄露后,导致该模型的流行度大增。研究人员迅速开始发布各种有趣的、开源的衍生产品。主要的是,LLaMA被用来创建基于与强大的LLM(如ChatGPT)对话所得数据的模仿模型。让我们来看看从LLaMA衍生出来的一些流行的LLMs。
Alpaca |[3] 是 LLaMA-7B LLM 的微调版本。其微调过程是基于self-instruct[17],即从性能较高的LLM(即text-davinci-003)收集指令跟随(instruction-following)数据,并用于监督下的微调。Alpaca的整个微调过程只需要600美元(包括数据收集和微调)。在这里阅读更多关于Alpaca的信息。[参见https://cameronrwolfe.substack.com/]
Vicuna|[4]是一个开源的聊天机器人,它是通过微调LLaMA-13B(即与GPT-3性能相当)创建的。Vicuna是利用用户与ChatGPT对话的例子进行微调的,整个微调过程可以复制,成本为300美元。与Alpaca相比,Vicuna与ChatGPT更有可比性,而且生成的答案有细节和结构。在这里阅读更多关于Vicuna的信息。 [参见https://cameronrwolfe.substack.com/]
Koala|[5]是LLaMA-13B的一个版本,它在各种来源的对话数据上进行了微调,包括公共数据集以及与互联网上其他高质量LLM的对话。与Alpaca相比,Koala在更多的对话数据上进行了微调,并进行了更广泛的评估(使用了更多数量的众包工人)。在这里阅读更多关于Koala的信息。 [参见https://cameronrwolfe.substack.com/]
GPT4ALL|[16]是一个经过微调的LLaMA-7B模型,它在GPT-3.5-turbo的800K个完整会话上进行了训练。在发布训练tokens和模型的同时,GPT4ALL的作者还发布了模型的4位量化权重,这可以用来在CPU上运行模型推理。因此,我们可以在一个普通的笔记本电脑上使用这个模型! 这里提供了更多的细节。 [参见https://cameronrwolfe.substack.com/]
“Open-source models are faster, more customizable, more private, and … more capable. They are doing things with $100 and 13B params that [Google] struggles with at $10M and 540B. And they are doing so in weeks, not months.”  - from [9]
"开源模式更快、更可定制、更私密,而且......更有能力。他们正在用100美元和130亿的参数做一些事情,而[谷歌]在1000万美元和5400亿的参数上挣扎。而且他们是在几周内完成的,而不是几个月。"- 来自[9]。


△节选自原作附录论文[9]

仿制模型的巨大潜力|上述模型相继发表,(在大多数情况下)声称取得了与ChatGPT或GPT-4等顶级私有模型相媲美的结果。因此,研究界很快就采纳了这样的观点:开源模型将很快主宰LLM领域。但是,实际情况是这样吗?
我们是否错过了什么?
开源的、基于LLaMA的模仿模型似乎表现良好,因为与基础LLM(即经过预训练但没有经过微调的模型)相比,它们在指令跟随方面要好得多,并且与ChatGPT的风格相当。事实上,人群工作者最初将经过训练模仿ChatGPT的LLaMA-13B模型的输出在70%的情况下评为更好;见下图。

“来自论文[1]”
考虑到这些结果,似乎模型模仿提供了一个简单的方法,可以将任何私有模型的能力蒸馏提炼成一个更小的、开源的LLM。如果是这样的话,我们可以通过一个开源的LLM来匹配最好的私有模型的性能,只需使用微调和模仿数据,让GPT-4这样的封闭源模型没有真正的优势。
(不幸的)事实|尽管为研究目的轻松地重新创建私有模型的开源变体的能力很诱人,但使用众包工作者的评估可能会产生误导。一个模型仅仅通过输出具有正确风格和结构的答案就可以得到很好的分数,即使一个答案在事实上很薄弱或不正确。为什么会出现这种情况?验证事实的正确性需要众包工作者投入更多的时间(或现有知识)。

“分别来自论文[3/4/5]”
如何评价开放源码的LLM?考虑到这一点,我们可能会开始质疑后LLaMA LLMs是否真的在缩小付费和开源LLMs之间的差距。这些模式无疑是令人兴奋和令人印象深刻的,但当我们看一下它们是如何被评价的,我们通常看到的评价是:
  • 不是很全面

  • 主要是基于人(或LLM)的评价
因此,鉴于人类评估的局限性,这些模型的真实质量很容易被误导。简而言之,这些模型没有得到足够严格的评估,以获得对其质量的准确描述。
▩模仿私有LLMs的虚假承诺 [1]

“来自论文[1]”
[1]中的作者旨在全面分析模型模仿的性能,从而回答这个问题:我们真的可以用较弱的开源模型模仿专有的LLM吗?各种模型在不同的模仿数据集上进行了微调,然后使用人群工作者和各种不同的自然语言基准进行了广泛的评估。最初,通过对ChatGPT的模型模仿产生的LLM似乎表现良好,但有针对性的评估显示,它们在缩小基础LLM(即LLaMA[2])和ChatGPT之间的差距方面的作用远没有想象的那么大。这些模型的事实性(factual)较差,只在微调集中大量出现的任务上提高了性能。在微调过程中没有出现的任务上,模型的准确率经常会下降!
验证设置
[1]中的分析通过探索各种实验设置,批判性地评估了最近关于模型模仿的工作。所有使用的模型都是decoder-only的Transformer,包括GPT-2[6]、LLaMA-7B和LLaMA-13B[2]。评估是使用GPT-4、众包工作者和广泛使用的自然语言基准进行的。
建立数据集|微调数据集是使用人类和LLM提供的例子的组合来创建的,用于局部和广泛的模仿。对于局部模仿,通过引导自然问题数据集(即基于维基百科的事实知识)来创建一个特定任务的微调数据集。特别是,[1]中的作者从Natural Questions中抽取了一小组QA对,然后提示ChatGPT再策划出6000个类似问题的例子;见上文。
策划一个广泛的模仿数据集是比较困难的,因为数据需要全面地涵盖所需的LLM行为。为了创建这样一个数据集,[1]中的作者依靠来自ShareGPT、以ChatGPT为重点的discord服务器(例如TuringAI),甚至Reddit上的r/ChatGPT频道等来源的公开、高质量的对话。结果是约13万个自由收集的对话实例--被称为ShareGPT-Mix--用于模仿微调。这些数据的质量很高,而且指令有很大的多样性--最相似的用户查询的BLEU分数相似度只有8%2。ShareGPT-Mix中的每个对话例子都经过了后处理,添加了特殊的标记,这些标记是每个用户查询和模型输出的开始;见下图。

“来自论文[1]”
微调方法|模型使用标准的语言建模损失进行微调。然而,这种损失只适用于与模型输出相对应的那部分标记。换句话说,微调损失只适用于上图中每个对话例子的蓝色部分。在数据集tokens大小为0.3M到1.5M的情况下,进行了几次微调运行。
模仿的模型是否真的能用?

“来自论文[1]”
乍一看,通过ShareGPT-mix模仿数据训练的模型质量似乎相当高。虽然基础模型未能遵循指令,但模仿的微调变体,能保持在任务上、且能够以类似ChatGPT的方式解决问题。另外,增加模型的大小会导致性能的持续改善,这些模型在用GPT-4进行评估时得到了积极的评价;见上图。
然而,更详细的分析似乎表明,这些结果可能略有误导。例如,随着使用更多的模仿数据,人类的评价分数迅速饱和(甚至退化);见下文。这样一个令人惊讶的结果表明,在这些模型的评价中,我们可能缺少一些东西。

“来自论文[1]”
有针对性的评估|当模仿模型在更广泛的自然语言基准中被评估时,我们看到它们的性能与相应的基础LLM相当或低于后者。换句话说,对模仿进行微调并不能提高在更多任务中的性能;见下图。

“来自论文[1]”
在MMLU[10]、HumanEval[11]和Natural Questions[12]等基准上的这种乏善可陈的表现表明,与基础LLM相比,模仿模型的事实性、编码能力或解决问题的能力都没有提高。鉴于LLM的大部分知识是在预训练中学习的,这样的趋势是合理的。我们在[1]中看到,模仿模型可以与强大的LLM如ChatGPT(见下文)的风格相匹配,但它们缺乏相同的知识基础。这些模型出现幻觉的频率更高,如果没有大量的研究或时间投入,在基本的人类评价中很难发现这一点。

“来自论文[1]”
局部模仿效果良好|尽管在对更广泛的任务集进行评估时,模仿模型存在局限性,但我们看到,局部模仿实际上是相当有效的。通过模仿学习ChatGPT的特定行为是可能的,但在更广泛地模仿行为时我们遇到了路障;见下图。局部模仿可以是一个有用的点解决方案,用于调整开源的LLM,以解决特定的任务或在特定场景下模仿专有模型。

“来自论文[1]”
为了广泛地模仿像ChatGPT这样的模型的行为,我们需要一个更大、更多样化的模仿数据源。然而,策划这个数据集可能不是最好的方法--我们看到仅仅增加基础模型的规模就能带来更大的性能优势。因此,与创建廉价的模仿模型相比,创建更强大的基础LLM可能是开源LLM研究的一个更有前途的方向。
“We argue that the highest leverage action for improving open-source models is to tackle the difficult challenge of developing better base LMs, rather than taking the shortcut of imitating proprietary systems.”  - from [1]
"我们认为,改进开源模型的最有杠杆效应的行动是直面困难挑战,开发更好的基础LM,而不是走捷径模仿私有系统。"- 来自[1]。


△节选自原作附录论文[1]

▩最后的思考Final Thoughts

尽管深度学习社区多年来一直拥护开放性和透明度,但LLM的爆炸性流行催生了另一种范式,即用私有LLM的API进行开发,不提供对实际模型本身的访问。
为了对抗这种远离开源的转变,研究人员开发了开源的LLM替代品。模仿模型的建立使这一领域的研究似乎进展得非常快,导致许多人认为专有的LLM会很快失宠。
在本综述中,我们已经看到这种模仿的LLM有很大的局限性。然而,强大的、开源的LLMs的发展仍在继续进步。这项工作的一些主要收获概述如下:
严格评估的重要性|当人类对模仿模型进行定性评估时,模仿模型似乎表现良好。然而,当接受更严格的定量评估时,发现这些模型的表现有些乏善可陈(在某些情况下甚至比基础模型更差)!这项工作的发现突出了模仿模型的重要性!这项工作的发现突出了研究中严格评估的重要性。为了使一个领域取得进展,我们需要确定所提出的技术和模型实际上是在现有基础上的改进。
局部模仿仍然是非常有用的|尽管发现模仿模型在广泛评估时表现不佳,但对于任何包含在其微调数据集中的任务,它们都表现得相当好。因此,局部模仿仍然是一种有用和有效的技术。我们可以很容易地教导一个较小的、开源的LLM,使其在特定领域通过模仿与ChatGPT等流行模型的性能和行为相匹配。然而,当我们试图从整体上复制专有LLM的行为时,我们遇到了问题。这就需要策划一个大规模的对话实例数据集来进行模仿微调。
对开源LLM的影响|正如我们所看到的,模仿模型(尽管对局部模仿和特定用例很有用)并不是生产高质量、开源基础模型的通用解决方案。然而,我们在[1]内看到,LLM的性能随着基础模型的规模和质量不断提高。这样的发现表明,创建更大、更强大的基础模型对于开源LLM的进一步进步是必要的。

参考:Bibliography

[1] Gudibande, Arnav, et al. "The false promise of imitating proprietary llms." arXiv preprint arXiv:2305.15717 (2023).

[2] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).
[3] Taori,  Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).
[4] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).
[5] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).
[6] Radford, Alec, et al. "Language Models are Unsupervised Multitask Learners."
[7] Gou, Jianping, et al. "Knowledge distillation: A survey." International Journal of Computer Vision 129 (2021): 1789-1819.
[8] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).
[9] Dylan Patel and Afzal Ahmad. Google “we have no moat, and neither does OpenAI”, 2023.
[10] Hendrycks, Dan, et al. "Measuring massive multitask language understanding." arXiv preprint arXiv:2009.03300 (2020).
[11] Chen, Mark, et al. "Evaluating large language models trained on code." arXiv preprint arXiv:2107.03374 (2021).
[12] Kwiatkowski, Tom, et al. "Natural questions: a benchmark for question answering research." Transactions of the Association for Computational Linguistics 7 (2019): 453-466.
[13] Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).
[14] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
[15] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).
[16] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.
[17] Wang, Yizhong, et al. "Self-Instruct: Aligning Language Model with Self Generated Instructions." arXiv preprint arXiv:2212.10560 (2022).



附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究

H𝕀:Humanity Intelligence [Sys1&2@BNN] 

A𝕀:Artifical Intelligence [LLM@ANN] 

𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-] 

ℙarad𝕚g𝕞:认知范式或BNN认知大模型 

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑;H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑




往期推荐



微调工程研究系列·转译(3) | 开源LLM的历史:模仿与对齐(三)

AI平方范式智库·数学系列E03S01 | 神经网络背后的数学

AI平方范式智库·访谈系列E03S02|从语言游戏到LLM智能体

AI平方范式智库·访谈系列E03S01 | 从预训练模型到可靠可用AGI



扫码加群,

链接智库!


AI平方范式智库



继续滑动看下一个
AI2Paradigm
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存