查看原文
其他

Meta最新模型:LIMA-65B,没有RLHF,模型效果远胜Alpaca!!

ShuYini AINLPer 2023-07-10
点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 大型语言模型的训练分为两个阶段:(1)无监督地从原始文本中进行预训练以学习通用表示;(2)进行大规模指令调优和强化学习,以更好地对齐特定任务和用户偏好。今天给大家分享的这篇文章是Meta发布的最新研究成果:即,在没有任何RLHF的情况下,使用1000个精心筛选的提示和响应「对LLaMA-65B进行微调得到了LIMA模型」,实验表明该模型展现出了非常强大的性能,最后作者指出「几乎所有大型语言模型的知识都是在预训练期间学习的,仅需要有限的指导调整数据来教模型产生高质量的输出」。https://arxiv.org/pdf/2305.11206.pdf

背景介绍

 通过大量的数据对语言模型进行预训练,使它们能够学习通用的表示形式并成功的预测出下一个表示,通过迁移可以适配任何语言理解和生成任务。为了实现这种转移,目前已经提出了各种对齐语言模型的方法,主要集中在通过大规模的数据集(上百万)进行指令调优,以及基于人工反馈的强化学习(RLHF)。现有的对齐方法需要大量计算和专业数据才能实现类似ChatGPT的性能。但是「本文证明了,只要有一个强大的预训练语言模型,只需在1000个精心筛选的训练示例上进行微调,就可以实现相当强的性能」

 本文认为对齐是一个简单的过程。为了验证这个假设,精选了1000个近似真实用户提示和高质量回复样本。其中,考虑到数据的质量和多样性,从社区论坛中选择了750个最佳的问题和回答,如Stack Exchange和wikiHow;除此之外,为进一步优化任务多样性,手动编写了250个提示和回复的示例,强调以AI助手的响应风格,最后应用这1000组数据微调LLaMA-65B得到LIMA。

 在300个具有挑战性的测试提示中将LIMA与最先进的语言模型产品进行了比较。在人类偏好研究中,发现LIMA优于OpenAI 的DaVinci-003(基于RLHF训练)以及Alpaca-65B(基于52000个例子上训练得到的)。虽然目前人们更侧重喜欢GPT-4、Claude和Bard的响应生成,但情况并非总是如此,相比之下LIMA分别在43%、46%和58%的案例中产生了相同或更好的响应。「对LIMA响应生成进行绝对量化后,发现88%的回复符合提示要求,其中50%被认为是优秀的」

 消融实验表明,在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显着增加。此外,尽管对话示例为零的情况下,我们发现LIMA可以进行连贯的多轮对话,并且可以通过向训练集中仅添加30个手工制作的多轮对话来显着提高模型对话能力。

对齐假设

 本文呢定义了“表面对齐假设”:「模型的知识和能力几乎完全是在预训练期间学习的,而对齐则教会它在与用户交互时应该使用哪种格式分布」。如果这个假设是正确的,并且对齐主要是关于学习风格,那么表面对齐假设的一个推论是,可以用相当少的例子充分调整一个预训练的语言模型。

 为此,本文收集了一个包含1000个提示和响应的数据集,其中输出(响应)在风格上相互一致,但输入(提示)是多种多样的。具体来说,主要是寻求有用的AI助手风格的输出。「我们从各种来源整理此类示例,主要分为社区问答论坛和手动编写的示例」。我们还收集了一个包含300个提示的测试集和一个包含50个提示的开发集。下表1显示了不同数据源的概览并提供了一些统计数据。

LIMA训练

 对于模型LIMA的训练。主要是利用1000个示例对齐的训练数据集对LLaMA进行微调。为了区分说话人(用户和助手),在每个话语结束时引入一个特殊的回合结束标记(EOT),「这个标记的作用与停止生成的EOS相同,但避免了预训练模型可能赋予EOS标记的任何其他含义」

 我们遵循标准微调超参数:使用AdamW微调15个 epoch,其中 ,权重衰减0.1。在没有预热步骤的情况下,将初始学习率设置为,并在训练结束时线性衰减到。批量大小设置为32个示例(对于较小的模型为64个),超过2048个标记的文本将被修剪。与常规训练的一个显着区别是残差dropout的使用;我们遵循Ouyang 等人的方法,对残差连接应用dropout,从底层的开始,在最后一层将速率线性提高到(对于较小的模型,)。「我们发现困惑度与生成质量无关」,因此使用保留50个示例的开发集手动选择第5个和第10个时期之间的2个检查点。

实验结果

 本文研究了五种不同的语言模型(Alpaca 65B,DaVinci003,Bard,Claude和GPT-4)产生的输出结果在人类偏好测验和GPT-4偏好测验中的表现,实验结果如下图所示: 研究发现,「虽然Alpaca 65B拥有比其他模型更多的训练数据,但其产生的输出结果却普遍不如LIMA好」;DaVinci003的表现也类似,尽管其采用了更好的对齐方法RLHF。相反,Bard表现出比LIMA好的趋势,但同时也有58%的情况下,LIMA的输出结果跟Bard同等好或更好。最后,虽然Claude和GPT-4的表现普遍比LIMA好,但仍有一些情况下,LIMA的输出结果实际上更好,甚至连GPT-4也有19%的情况下喜欢LIMA的输出结果。

本文通过消融实验研究了训练数据的多样性、质量和数量对模型性能的影响。实验使用了一个7B参数的语言模型,在不同数据集上进行微调,针对不同研究问题,实验比较了不同数据集的效果,以及对数据进行不同的过滤处理后,模型性能的差异。如下图所示: 其中,实验结果表明,从Stack Exchange数据集中「挑选质量较高的数据,在控制数据量的前提下,可以提高模型的性能」;同时,通过对比Stack Exchange和wikiHow数据集,实验发现更具「多样性的数据可以提高模型性能」。但是「单纯提高模型训练数据并不能提高模型性能」

推荐阅读

[1]强!中科院调研了27个大模型,并指出5个重要挑战

[2]5月份,最值得关注的十篇顶级论文

[3]三种Prompt方法大幅提升大模型LLMs推理能力

[4]一文了解大型语言模型的上下文学习能力(ICL)

[5]大型语言模型落地对话系统,该从哪些方面入手?

[6]MPT-7B:可商用的开源模型,效果堪比LLaMA-7B

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存