查看原文
其他

潜力发掘!INSTRUCTEVAL:一个专用于的大型语言模型(LLMs)的全面评估方法

ShuYini AINLPer 2024-04-23

点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 指令调优大型语言模型(LLMs)彻底改变了自然语言处理,不仅如此它们还可以解决数学、计算机编码、生物医学和法律等领域的复杂任务。例如:GPT-4、LLaMA、chatGLM等。虽然此类模型具有很强的下游任务适应能力,但由于模型的黑盒性质对于模型整体能力的评估仍然存在挑战。为此,今天给大家分享的这篇文章:提出了一个「专门针对指令调优大型语言模型的全面评估方法INSTRUCTEVAL」,该评估方法可以从问题解决、写作和人类价值对齐等三个方面对模型进行全面评估。

Paper:https://arxiv.org/abs/2306.04757

Code:https://github.com/declare-lab/instruct-eval

背景介绍

 指令调优大型语言模型(如 ChatGPT、LLaMA、ChatGLM、GPT-4)的出现是自然语言处理 (NLP) 领域的一个重要转折点。从聊天助手到复杂的问题解决,它们的能力在许多应用程序中都具有很好的表现。就拿目前全球最强GPT-4模型来说,它不仅在语言理解方面,而且还在数学、编码、医学和法律等不同领域都表现出很强的能力。然而,虽然此类模型具有很强的语言理解能力和下游任务适应能力,但我们对此类模型潜在能力并没有一个全面的理解。「出现这种情况的主要原因是许多模型的black-box性质,以及目前对于指令调优大型语言模型缺乏深入和整体的评估研究」

 为了应对这些挑战并更深入地了解这些模型的功能,本文引入了一个名为INSTRUCTEVAL的新型评估套件。该套件专用于对指令调优大型语言模型的全面评估,相比之前对LLMs的评估方法,该评估策略不仅详细评估了模型解决问题的能力、文字写作能力,而且还严格评估了模型与人类价值的对齐能力。

开源指令LLMs

「基础模型」 今年大型语言模型(LLMs)引起广泛的关注,目前「它已经成为一个非常广泛的概念,并没有一个明确的定义」。例如:大型语言模型可以指预训练模型、指令模型(如 GPT-4),甚至是与LLMs松耦合的应用程序。因此作者在这里主要关注开源的指令大型语言模型。下表为LLM基础模型的详细信息。「指令数据集」 指令模型的核心是应用指令数据来对基础LLM进行训练。数据质量、数据数量、数据的多样性和格式都可以决定指示模型的行为。下表为作者收集的几个开源指令数据集的详细信息。「开源指令LLMs」 在考虑了支持指令LLMs的预训练基础模型和数据收集后,作者整理基础模型、模型大小、指令数据集和每个指令LLM使用的训练方法。具体如下图所示:

INSTRUCTEVAL介绍

 为了能够对指令LLMs进行全面的评估,作者引入了一个专用于LLMs的评估套件,称为 INSTRUCTEVAL。为了涵盖模型的通用能力,在问题解决、文字写作、价值对齐等三个方面对模型进行全面评估,在任务设置方面,INSTRUCTEVAL既有可以客观评分的任务,也有需要定性评判的任务,如下图所示:「问题解决能力评估」  为了评估指令LLMs 的问题解决能力,作者采用了多个基准,涵盖了不同主题、复杂指令、数学算术、代码编程和因果关系的真实考试。为了能够在这些基准测试中表现良好,模型需要具备广泛的世界知识、多跳推理、创造力等。在本小节中,我们详细介绍了用于评估各种问题解决方面的基准。

「文字写作能力评估」 指令LLMs除了具备解决问题的能力外,它们在文字写作方面也展现出了令人印象深刻的能力。例如:信件撰写、道德辩论等。具体地说,作者在信息性写作、专业写作、议论文写作和创造性写作的不同使用场景中评估模型的写作能力。例如,信息性写作涉及用户查询,如自助建议或对各种概念的解释,而专业写作可能在商业环境中采用演示文稿或电子邮件的形式。另一方面,议论文写作需要模型来讨论道德和社会问题的立场,而创意写作则涉及不同的写作形式,如故事、诗歌和歌曲。具体如下图所示:「价值对齐能力评估」 随着模型的能力越来越强,使模型与人类价值对齐以减轻意外或负面后果变得至关重要。值得注意的是,即使是表现出卓越解决问题能力的LLM也可能无法很好地符合人类的偏好。为了评估指令LLMs对人类价值观的理解能力,作者整合了HHH基准,在‘Helpfulness’、‘Honesty’、‘Harmlessness’等三个方面对指令LLMs进行评估。基准包含61个与诚实相关的,59个与帮助相关的,58个与无害相关的,以及43个来自“其他”类别的样本。下表展示了每个类别的示例:

实验结果

 下表展示了指令LLMs在「问题解决能力上的评估结果」。作者对十多个开源模型进行评估,整体来说受指令引导的LLM与其各自的基础模型相比,解决问题能力有了很大的提升。 下表展示了指令LLMs在「文字写作能力上的评估结果」。发现模型在信息性、专业性、论证性和创造性写作类别中表现一致,展示了他们的泛化写作能力。然而,表现出更高问题解决能力的模型可能没有更好的写作能力。 下表展示了指令LLMs在「人类价值对齐能力上的评估结果」。通过分析发现:与‘Harmless’相比,基础模型通常在‘Helpful’和‘Honesty’方面表现出更高程度的一致性。

推荐阅读

[1]模块化Prompt多任务预训练,可快速适应下游任务!

[2]Goat-7B干翻GPT-4,超PaLM-540B!24G可训练

[3]5月总结,10篇论文:了解大语言模型最新进展!

[4]Meta最新模型LIMA,没有RLHF远胜Alpaca!!

[5]DTG一种简单有效的Prompt方法,激发LLM能力!

[6]LLMs与AutoGPT结合:揭示GPT-4惊人决策能力!

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存