潜力发掘!INSTRUCTEVAL:一个专用于的大型语言模型(LLMs)的全面评估方法
引言
指令调优大型语言模型(LLMs)彻底改变了自然语言处理,不仅如此它们还可以解决数学、计算机编码、生物医学和法律等领域的复杂任务。例如:GPT-4、LLaMA、chatGLM等。虽然此类模型具有很强的下游任务适应能力,但由于模型的黑盒性质对于模型整体能力的评估仍然存在挑战。为此,今天给大家分享的这篇文章:提出了一个「专门针对指令调优大型语言模型的全面评估方法INSTRUCTEVAL」,该评估方法可以从问题解决、写作和人类价值对齐等三个方面对模型进行全面评估。
Paper:https://arxiv.org/abs/2306.04757
Code:https://github.com/declare-lab/instruct-eval
背景介绍
指令调优大型语言模型(如 ChatGPT、LLaMA、ChatGLM、GPT-4)的出现是自然语言处理 (NLP) 领域的一个重要转折点。从聊天助手到复杂的问题解决,它们的能力在许多应用程序中都具有很好的表现。就拿目前全球最强GPT-4模型来说,它不仅在语言理解方面,而且还在数学、编码、医学和法律等不同领域都表现出很强的能力。然而,虽然此类模型具有很强的语言理解能力和下游任务适应能力,但我们对此类模型潜在能力并没有一个全面的理解。「出现这种情况的主要原因是许多模型的black-box性质,以及目前对于指令调优大型语言模型缺乏深入和整体的评估研究」。
为了应对这些挑战并更深入地了解这些模型的功能,本文引入了一个名为INSTRUCTEVAL的新型评估套件。该套件专用于对指令调优大型语言模型的全面评估,相比之前对LLMs的评估方法,该评估策略不仅详细评估了模型解决问题的能力、文字写作能力,而且还严格评估了模型与人类价值的对齐能力。
开源指令LLMs
「基础模型」 今年大型语言模型(LLMs)引起广泛的关注,目前「它已经成为一个非常广泛的概念,并没有一个明确的定义」。例如:大型语言模型可以指预训练模型、指令模型(如 GPT-4),甚至是与LLMs松耦合的应用程序。因此作者在这里主要关注开源的指令大型语言模型。下表为LLM基础模型的详细信息。
INSTRUCTEVAL介绍
为了能够对指令LLMs进行全面的评估,作者引入了一个专用于LLMs的评估套件,称为 INSTRUCTEVAL。为了涵盖模型的通用能力,在问题解决、文字写作、价值对齐等三个方面对模型进行全面评估,在任务设置方面,INSTRUCTEVAL既有可以客观评分的任务,也有需要定性评判的任务,如下图所示:
「文字写作能力评估」 指令LLMs除了具备解决问题的能力外,它们在文字写作方面也展现出了令人印象深刻的能力。例如:信件撰写、道德辩论等。具体地说,作者在信息性写作、专业写作、议论文写作和创造性写作的不同使用场景中评估模型的写作能力。例如,信息性写作涉及用户查询,如自助建议或对各种概念的解释,而专业写作可能在商业环境中采用演示文稿或电子邮件的形式。另一方面,议论文写作需要模型来讨论道德和社会问题的立场,而创意写作则涉及不同的写作形式,如故事、诗歌和歌曲。具体如下图所示:
实验结果
下表展示了指令LLMs在「问题解决能力上的评估结果」。作者对十多个开源模型进行评估,整体来说受指令引导的LLM与其各自的基础模型相比,解决问题能力有了很大的提升。
推荐阅读
[2]Goat-7B干翻GPT-4,超PaLM-540B!24G可训练
[4]Meta最新模型LIMA,没有RLHF远胜Alpaca!!
[5]DTG一种简单有效的Prompt方法,激发LLM能力!
[6]LLMs与AutoGPT结合:揭示GPT-4惊人决策能力!