查看原文
其他

LLMs评估综述-A Survey on Evaluation of Large Language Models

刘聪NLP NLP工作站 2024-04-07

写在前面

大家好,我是刘聪NLP。

好久没有在公众号上发布内容啦,并不是停止了创作,只是一直在知乎上更新,懒得在复制一份。但下半年主打勤奋,准备将逐步将知乎内容进行同步。

今天刷到了一篇大型语言模型评估综述的Paper-《A Survey on Evaluation of Large Language Models》,只感叹,不仅大型语言模型卷的厉害,评估体系也是同步在卷。

个人觉得这是个好事情,不同评估系统侧重点不用,可以充分挖掘LLM的潜在能力,从多种角度来分析LLM的优劣,但请不要以打榜为目的来训练LLM。

Paper: https://arxiv.org/pdf/2307.03109.pdf
Github: https://github.com/MLGroupJLU/LLM-eval-survey

该篇综述主要汇总了大型语言模型在进行评估时,一般评估什么内容、在哪儿进行评估和如何评估。下面内容均参考该论文的Github,并且作者也表示会持续更新,请感兴趣的同学同步关注。

评估什么内容

Natural language processing

「自然语言理解」
「推理」「自然语言生成」「多语言任务」「事实性」

Robustness, ethics, biases, and trustworthiness

「鲁棒性」「伦理与偏见」「可信性」

Social science

Natural science and engineering

「数学」「科学」「工程」

Medical application

「医学问答」「医学考试」「医学教育」「医学助手」

Agent applications

Other applications

「教育」「搜索推荐」「性格测试」「其他任务」

去哪儿进行评估

如何进行评估

自动评估

人工评估


请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存