LLMs评估综述-A Survey on Evaluation of Large Language Models

Original 刘聪NLP NLP工作站 2024-04-07

写在前面

大家好，我是刘聪NLP。

好久没有在公众号上发布内容啦，并不是停止了创作，只是一直在知乎上更新，懒得在复制一份。但下半年主打勤奋，准备将逐步将知乎内容进行同步。

今天刷到了一篇大型语言模型评估综述的Paper-《A Survey on Evaluation of Large Language Models》，只感叹，不仅大型语言模型卷的厉害，评估体系也是同步在卷。

个人觉得这是个好事情，不同评估系统侧重点不用，可以充分挖掘LLM的潜在能力，从多种角度来分析LLM的优劣，但请不要以打榜为目的来训练LLM。

Paper: https://arxiv.org/pdf/2307.03109.pdf
Github: https://github.com/MLGroupJLU/LLM-eval-survey

该篇综述主要汇总了大型语言模型在进行评估时，一般评估什么内容、在哪儿进行评估和如何评估。下面内容均参考该论文的Github，并且作者也表示会持续更新，请感兴趣的同学同步关注。

评估什么内容

Natural language processing

「自然语言理解」
「推理」「自然语言生成」「多语言任务」「事实性」

Robustness, ethics, biases, and trustworthiness

「鲁棒性」「伦理与偏见」「可信性」

Social science

Natural science and engineering

「数学」「科学」「工程」

Medical application

「医学问答」「医学考试」「医学教育」「医学助手」

Agent applications

Other applications

「教育」「搜索推荐」「性格测试」「其他任务」

去哪儿进行评估

如何进行评估

自动评估

人工评估

请多多关注知乎「刘聪NLP」，有问题的朋友也欢迎加我微信「logCong」私聊，交个朋友吧，一起学习，一起进步。我们的口号是“生命不止，学习不停”。

继续滑动看下一个

NLP工作站

向上滑动看下一个

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

福建一地公示！1989年出生的她，拟提任正处

马斯克：不新生毋宁死！

LLMs评估综述-A Survey on Evaluation of Large Language Models

写在前面

评估什么内容

Natural language processing

Robustness, ethics, biases, and trustworthiness

Social science

Natural science and engineering

Medical application

Agent applications

Other applications

去哪儿进行评估

如何进行评估

自动评估

人工评估

您可能也对以下帖子感兴趣

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

福建一地公示！1989年出生的她，拟提任正处

马斯克：不新生毋宁死！

生成图片，分享到微信朋友圈

LLMs评估综述-A Survey on Evaluation of Large Language Models

写在前面

评估什么内容

Natural language processing

Robustness, ethics, biases, and trustworthiness

Social science

Natural science and engineering

Medical application

Agent applications

Other applications

去哪儿进行评估

如何进行评估

自动评估

人工评估

您可能也对以下帖子感兴趣