其他
LLMs评估综述-A Survey on Evaluation of Large Language Models
写在前面
大家好,我是刘聪NLP。
好久没有在公众号上发布内容啦,并不是停止了创作,只是一直在知乎上更新,懒得在复制一份。但下半年主打勤奋,准备将逐步将知乎内容进行同步。
今天刷到了一篇大型语言模型评估综述的Paper-《A Survey on Evaluation of Large Language Models》,只感叹,不仅大型语言模型卷的厉害,评估体系也是同步在卷。
个人觉得这是个好事情,不同评估系统侧重点不用,可以充分挖掘LLM的潜在能力,从多种角度来分析LLM的优劣,但请不要以打榜为目的来训练LLM。
Paper: https://arxiv.org/pdf/2307.03109.pdf
Github: https://github.com/MLGroupJLU/LLM-eval-survey
该篇综述主要汇总了大型语言模型在进行评估时,一般评估什么内容、在哪儿进行评估和如何评估。下面内容均参考该论文的Github,并且作者也表示会持续更新,请感兴趣的同学同步关注。
评估什么内容
Natural language processing
「自然语言理解」
Robustness, ethics, biases, and trustworthiness
「鲁棒性」
Social science
Natural science and engineering
「数学」
Medical application
「医学问答」
Agent applications
Other applications
「教育」