“千模千测”——针对大语言模型认知能力的高效测试方法
论文标题:
作者:
单位:
链接:
以下图为例,CAT 中的诊断模型 CDM 会根据被试之前的作答行为(对/错)对其能力进行估计。接着,选题算法(Selection Algorithm)会根据该估计值选择最具信息量或最适合他的下一道题,例如选择难度和被试能力最接近的题目。如此循环往复直到测试结束。相比传统评估方法,该框架能用更少的题目更准确地估计模型的能力 [2]。
“千模千测”——这有可能成为评估大规模语言模型的新范式。
引言
为了充分评估 LLM 认知能力水平,一些最初为人类设计的各类专业或学术考试被用来对模型进行评测:
▲ 图2 传统 LLM 评测方法
因此,本文从认知科学领域中引入了一种新的评估模式——计算机自适应测试(Computerised Adaptive Testing, CAT),建立一个自适应的、高效的评估框架:
3. 模型 vs 模型:本文研究了 6 个有代表性大模型,并得到它们在学科知识、数学推理和编程水平三个方面的细粒度诊断报告,发现 GPT4 显著超越其他大模型,其数学推理能力已经接近中等水平的高中生。
计算机自适应测试(CAT)是一种高效的、个性化的测试模式,已被广泛应用于各类标准化考试中(如 GRE、GMAT)。它的首要目标是在准确评估被试者能力的同时尽可能缩短考试长度。相比传统的纸笔测试,CAT 的测评效率更高。本节将详细介绍本文提出的两阶段 LLM 自适应评测框架:题库构建和自适应测试。
3.1 阶段1:题库构建
IRT 基本假设是:不同的题目对于能力评估的重要性并不相同。例如,大模型 A 和 B 在某个 Benchmark 中的答对率分别为 0.88 和 0.89,他们的差距可能并不像看起来那么小,甚至并不准确。因为(1)大量简单的问题可能会淹没困难的问题,从而导致 B 无法显著地体现出其优越性;(2)数据集中或存在标注错误/噪声,可能导致这些传统指标失效。下面利用估计出的题目参数列举一些例子。
1. 难度 :当被试能力 保持不变时,难度 越大,答对的概率越小。下图是本文中的 MOOC 数据集中估计出最难和最简单的题目。解决问题 需要 ChatGPT 理解 PAC,这是计算学习理论中一个非常难理解的知识点。相比之下,最简单的问题和机器学习中的“感知机”有关,初学者也可以很容易地解决。
▲ 图5 难度
2. 区分度 :对于区分度高的问题,能力的微小变化可能会引起答对率的较大变化,因此这些题目可以更好地区分具有相似能力的被试。下图低区分度 非常简单,而且这种“垂直平分线”问题有固定的套路,很难真正区分不同能力的被试。高区分度问题 虽然也不难,但需要对原问题进行转换,并熟练掌握“圆与圆之间的位置关系”的相关知识。
3.2 阶段2:自适应测试
题库构建后,将正式进行自适应测试。主要包含两个核心模块:认知诊断模型和自适应选题算法。首先,诊断模型会根据 LLM 之前的作答情况对其能力进行估计。接着,选题算法将根据某种的信息量度量函数选择下一个对被试最有价值/最适合的题目。这两个算法交替工作,直到满足某个停止规则。
▲ 图10 自适应选择和随机选择的能力估计误差
▲ 图11 试卷的Jaccard相似度
▲ 图12 ChatGPT 和学生的 SE 曲线
本文选择了国内外较有代表性的 6 个 instruction-tuned LLM 进行评测:ChatGPT、GPT4、谷歌 Bard、百度文心一言(ERNIEBOT)、阿里通义千问(QianWen)、讯飞星火(Spark)。并将他们与高水平(High-Ability)、中等水平(Mid-Level)的人类学生进行比较。
数据集:本文选择学科知识、数学推理、编程三个领域为例对 LLM 进行细粒度评测,分别对应三个数据集:MOOC、MATH 和 CODIA。
学科知识水平(MOOC):MOOC 是目前最知名的在线学习平台之一,本数据集收集了 1.5 万大学生对计算机科学中不同知识概念(如人工智能、计算机系统等)的回答记录。 数学推理水平(MATH):该数据通过智学网收集,其中包含了超过 10 万名高中生的数学考试数据。 编程水平(CODIA):该数据由中国科学技术大学自主研发的在线编程平台 CODIA(https://code.bdaa.pro/)。提供,其中包含了来自 120 所大学的大学生的编程提交数据。
5.1 ChatGPT VS 人类
本文以 ChatGPT(蓝色)为例对其从上述三个方面进行高效诊断,并和高水平学生(红色)进行比较:
▲ 图13 编程水平对比:ChatGPT(蓝)vs 学生(红)
▲ 图15 数学推理能力对比:ChatGPT(蓝色) vs 学生(红色)
5.2 LLM排名
数学推理:高水平高中生 > GPT4 ≈ 中等水平高中生 > 星火 > Bard > 文心 > ChatGPT > 千问 编程:高水平大学生 > GPT4 > 中等水平大学生 > ChatGPT > 星火 > 文心 > 千问 > Bard 学科知识:GPT4 > Bard > ChatGPT ≈ 高水平大学生 > 中等水平大学生 > 星火 > 千问 > 文心
GPT4 在学科知识、数学推理、编程水平上明显优于其他 LLM。其学科知识水平几乎在每个知识点上都超过了高水平大学生(Top20%)。
大语言模型正逐步改变人们日常的工作和生活方式。越来越多的人尝试探索 LLM 能力边界,让它们完成传统 NLP 时代难以想象的事情,如生成代码、制作 PPT、作诗作曲等等。因此,如何科学有效地诊断并分析 LLM 的能力显得愈发重要。本文尝试引入原本用于人类的认知能力评估框架——计算机自适应测试,来对 LLM 进行评估。在相同的评估精度下,CAT 需要的测试数据更少,极大地降低了 对 LLM 评估的人工成本和计算开销。
原论文由于中国科学技术大学计算机学院 BASE(http://base.ustc.edu.cn/)课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学,包括:教育资源理解、认知诊断与学生建模、个性化教育服务等。本文希望 CAT 这一科学的评估范式可以促进 LLM 的研究与迭代,欢迎交流探讨!
参考文献
[1] Liu Q. Towards a New Generation of Cognitive Diagnosis[C]//IJCAI. 2021: 4961-4964.
[2] Zhuang Y, Liu Q, Huang Z, et al. A Robust Computerized Adaptive Testing Approach in Educational Question Retrieval[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 416-426.
[3] Sheldon M Ross. A first course in probability. Pearson, 2014.
[4] Zhuang Y, Liu Q, Huang Z, et al. Fully Adaptive Framework: Neural Computerized Adaptive Testing for Online Education[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(4): 4734-4742.
[5] C. Wang, D. J. Weiss, and Z. Shang. Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 2018.
[6] OpenAI. Gpt-4 technical report, 2023.
[7] Wim J Van der Linden and Cees AW Glas. Elements of adaptive testing, volume 10. Springer, 2010.
[8] Lin X, Huang Z, Zhao H, et al. Learning Relation-Enhanced Hierarchical Solver for Math Word Problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.
[9] Liu J, Huang Z, Lin X, et al. A cognitive solver with autonomously knowledge learning for reasoning mathematical answers[C]//2022 IEEE International Conference on Data Mining (ICDM). IEEE, 2022: 269-278.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧