查看原文
其他

检验大模型数学推理能力,司南发布全新评测指标与评测集

Shanghai AI Lab 上海人工智能实验室
2024-12-30

提升AI深度推理水平,被视作实现通用人工智能(AGI)的关键技术之一,备受学术界及产业界关注。各厂商及研究机构聚焦推理能力及逻辑思维能力,近期相继推出各类强推理模型。


面对复杂任务和实际应用场景,强推理模型的可靠性究竟如何?近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在客观地检验大模型的数学推理能力,为行业提供更加精准可信的评测结果,助力强推理模型性能提升,加速大模型在高难度推理场景中的落地应用。

基于最新提出的评测集及指标,OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到:

• 闭源、开源模型均无法进行稳定的复杂推理;

• 增大参数规模对推理能力提升有限;

• 强推理模型的性能潜力和实际表现之间存在显著的差距,‍亟待解决在实现最佳性能的同时保持稳定性。

当前主流通用大模型、数学大模型及强推理模型在传统评测指标与全新评测指标下的得分率对比。其中蓝色为通用大模型,橙色为数学大模型,紫色为强推理模型,每组柱状图从左至右分别为该模型基于Pass@k、Greedy Accuracy及G-Pass@k的得分率。结果显示,在全新指标G-Pass@k上,模型平均性能表现下降达50%,推理能力表现仍不稳定。

技术报告:

https://arxiv.org/abs/2412.13147

项目地址:

https://github.com/open-compass/GPassK


模拟真实用户方式,揭示推理模型稳定性差异

OpenCompass团队模拟真实用户多次使用同一模型,解决复杂问题的使用场景,提出了全新的G-Pass@k评测指标,兼顾模型性能潜力与稳定性评测。
此前,作为传统的大模型评测指标,Pass@k常用于衡量模型在进行多次推理时的性能表现,关注模型在多次生成中至少给出一次正确答案的概率。假设模型生成次数为n,考察k次尝试,c表示其中正确解的数量,则  的计算方式为:
  
而在真实使用场景中,为了提升生成答案的多样性,模型往往会使用采样解码的方式进行推理,带来大量随机性。对于复杂推理任务的执行过程,这种随机性会严重影响模型性能。因此,以Pass@k为代表的传统评测指标,侧重模型的性能潜力,缺乏对鲁棒性的关注,在实际的评测中存在局限。

为此,研究人员在Pass@k的基础上,通过引入阈值τ,构建了G-Pass@k评测指标,关注模型在n次生成中,至少有 次生成正确答案的概率。不同于传统Pass@k中关注的“至少有一个正确答案”,G-Pass@k关注“至少有多次生成正确答案”的概率,因而带来一定程度的稳定性评估。
  的计算方式如下:

  
可以发现,在τ较小时,  衡量模型的性能潜力;τ较大时,  衡量模型的稳定性,即考察模型对于问题的掌握程度。研究者由此可通过  连续地观察模型的性能潜力与稳定性。

值得关注的是,当 τ 时,  相等,这意味着  是  的特例,  更具泛化性,适合多样化任务评测。

图中展示了在  时不同的  下  和  的值。可以看出在τ较小时,两者反映的是模型的潜力,而在  的整体通过率下,  指标的值可以接近80%。当τ数值较高时,更能够观察到模型在实际任务中的真实性能。


减少数据污染,贴近考试场景的复杂数学评测集

为避免数据污染,更好地模拟现实世界中的数学考试等复杂推理场景,OpenCompass团队开发了全新的评测集LiveMathBench用于实验验证。
该数据集汇集了中国数学奥林匹克、高考模拟题、美国数学竞赛及普特南数学竞赛等最新的题目,尽量减少了数据污染可能性。当前,LiveMathBench(2024年12月版)包括238道题目,覆盖不同难度题型。为提升评测集易用性,每道题目均提供中英双语版本。LiveMathBench将持续更新,长期为评测大模型真实数学能力提供权威评测基础。

为探究模型真实推理能力,基于G-Pass@k指标和LiveMathBench评测集,OpenCompass团队对比了当前主流通用模型、数学模型和强推理模型的性能表现。同时,研究人员还抽选了公开评测集MATH500和AIME2024的题目组成对照评测集,以更好地获取减少数据污染情况下的对照结果。
LiveMathBench性能对比

实验结果显示,在LiveMathBench中,大部分闭源模型和开源模型在  指标上表现均不佳。OpenAI o1-mini模型获得了最高分42分,在所有受测模型中性能下降比例最低(36.9%,以Greedy为基准),但该稳定性的变化仍然难以忽视。

Math-500-L5/AIME2024-45性能对比

实验结果显示,在公开高中竞赛题目评测集MATH500-L5中,多数模型性能表现均有所提升;在难度较高的 AIME2024评测集上,能力最强的OpenAI o1-mini的  得分也仅有15.6,表明模型在面对复杂推理场景时,稳定性仍难以保证。

通过一系列实验,研究人员还发现,简单增大参数并不能显著提升性能或稳定性,同一架构不同参数规模的模型,推理能力的准确性和稳定性上表现相似。深度理解和逻辑推理任务不仅需要模型具备记忆和模式识别能力,更需要强大的推理和上下文理解能力。与此同时,当前模型的性能潜力和实际表现之间存在显著的差距,一些模型在单次任务上表现出高准确率,但在保持一致高准确率方面却不稳定,远未达到最佳性能,如何在保持接近最佳性能的同时确保输出的稳定性,或将成为强推理领域的重点突破方向。
继续滑动看下一个
上海人工智能实验室
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存