其他
检验大模型数学推理能力,司南发布全新评测指标与评测集
提升AI深度推理水平,被视作实现通用人工智能(AGI)的关键技术之一,备受学术界及产业界关注。各厂商及研究机构聚焦推理能力及逻辑思维能力,近期相继推出各类强推理模型。
面对复杂任务和实际应用场景,强推理模型的可靠性究竟如何?近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在客观地检验大模型的数学推理能力,为行业提供更加精准可信的评测结果,助力强推理模型性能提升,加速大模型在高难度推理场景中的落地应用。
• 闭源、开源模型均无法进行稳定的复杂推理;
• 增大参数规模对推理能力提升有限;
• 强推理模型的性能潜力和实际表现之间存在显著的差距,亟待解决在实现最佳性能的同时保持稳定性。
技术报告:
https://arxiv.org/abs/2412.13147
项目地址:
https://github.com/open-compass/GPassK
模拟真实用户方式,揭示推理模型稳定性差异
减少数据污染,贴近考试场景的复杂数学评测集