书生成数学“课代表”,上海AI实验室开源发布书生·浦语数学,计算推理能力刷新上限
The following article is from 上海人工智能实验室 Author Shanghai AI Lab
1月23日,上海人工智能实验室(上海AI实验室)开源发布新一代数学模型书生·浦语数学(InternLM2-Math)。基于书生·浦语2.0(InternLM2)强大的基础能力,InternLM2-Math仅以中轻量级参数规模,即在多项数学评测中刷新开源模型数学能力上限;此外,InternLM2-Math不仅会“解题”,更会“判题”,突破了传统数学大模型应用局限,将为数学基础研究和教学提供优质应用基座。
InternLM2-Math为首个同时支持形式化数学语言及解题过程评价的开源模型,以强大内生计算和推理能力,为技术社区提供强大数学工具和模型范式。秉持“以高质量开源赋能创新”的理念,InternLM2-Math代码和模型完全开源,并支持免费商用。
数学能力是大语言模型推理水平的重要体现。近日,谷歌 DeepMind 运用AI数学模型AlphaGeometry解几何题,其水平已接近人类奥林匹克金牌得主,引发广泛关注。当前,全球数学大模型领域研究取得了突出进展,但与顶尖人类水平相比仍然存在差距。上海AI实验室将继续以开源开放理念,与全球研究人员合作,共同探索提升语言模型数学推理能力的提升路径。
开源链接
GitHub:
https://github.com/InternLM/InternLM-Math
Huggingface:
https://huggingface.co/internlm
ModelScope:
https://modelscope.cn/organization/Shanghai_AI_Laboratory
四两拨千斤,轻量级选手刷新能力上限
GSM8K:OpenAI提出的英文小学算数习题集,共1000余题;
MATH:UC Berkeley提出的英文初高中竞赛习题集,共5000题;
匈牙利数学竞赛评测集:用来衡量模型在非常见分布上的数学性能的测试集,共30余小问,通过专家校阅进行打分。
数学课代表是怎样炼成的
会解题也会判题的“AI名师”
2024-01-19
2024-01-17