大模型基准测试体系研究报告(2024年)
大模型
近几年,大模型推动人工智能技术迅猛发展,如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。
来源 | 中国信息通信研究院(转载请注明来源)
编辑 | 数据君
近日,中国信息通信研究院(简称“中国信通院”)联合多家机构发布《大模型基准测试体系研究报告(2024年)》。
报告主要内容
1. 基准测试已赋能大模型“建用管”全生命周期的多个阶段,在大模型研发、应用和管理中扮演重要角色。据中国信通院统计,截至2023年底,产学研各界已经报道325个大模型基准测试的相关数据集、方法和榜单等研究成果。其中针对大模型的通用语言类评测数据集最多,占比超过50%,而对大模型产业应用效果的评测数据集和方法论相对缺乏,亟需产学研各界重点关注。
大模型基准测试领域占比分布
2. 与传统认为Benchmark仅包含评测数据集不同,大模型基准测试体系包括关键四要素:测试指标体系、测试数据集、测试方法和测试工具。指标体系定义了“测什么?”,测试方法决定“如何测?”,测试数据集确定“用什么测?”,测试工具决定“如何执行?”
大模型基准测试体系构成
3. 虽然当前大模型基准测试发展迅速,涉及内容范围广泛,但仍存在一些挑战性问题,主要包括:建立规范化的评测体系、构建面向产业应用的基准、模型安全能力评估、评测结果与用户体验的差异、测试数据集的“污染”问题和评测数据集的“饱和”使用问题。
4. 为提供大模型基准测试体系的规范化建设思路,2023年底,中国信通院发布“方升”大模型基准测试体系。“方升”测试体系涵盖基准测试的4个关键要素,即指标体系、测试方法、测试数据集和测试工具。其从行业、应用、通用和安全能力4个维度全面评估大模型的表现,特别将重点评估大模型的产业应用效果,这对大模型的落地具有重要参考价值。
“方升”大模型基准测试体系
5. 中国信通院于2024年初启动“方升”首轮试评测,针对大模型的通用、行业、应用和安全能力进行全方位评测。被测对象为30多家国内外主流的闭源(商业)大模型和开源大模型,如GPT-4、Qwen-72B- Chat、LLaMA2等。报告公布了本次开源大模型的评测结果,可以发现开源大模型的表现除了依赖模型参数量,还与模型版本迭代时间相关。
开源大模型评测榜单结果
6. 大模型基准测试不应该仅仅作为大模型研发的终点,以发布测试榜单为目的,更重要的是切实发现大模型问题,驱动大模型能力的提升,指导大模型的研究方向和应用路线。因此,产学研各界应该在探索新的测试方法、构建自动化测试平台以及共享高质量评测数据集等方面协同发力。
报告原文
下载请至微信公众号首页私信:0713,有效期3天。
获取报告留言方式如下,超时请根据下方提示,至『数据观·知识服务平台』获取
『数据观·知识服务平台』
扫码获取最新行业研报及信息
▐ 热点洞悉
百度公告:36亿美元收购案终止 注册资金10亿!华为成立新公司 再封锁!美国决心“阻止中国获得AI算力” 推出“中文版Sora”?字节跳动回应 事关6G!美英法等10国联合声明 聚焦 | 2024年全国两会的“AI声音” 300亿参数!苹果大模型首次曝光 小米深夜连发三文怒怼:必须道歉! 福布斯发布“AI 50”榜单,中国企业遗憾缺席 斗鱼 CEO 陈少杰取保候审 理想MEGA身陷千门最毒“麻衣局” 影响未来3-5年的十大新兴技术
▐ 行业报告
▐ 国际要闻
▐ 数据观出品
31省市数字经济发展规划(2024版) 关于人工智能的60条趋势预测 11省市发布地方版“数据二十条” 31省市数据要素发展规划(2024版) 盘点 | 全国25个数据资产入表案例 31省市数字政府“十四五”规划重点 31省市数据要素“十四五”规划重点 31省市数字经济“十四五”规划路线图 25省市/地方公布元宇宙路线图 31省市“专精特新”政策汇总