查看原文
其他

2024年大模型基准测试体系:推动人工智能技术进步与产业应用的全面评估

为您赋能的 Dataweekly
2024-09-18

点击蓝字 关注我们

近年来,人工智能领域的迅猛发展得益于大模型技术的突破性进展。在这样的背景下,如何全面、客观地评估大模型的能力,已成为业界、学术界、研究界和用户群体共同关注的焦点。

近日,中国信息通信研究院(简称“中国信通院”)携手众多机构,发布了《大模型基准测试体系研究报告(2024年)》。

该报告深入探讨了大模型基准测试的重要性,它不仅贯穿于大模型的构建、应用和管理的全生命周期,而且在这些环节中发挥着至关重要的作用。据中国信通院的统计数据显示,截至2023年底,已有325项关于大模型基准测试的数据集、方法和榜单等研究成果被广泛报道。其中,通用语言类评测数据集尤为突出,占据了半数以上的份额。然而,面向大模型产业应用效果的评测数据集和方法论尚显不足,这迫切需要各方的共同关注和努力。

大模型基准测试领域占比分布

大模型基准测试体系并非仅包含评测数据集,而是由四个关键要素构成:测试指标体系、测试数据集、测试方法和测试工具。这四大要素相互关联,共同定义了测试的范围和执行方式——指标体系明确了测试的目标("测什么?"),测试方法规划了测试的途径("如何测?"),测试数据集提供了测试的素材("用什么测?"),而测试工具则确保了测试的实施("如何执行?")。

大模型基准测试体系构成

尽管大模型基准测试领域发展迅速,内容广泛,但仍面临一些挑战,包括建立规范化的评测体系、面向产业应用的基准构建、模型安全能力的评估、评测结果与用户体验的差异、测试数据集的“污染”问题以及“饱和”使用问题等。

为了应对这些挑战,中国信通院在2023年底发布了“方升”大模型基准测试体系,旨在提供规范化建设的新思路。“方升”测试体系全面覆盖了基准测试的四个关键要素,从行业、应用、通用和安全能力四个维度对大模型进行全面评估,特别强调了对大模型产业应用效果的评估,这为大模型的实际应用提供了重要的参考价值。

“方升”大模型基准测试体系

2024年初,中国信通院启动了“方升”首轮试评测,对30多家国内外主流闭源和开源大模型进行了全方位的评测。评测结果揭示了开源大模型表现的多维度影响因素,包括模型参数量和模型版本迭代时间。这些发现不仅为大模型的研发和优化提供了指导,也为大模型的产业应用指明了方向。

开源大模型评测榜单结果

大模型基准测试不仅是研发的终点,更是发现问题、提升能力、指导研究方向和应用路线的重要手段。因此,产学研各界应共同努力,在探索新的测试方法、构建自动化测试平台和共享高质量评测数据集等方面实现突破,共同推动大模型技术的进步和应用。

来源:数据观

全球数据资产大会



随着数字经济的蓬勃发展,数据资产已成为企业竞争力的关键。面对数据资产入表落地面临的诸多挑战,全球数据资产理事会作为一个非营利性组织,将充分发挥优势,协同全球顶尖的数据资产专家、学者和企业精英,构建有利于数据资产入表的生态体系。关注详细信息请点击下面链接。

Dataweekly联系方式

了解更多数据要素、数据资产、行业活动,可扫描下方⬇⬇⬇二维码或点击加入Dataweekly数据生态群,了解全国各行业各领域数字化政策、采购需求、标准规范文件、项目解决方案、顶层可研设计方案资料。


往期推荐

继续滑动看下一个
Dataweekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存