查看原文
其他

「AI搜索」基准测评方案发布

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

随着人工智能技术的迅速发展,AI搜索正在逐步改变人们获取信息的方式。虽然传统搜索引擎可以满足大部分需求,但在处理复杂查询、理解用户意图和提供个性化服务方面仍存在局限。AI搜索通过运用大数据分析、自然语言处理和机器学习等技术,更加精准地理解用户查询,并提供更丰富、个性化的搜索结果。
为了确保AI搜索技术的进步真正满足用户需求并推动行业创新,对其能力的测评变得尤为重要。为此,我们推出了 SuperCLUE-AISearch 测评方案,用于评估大模型在AI搜索中的表现。它不仅考察核心能力,包含丰富的场景应用,而且设置了多样化的挑战性问题进行考察。该方案能够为技术研发提供反馈,帮助开发者识别和优化模型的不足,推动建立行业公认的评价标准,促进AI搜索技术的健康持续发展。

排行榜地址:https://www.superclueai.com


# SuperCLUE-AISearch测评体系

SuperCLUE产品象限(AI搜索) 效果图


1. 特点

(1)多维能力评估
测评方案全面覆盖多领域知识、信息检索与整合、分析与推理、语义理解与跨领域关联等核心能力,确保AI搜索模型在复杂任务中具备高效、精准的表现。
(2)结合场景化应用
通过教育、商业、文化、娱乐及科技等实际场景的应用测试,评估AI搜索的实用性和相关性,确保其在多种实际需求中表现出色并提供有价值的建议。
(3)严谨的评价标准

该方案设立了严格的知识准确性、逻辑性、时效性等评价标准,确保AI搜索技术不仅能准确获取和整合信息,还能提供逻辑清晰且有效的解决方案。

2. 测评任务

维度一:能力任务

评估AI搜索模型在知识覆盖、信息整合、推理分析、语义理解和最新信息获取方面的能力,确保其能处理复杂问题并提供准确、全面的答案。

1)多领域知识覆盖与准确性
评估AI搜索在各个领域内的知识掌握水平,要求模型具备广泛的知识领域覆盖和高精度的知识点提供,特别是在专业化领域中的深度理解。

示例:请列举巴洛克时期的著名作曲家,说明他们的代表作品,解释每位作曲家作品中音乐风格的发展变化,讨论其作品对后世古典音乐流派(如古典主义、浪漫主义)的影响,并选取至少三部作品,分析其音乐结构(例如调性、节奏、配器)和文化背景对创作的影响,特别是在当时社会、宗教、政治环境下的作用。

2)信息检索与整合能力
考察AI搜索能否从大规模数据中高效检索和筛选相关信息,并能够对复杂的多源信息进行逻辑性的整合,形成完整且一致的结果。

示例:整理2023年全球主要芯片制造公司的研发投入排名,对比2020-2023年期间这些公司的研发投入变化趋势,分析各公司研发投入增长或下降的原因(如市场需求、技术创新、政府政策等),并结合各公司研发投入对其全球市场份额、技术领先优势和行业竞争格局的影响,预测未来三年内全球芯片制造行业的格局变化。

3)分析与推理能力
测评AI模型对复杂问题的分析与推理能力,特别是其在处理数据计算、逻辑推导以及问题解决中的表现。

示例:从北京出发,依次经过上海、广州、成都,再返回北京,计算每种交通方式下的总距离,还需估算每段旅程的行驶时间与费用,并提供一份表格对比分析三种出行方式的距离、时间和成本优劣,并结合中国不同城市的气候,分析在不同季节进行这段旅程时可能遇到的交通挑战,如冬季的冰雪天气对自驾行程的影响,或雨季对飞行航班的干扰,评估可能的影响对行程距离与时间的变化。

4)最新信息获取与时效性
考察模型获取和处理最新信息的能力,尤其是在快速变化的技术和市场中,要求模型能够及时更新,并准确传达最新的行业动态或技术进展。

示例:分析一下2024年诺贝尔物理学奖的获奖者及其研究领域,详细介绍每位获奖者的主要研究领域,并解析他们的研究如何推动了物理学领域的进步,特别是哪些物理理论或实验突破使得他们获得诺贝尔奖。结合最新的物理学进展,分析这些研究的前瞻性和现实意义。

维度二:场景应用

衡量AI搜索在教育、商业、文化、娱乐和科技领域的实际应用表现,评估其信息相关性、实用性和表达清晰度。

1)教育与学术研究
AI搜索在学术研究和教育场景中的应用能力,包括提供高质量的学术资料、研究趋势分析以及教育课程建议等。

示例:请列举全球范围内提供人工智能博士项目的顶尖大学,对于每所大学,介绍其人工智能博士项目的核心设置,包括课程内容、研究方向、入学要求、导师团队及实验室设施等,特别说明该项目在全球范围内的学术声誉与排名情况。

2)商业与市场分析
评估AI搜索在商业应用中的表现,涉及市场趋势预测、竞争分析、投资机会评估等任务的有效性和准确性。

示例:请分析我国奶茶连锁品牌的市场份额分布及未来发展趋势,列举国内主要奶茶连锁品牌的市场份额,分析头部品牌(如喜茶、奈雪的茶、蜜雪冰城等)的市场占有率和区域覆盖范围,并对比不同品牌在一线、新一线及二线城市的市场表现,说明这些品牌在各区域市场的扩展策略。

3)文化与历史解读
AI搜索在文化和历史背景下的表现能力,尤其是在提供深度解读、跨文化分析及历史事件背景等方面的应用情况。

示例:请深入分析古希腊哲学对现代民主制度的影响,讨论古希腊尤其是雅典城邦的直接民主制度的发展过程,分析公民大会、陪审法庭、轮流担任公职等制度设计,并探讨这些设计如何启发了现代代议制民主制度的产生。

4)娱乐与网络文化
评估AI搜索在娱乐产业和网络文化中的表现,涉及社交媒体、热点事件分析以及网红文化等方面的精准理解和信息传达。

示例:请列举在近半年内抖音平台爆红的网红,按不同领域进行分类(如美食、时尚、美妆、健身、生活技巧、科技解说等),分别说明他们的主要内容特点、风格定位及与粉丝互动的方式,并分析这些网红的粉丝增长趋势、点赞量和互动率,评估其在抖音平台的流量表现,说明他们如何通过短视频、直播等方式吸引观众注意,探讨这些网红是否有跨平台影响力(如微博、小红书等)。

5)科技与编程支持
考察AI搜索在编程技术支持、技术文档提供以及代码问题解决等科技场景中的应用,要求准确传递技术解决方案并具备实践指导意义。

请列举Python的主要机器学习框架,详细分析这些框架在深度学习中的表现,讨论它们在模型构建、灵活性、性能优化、GPU加速及易用性方面的优缺点,特别是PyTorch和TensorFlow在工业应用和学术研究中的不同定位。

3. 评估方法与思路

1)评分标准

针对各个大模型在测评任务中的回答质量评估,我们在能力任务中针对不同维度采用了各自的评估标准;而在场景应用中则使用统一的评估标准,以全面反映大模型在AI搜索任务上的表现。

注:具体的评估标准及权重以正式发布的测评报告为准。

2)评估案例

我们采用了国内外的大模型来回答我们准备的问题,并使用超级模型对大模型的回答进行自动化的评估。以下分别为2个评估案例的初步结果:
案例1:能力任务
问题:请列举巴洛克时期的著名作曲家,说明他们的代表作品,解释每位作曲家作品中音乐风格的发展变化,讨论其作品对后世古典音乐流派(如古典主义、浪漫主义)的影响,并选取至少三部作品,分析其音乐结构(例如调性、节奏、配器)和文化背景对创作的影响,特别是在当时社会、宗教、政治环境下的作用。
模型(国际大模型 1)回答:

超级模型评分(对于国际大模型 1):

对这个答案进行评估如下:

1.知识准确性(5分):

回答中的事实基本正确,作曲家、代表作品和风格发展的描述准确;基于标准1的得分:4分。

得分:4/5


2.领域覆盖度(5分):

回答涵盖了主要作曲家及其影响,但缺少对至少三部作品的详细音乐结构和文化背景分析;

基于标准2的得分:3分。

得分:3/5


3.专业深度(5分):

对各领域的阐述较为概括,缺乏对作品细节的深入探讨,专业深度不足;基于标准3的得分:2分。

得分:2/5


综合以上,AI助手的回答的综合得分为 3 分。

模型(国产大模型 1)回答:

超级模型评分(对于国产大模型 1):

对这个答案进行评估如下:

1.知识准确性(5分)

回答总体准确,提供了关于作曲家及其作品的正确信息,仅在末尾有小的遗漏;因此基于标准1

的得分:4分。

得分:4/5


2.领域覆盖度(5分)

回答涵盖了大部分要求的内容,但缺乏对音乐结构和文化背景在社会、宗教、政治环境下的详

细分析;因此基于标准2的得分:3分。

得分:3/5


3.专业深度(5分)

回答有一定深度,但需要更深入地探讨每部作品的音乐结构和文化因素的影响,以展示深入理解;

因此基于标准3的得分:3分。

得分:3/5


综合以上,AI助手的回答的综合得分为 3.33 分。

案例2:场景应用

问题:请列举全球范围内提供人工智能博士项目的顶尖大学,对于每所大学,介绍其人工智能博士项目的核心设置,包括课程内容、研究方向、入学要求、导师团队及实验室设施等,特别说明该项目在全球范围内的学术声誉与排名情况。
模型(国际大模型 1)回答:

超级模型评分(对于国际大模型 2):

对这个答案进行评估如下:

1.可靠与相关性(5分)

回答提供了关于全球顶尖大学人工智能博士项目的总体信息,包括课程内容、研究方向、入学要求、导师团队、实验室设施和学术声誉等,信息基本可靠且与问题密切相关。然而,部分细节可能存在更新或不准确之处,例如引用了2024年US News排名,可能超出当前的知识范围。基于标准1的得分:4分。

得分:4/5


2.实用性(5分)

回答提供了对申请者有用的概览,但缺乏具体的操作性建议,例如详细的入学要求、申请流程或项目独特优势等,实用性稍有不足。基于标准2的得分:3分。

得分:3/5


3.表达清晰度(5分)

内容组织清晰,使用了标题和要点,便于阅读和理解。语言表达流畅,信息呈现方式有

助于读者快速获取所需内容。基于标准3的得分:5分。

得分:5/5


综合以上,AI助手的回答的综合得分为 4 分。

模型(国产大模型 2)回答:

超级模型评分(对于国产大模型 2):

对这个答案进行评估如下:

1.可靠与相关性(5分)

回答列举了全球范围内的顶尖大学,并详细介绍了各自的人工智能博士项目。但内容过于泛泛,部分信息可能不准确,如统一要求硕士学位、GRE成绩等,且未提及非美国的顶尖大学,缺乏全面性。基于标准1的得分:3分。

得分:3/5


2.实用性(5分)

回答提供了课程内容、研究方向和入学要求等信息,对有意申请者有一定参考价值。但由于细节不足,信息较为概括,无法帮助读者深入比较各项目的特色,实用性有限。基于标准2的得分:3分。

得分:3/5


3.表达清晰度(5分)

回答结构清晰,使用了标题和列表,信息组织有序,便于理解和阅读。基于标准3的得分:5分。

得分:5/5


综合以上,AI助手的回答的综合得分为 3.66 分。

3)测评集构建

AI搜索任务中文题库构建流程:

1. 参考现有的题目

2. 中文题目撰写

3. 小批量测试

4. 修改并确定中文题目

5. 基于设计好的中文题目与大模型进行提问

4)评分方法

评估流程:1.获得题目与大模型的回答-->2.依据评估标准-->3.使用评分规则-->4.进行打分

结合超级模型,在定义的指标体系里明确每一个评估标准。结合评估流程、评估标准、评分规则,将文本输入、文件送入超级模型进行评估,并获得评估结果。


测评规划(首批)

一、时间计划

1. 报名开始时间:10月16日
2. 参测模型确认:10月23日
3. 测评执行:10月23日--10月30日
4. 测评结果统计:10月30--10月4日
5. 测评报告发布:11月5日

二、测评流程

1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型

5. 获得测评报告

三、申请测评地址

邮件标题:SuperCLUE-AISearch「AI搜索」基准测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、AI搜索产品/模型简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-image

继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存