「AI搜索」基准测评方案发布
排行榜地址:https://www.superclueai.com
SuperCLUE产品象限(AI搜索) 效果图
1. 特点
该方案设立了严格的知识准确性、逻辑性、时效性等评价标准,确保AI搜索技术不仅能准确获取和整合信息,还能提供逻辑清晰且有效的解决方案。
维度一:能力任务
评估AI搜索模型在知识覆盖、信息整合、推理分析、语义理解和最新信息获取方面的能力,确保其能处理复杂问题并提供准确、全面的答案。
示例:请列举巴洛克时期的著名作曲家,说明他们的代表作品,解释每位作曲家作品中音乐风格的发展变化,讨论其作品对后世古典音乐流派(如古典主义、浪漫主义)的影响,并选取至少三部作品,分析其音乐结构(例如调性、节奏、配器)和文化背景对创作的影响,特别是在当时社会、宗教、政治环境下的作用。
示例:整理2023年全球主要芯片制造公司的研发投入排名,对比2020-2023年期间这些公司的研发投入变化趋势,分析各公司研发投入增长或下降的原因(如市场需求、技术创新、政府政策等),并结合各公司研发投入对其全球市场份额、技术领先优势和行业竞争格局的影响,预测未来三年内全球芯片制造行业的格局变化。
示例:从北京出发,依次经过上海、广州、成都,再返回北京,计算每种交通方式下的总距离,还需估算每段旅程的行驶时间与费用,并提供一份表格对比分析三种出行方式的距离、时间和成本优劣,并结合中国不同城市的气候,分析在不同季节进行这段旅程时可能遇到的交通挑战,如冬季的冰雪天气对自驾行程的影响,或雨季对飞行航班的干扰,评估可能的影响对行程距离与时间的变化。
示例:分析一下2024年诺贝尔物理学奖的获奖者及其研究领域,详细介绍每位获奖者的主要研究领域,并解析他们的研究如何推动了物理学领域的进步,特别是哪些物理理论或实验突破使得他们获得诺贝尔奖。结合最新的物理学进展,分析这些研究的前瞻性和现实意义。
维度二:场景应用
衡量AI搜索在教育、商业、文化、娱乐和科技领域的实际应用表现,评估其信息相关性、实用性和表达清晰度。
示例:请列举全球范围内提供人工智能博士项目的顶尖大学,对于每所大学,介绍其人工智能博士项目的核心设置,包括课程内容、研究方向、入学要求、导师团队及实验室设施等,特别说明该项目在全球范围内的学术声誉与排名情况。
示例:请分析我国奶茶连锁品牌的市场份额分布及未来发展趋势,列举国内主要奶茶连锁品牌的市场份额,分析头部品牌(如喜茶、奈雪的茶、蜜雪冰城等)的市场占有率和区域覆盖范围,并对比不同品牌在一线、新一线及二线城市的市场表现,说明这些品牌在各区域市场的扩展策略。
示例:请深入分析古希腊哲学对现代民主制度的影响,讨论古希腊尤其是雅典城邦的直接民主制度的发展过程,分析公民大会、陪审法庭、轮流担任公职等制度设计,并探讨这些设计如何启发了现代代议制民主制度的产生。
示例:请列举在近半年内抖音平台爆红的网红,按不同领域进行分类(如美食、时尚、美妆、健身、生活技巧、科技解说等),分别说明他们的主要内容特点、风格定位及与粉丝互动的方式,并分析这些网红的粉丝增长趋势、点赞量和互动率,评估其在抖音平台的流量表现,说明他们如何通过短视频、直播等方式吸引观众注意,探讨这些网红是否有跨平台影响力(如微博、小红书等)。
请列举Python的主要机器学习框架,详细分析这些框架在深度学习中的表现,讨论它们在模型构建、灵活性、性能优化、GPU加速及易用性方面的优缺点,特别是PyTorch和TensorFlow在工业应用和学术研究中的不同定位。
1)评分标准
注:具体的评估标准及权重以正式发布的测评报告为准。
2)评估案例
对这个答案进行评估如下:
1.知识准确性(5分):
回答中的事实基本正确,作曲家、代表作品和风格发展的描述准确;基于标准1的得分:4分。
得分:4/5
2.领域覆盖度(5分):
回答涵盖了主要作曲家及其影响,但缺少对至少三部作品的详细音乐结构和文化背景分析;
基于标准2的得分:3分。
得分:3/5
3.专业深度(5分):
对各领域的阐述较为概括,缺乏对作品细节的深入探讨,专业深度不足;基于标准3的得分:2分。
得分:2/5
综合以上,AI助手的回答的综合得分为 3 分。
模型(国产大模型 1)回答:
对这个答案进行评估如下:
1.知识准确性(5分):
回答总体准确,提供了关于作曲家及其作品的正确信息,仅在末尾有小的遗漏;因此基于标准1
的得分:4分。
得分:4/5
2.领域覆盖度(5分):
回答涵盖了大部分要求的内容,但缺乏对音乐结构和文化背景在社会、宗教、政治环境下的详
细分析;因此基于标准2的得分:3分。
得分:3/5
3.专业深度(5分):
回答有一定深度,但需要更深入地探讨每部作品的音乐结构和文化因素的影响,以展示深入理解;
因此基于标准3的得分:3分。
得分:3/5
综合以上,AI助手的回答的综合得分为 3.33 分。
案例2:场景应用
对这个答案进行评估如下:
1.可靠与相关性(5分):
回答提供了关于全球顶尖大学人工智能博士项目的总体信息,包括课程内容、研究方向、入学要求、导师团队、实验室设施和学术声誉等,信息基本可靠且与问题密切相关。然而,部分细节可能存在更新或不准确之处,例如引用了2024年US News排名,可能超出当前的知识范围。基于标准1的得分:4分。
得分:4/5
2.实用性(5分):
回答提供了对申请者有用的概览,但缺乏具体的操作性建议,例如详细的入学要求、申请流程或项目独特优势等,实用性稍有不足。基于标准2的得分:3分。
得分:3/5
3.表达清晰度(5分):
内容组织清晰,使用了标题和要点,便于阅读和理解。语言表达流畅,信息呈现方式有
助于读者快速获取所需内容。基于标准3的得分:5分。
得分:5/5
综合以上,AI助手的回答的综合得分为 4 分。
对这个答案进行评估如下:
1.可靠与相关性(5分):
回答列举了全球范围内的顶尖大学,并详细介绍了各自的人工智能博士项目。但内容过于泛泛,部分信息可能不准确,如统一要求硕士学位、GRE成绩等,且未提及非美国的顶尖大学,缺乏全面性。基于标准1的得分:3分。
得分:3/5
2.实用性(5分):
回答提供了课程内容、研究方向和入学要求等信息,对有意申请者有一定参考价值。但由于细节不足,信息较为概括,无法帮助读者深入比较各项目的特色,实用性有限。基于标准2的得分:3分。
得分:3/5
3.表达清晰度(5分):
回答结构清晰,使用了标题和列表,信息组织有序,便于理解和阅读。基于标准3的得分:5分。
得分:5/5
综合以上,AI助手的回答的综合得分为 3.66 分。
3)测评集构建
AI搜索任务中文题库构建流程:
1. 参考现有的题目
2. 中文题目撰写
3. 小批量测试
4. 修改并确定中文题目
5. 基于设计好的中文题目与大模型进行提问
4)评分方法
评估流程:1.获得题目与大模型的回答-->2.依据评估标准-->3.使用评分规则-->4.进行打分
结合超级模型,在定义的指标体系里明确每一个评估标准。结合评估流程、评估标准、评分规则,将文本输入、文件送入超级模型进行评估,并获得评估结果。
# 测评规划(首批)
一、时间计划
二、测评流程
5. 获得测评报告
三、申请测评地址
邮件标题:SuperCLUE-AISearch「AI搜索」基准测评申请,发送到contact@superclue.ai
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-image