OPPO大模型AndesGPT测评揭晓,Agent智能体表现不俗|SuperCLUE
本测评结果仅用于学术研究。
AndesGPT大模型简介
我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3458道题对AndesGPT进行了全方位测评。
测评环境
参考标准:SuperCLUE综合性测评基准
评测模型:AndesGPTv2023.10.11beta
评测集:共3458道中文题,包括选择题和简答题。本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。
模型GenerationConfig配置:
generate_length: 2048
先说结论
结论1:在SuperCLUE基准上,AndesGPT在综合能力上表现不俗,处于中文闭源模型第一梯队,是一个很有竞争力的大模型。结论2:AndesGPT在专业能力与知识维度上具备很强优势,包括知识与百科、计算等方面。另外在Agent智能体能力上表现可圈可点。结论3:各项任务相对均衡,语言类任务上并无明显短板,尤其侧重于对话能力。测评分析
我们参考9月SuperCLUE榜单的国内外代表性模型,用以对比AndesGPT大模型的表现。
注:总分=60%*OPEN+40%OPT。
注:十大能力分数为OPEN分数和OPT分数的加权平均。
注:中文代表模型平均是由9月SuperCLUE评测中文模型的总分平均得来。
小结:
需注意的是,本次选取的与AndesGPT对比的大模型为9月评测结果,部分模型在10月份已有更新,大家参考时请注意被测模型具体版本。
逻辑与推理
计算
知识百科
生成与创作
语言理解与抽取
Agent智能体
两个模型的回答都提供了类似的步骤来规划和调用API以完成任务。它们都包括了用户注册、生成验证码、发送激活邮件、验证码验证和用户激活等步骤,并且顺序上也是一致的。虽然gpt-3.5-turbo的回答在描述每个步骤时更加详细,并提到了具体的参数,但在实际规划和调用API的过程中,这些细节可以根据具体的编程语言和框架来处理。因此,在回答质量方面,两个模型的回答基本相同,都能提供实用、相关、准确、深入、创造性和详细的信息。
小结:
更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。
评测不足与局限性
1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但还需进一步提高自动化测评的准确性。
2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。
3. 当前各个大模型厂商在快速迭代中,我们报告的其他模型的成绩是9月底的,但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。
4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。
联系交流
https://arxiv.org/abs/2307.15020
CLUE官网地址:https://www.cluebenchmarks.com
SuperCLUE的GitHub地址:
https://github.com/CLUEbenchmark/SuperCLUE
LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model