查看原文
其他

OPPO大模型AndesGPT测评揭晓,Agent智能体表现不俗|SuperCLUE

SuperCLUE CLUE中文语言理解测评基准
2024-09-09

本测评结果仅用于学术研究。

  AndesGPT大模型简介  

安第斯大模型(AndesGPT)是OPPO自主训练的大语言模型,基于其打造的新小布于10月11日正式开放内测,引起科技社区的广泛热议。作为国内知名的智能手机厂商之一,OPPO自主训练的AndesGPT包含了一系列不同参数规模的大语言模型,从十亿起步,最高多达千亿级,可支撑多元化的应用场景。那么,AndesGPT在我们的测评集上效果如何?与国内外大厂以及科研机构开发的代表性模型相比相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样?
我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3458道题对AndesGPT进行了全方位测评。
测评环境

参考标准:SuperCLUE综合性测评基准

评测模型:AndesGPTv2023.10.11beta


评测集:共3458道中文题,包括选择题和简答题。本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。


模型GenerationConfig配置:

  • generate_length: 2048

测评方法:本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。


先说结论

结论1:在SuperCLUE基准上,AndesGPT在综合能力上表现不俗,处于中文闭源模型第一梯队,是一个很有竞争力的大模型。结论2:AndesGPT在专业能力与知识维度上具备很强优势,包括知识与百科、计算等方面。另外在Agent智能体能力上表现可圈可点。结论3:各项任务相对均衡,语言类任务上并无明显短板,尤其侧重于对话能力。


以下是我们从定量定性两个角度对模型进行的测评分析。

测评分析


1  定量分析

我们参考9月SuperCLUE榜单的国内外代表性模型,用以对比AndesGPT大模型的表现。

SuperCLUE大模型综合评测

注:总分=60%*OPEN+40%OPT。


通过测评结果我们可以看到,在9月superclue评测集上AndesGPT在国内闭源模型中表现不俗。AndesGPT在十大基础能力上的表现

注:十大能力分数为OPEN分数和OPT分数的加权平均。

通过评测结果我们可以看到,AndesGPT在十大任务上非常均衡,并且通过与中文闭源模型平均成绩对比发现,AndesGPT在各项任务上均在平均线之上。尤其是在代码、知识百科、上下文对话、角色扮演、Agent智能体等多个能力有较大优势。

注:中文代表模型平均是由9月SuperCLUE评测中文模型的总分平均得来。


小结


从评测数据我们发现,AndesGPT在综合能力上表现可圈可点,在总分上处于国内大模型第一梯队。并且能力上文理兼备,在代码、知识百科、上下文对话、角色扮演、Agent智能体方面都表现不错。
需注意的是,本次选取的与AndesGPT对比的大模型为9月评测结果,部分模型在10月份已有更新,大家参考时请注意被测模型具体版本。


2  定性分析
通过一些典型示例,对比定性分析AndesGPT的特点。

逻辑与推理

在本示例的第一轮问题中,两个模型都回答正确,根据已知信息,A盒子中的球只能是绿色的。这与参考答案完全一致。对于第二个问题,如果再加一个盒子D和一个蓝色的球,在上述的条件下,A盒子中的球可能是什么颜色的?AndesGPT的回答(绿色或蓝色)与参考答案一致,而gpt-3.5-turbo的回答(红色或绿色)则有误。在这个问题上,AndesGPT的回答更准确。


计算

在本示例中,两个模型提供了正确的方法来解决问题,它们都正确地计算了导数,然后在x=2和x=3的时候正确地计算了导数的值。并且它们都详尽清晰地解释了求导步骤。

知识百科

AndesGPT的回答提供了详细的、丰富的神经元相关知识,gpt-3.5-turbo的回答也展示了神经元的基本分类、数量、功能以及与神经纤维的关系,两个模型的回答都基本准确,相关度也相对较高。

生成与创作

在本示例中,两个模型都提供了详细且富有感染力的广告文案,并且都强调了节能灯泡对环保的贡献以及消费者的选择对环保的影响。两者都遵循了用户的需求,包括主题、语言风格、吸引点和呼吁行动等元素。但在详细程度上来看,gpt-3.5-turbo表现更好。我们猜测可能是因为AndesGPT更侧重于手机端侧的使用,内容更倾向于简洁、易用。


语言理解与抽取

在考察这两个模型的回答时,我们可以发现它们都非常好地回应了用户的问题,以自己的语言解释了给定的句子。但两个模型在第一个问题中都忽略了“简单描述”,而对于第二轮指令要求再简练一点时,都比较好的完成了第一轮回答的简化。所以在本示例中表现基本一致。

Agent智能体


两个模型的回答都提供了类似的步骤来规划和调用API以完成任务。它们都包括了用户注册、生成验证码、发送激活邮件、验证码验证和用户激活等步骤,并且顺序上也是一致的。虽然gpt-3.5-turbo的回答在描述每个步骤时更加详细,并提到了具体的参数,但在实际规划和调用API的过程中,这些细节可以根据具体的编程语言和框架来处理。因此,在回答质量方面,两个模型的回答基本相同,都能提供实用、相关、准确、深入、创造性和详细的信息。


小结


从定性分析的示例我们可以发现,AndesGPT几个关键基础能力上很接近gpt-3.5-turbo,尤其在知识百科、计算方面有很不错的表现,在生成与创作等语言任务上生成内容较为简洁,这可能是可以后续持续研究探讨的问题。


更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。



评测不足与局限性

1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但还需进一步提高自动化测评的准确性。

2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。


3. 当前各个大模型厂商在快速迭代中,我们报告的其他模型的成绩是9月底的,但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。


4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。



联系交流

 (二维码失效可以在公众号后台回复Andes加入)   延伸阅读SuperCLUE技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

https://arxiv.org/abs/2307.15020

CLUE官网地址:

https://www.cluebenchmarks.com

SuperCLUE的GitHub地址:

https://github.com/CLUEbenchmark/SuperCLUE

LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B

相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存