查看原文
其他

出门问问大模型「序列猴子」测评揭晓,擅长创作、代码、知识百科|SuperCLUE

SuperCLUE CLUE中文语言理解测评基准
2024-09-09

本测评结果仅用于学术研究。

  序列猴子简介  

「序列猴子」是出门问问自研的大语言模型,能力体系涵盖知识、对话、数学、逻辑、推理、规划等维度。据了解,出门问问基于序列猴子大模型的创作能力,推出了面向全球创作者的内容创作产品【魔音工坊】、【奇妙元】等,以及面向企业的AI交互式数字员工生成平台【奇妙问】。
「序列猴子」大模型已于近日正式向全社会开放,其产品深耕于文案场景,包括同义转写、风格转写、PPT文案生成等。出门问问AIGC产品目前已在全球范围内为数千万用户提供AI服务。

那么,序列猴子在SuperCLUE测评集上效果如何?与国内外大厂以及科研机构开发的代表性模型相比相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样?

我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3754道题对序列猴子进行了全方位测评。

测评环境

参考标准:SuperCLUE综合性测评基准

评测模型:序列猴子


评测集:共3754道中文测试题,606道多轮简答题和3148道客观选择题。


模型GenerationConfig配置:

  • do_sample:true
  • max_new_tokens:2048
  • repetition_penalty: 1.02
  • temperature: 0.5
  • top_k: 40
  • top_p: 0.75

测评方法:

本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论

结论1:在SuperCLUE基准上,序列猴子综合能力表现不俗,在大模型创业公司中位于前列。

结论2:序列猴子在各个任务上表现相对均衡,未发现特别明显的能力短板。尤其在生成与创作、代码、知识百科任务上表现优异,数学任务上还有一定优化空间。

结论3:通过测评结果发现,序列猴子大模型更适合于文案写作、知识对话应用等领域。

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1  定量分析
我们参考10月SuperCLUE榜单的国内外代表性模型,用以对比序列猴子的表现。

SuperCLUE大模型综合评测

注:1.其他对比模型为SuperCLUE于10月25日测评结果;2.总分=60%*OPEN+40%OPT。

通过测评结果我们可以看到,序列猴子综合得分62.89,整体位于国内大模型 TOP10。尤其在SuperCLUE-OPT三大能力客观题上表现亮眼。
序列猴子在十大基础能力上的表现

注:十大能力分数为OPEN分数。

序列猴子在SuperCLUE十大能力上表现相对均衡,未发现有明显的能力短板。

序列猴子在知识百科、生成与创作、代码能力上表现不俗,在国内大模型很有竞争力。

小结


通过评测数据我们发现,序列猴子大模型综合能力表现不俗,十大能力的表现相对均衡,其中在生成与创作、代码、知识百科、传统安全能力上有较好的表现。

需注意的是,本次对比模型选取的是10月评测数据,未来会进一步测评国内大模型的最新进展。
2  定性分析
通过一些典型示例,对比定性分析序列猴子的特点。
代码

在这个示例中,两个模型都生成了符合需求的Python函数,它们都正确地实现了功能,接受一个字符串列表和一个前缀,并返回以前缀开头的字符串列表,也都正确地使用了字符串的startswith()方法来检查字符串是否以指定的前缀开头。

计算

在本示例的第一轮问题中,序列猴子首先计算了函数在x=1处的导数,然后根据导数找到了切线的斜率,最后利用点斜式找到了切线的方程。这个过程不仅正确,而且透明清晰,易于理解。 但是在第二轮问题中,错误的给出了x=2的切线方程。在计算能力上,序列猴子的稳定性需要进一步优化。

逻辑与推理

在本示例中,序列猴子准确回答了两轮问题,并且推理过程清晰。而gpt-3.5-turbo第一轮和第二轮问题推理过程中都犯了错误,导致最终得出错误答案。在本示例中,序列猴子表现较好。

生成与创作

在本示例中,两个模型都创作了符合要求的广告标语,在第二轮问答中序列猴子的广告文案注重咖啡和酒精的完美结合,同时不忘强调饮酒安全,与GPT3.5的创作文案相比,更具有吸引力。
知识与百科
在本示例中,序列猴子关于汉朝最后一个皇帝的信息准确、详实,并且正确回答出了挟天子以令诸侯的典故。相比之下,GPT3.5在第一轮问题中就错误的指出汉朝最后一个皇帝是刘辩,与正确答案有较大偏差。

小结


从定性分析的示例我们可以发现,序列猴子在几个关键基础能力上很接近gpt-3.5-turbo,尤其在代码、知识百科和生成与创作上的部分题目会好于gpt-3.5-turbo。但在计算能力上依然存在不稳定的情况,需要进一步提升正确性。


更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。



评测不足与局限性
1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但还需进一步提高自动化测评的准确性。
2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。

3. 当前各个大模型厂商在快速迭代中,我们报告的对比模型是10月底的数据,但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。

4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。

联系交流

 (也可以在公众号后台回复序列猴子加入)

  
延伸阅读
SuperCLUE技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark
https://arxiv.org/abs/2307.15020
序列猴子开放平台:
https://openapi.mobvoi.com
CLUE官网地址:https://www.cluebenchmarks.comSuperCLUE的GitHub地址:https://github.com/CLUEbenchmark/SuperCLUELMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B

相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model

   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存