出门问问大模型「序列猴子」测评揭晓,擅长创作、代码、知识百科|SuperCLUE
本测评结果仅用于学术研究。
序列猴子简介
那么,序列猴子在SuperCLUE测评集上效果如何?与国内外大厂以及科研机构开发的代表性模型相比相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样?
我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3754道题对序列猴子进行了全方位测评。
评测模型:序列猴子
评测集:共3754道中文测试题,606道多轮简答题和3148道客观选择题。
模型GenerationConfig配置:
do_sample:true max_new_tokens:2048 repetition_penalty: 1.02 temperature: 0.5 top_k: 40 top_p: 0.75
测评方法:
本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
结论1:在SuperCLUE基准上,序列猴子综合能力表现不俗,在大模型创业公司中位于前列。
结论2:序列猴子在各个任务上表现相对均衡,未发现特别明显的能力短板。尤其在生成与创作、代码、知识百科任务上表现优异,数学任务上还有一定优化空间。
结论3:通过测评结果发现,序列猴子大模型更适合于文案写作、知识对话应用等领域。
测评分析
SuperCLUE大模型综合评测
注:十大能力分数为OPEN分数。
序列猴子在SuperCLUE十大能力上表现相对均衡,未发现有明显的能力短板。
序列猴子在知识百科、生成与创作、代码能力上表现不俗,在国内大模型很有竞争力。
小结:
通过评测数据我们发现,序列猴子大模型综合能力表现不俗,十大能力的表现相对均衡,其中在生成与创作、代码、知识百科、传统安全能力上有较好的表现。
需注意的是,本次对比模型选取的是10月评测数据,未来会进一步测评国内大模型的最新进展。在这个示例中,两个模型都生成了符合需求的Python函数,它们都正确地实现了功能,接受一个字符串列表和一个前缀,并返回以前缀开头的字符串列表,也都正确地使用了字符串的startswith()方法来检查字符串是否以指定的前缀开头。
在本示例的第一轮问题中,序列猴子首先计算了函数在x=1处的导数,然后根据导数找到了切线的斜率,最后利用点斜式找到了切线的方程。这个过程不仅正确,而且透明清晰,易于理解。 但是在第二轮问题中,错误的给出了x=2的切线方程。在计算能力上,序列猴子的稳定性需要进一步优化。
在本示例中,序列猴子准确回答了两轮问题,并且推理过程清晰。而gpt-3.5-turbo第一轮和第二轮问题推理过程中都犯了错误,导致最终得出错误答案。在本示例中,序列猴子表现较好。
小结:
(也可以在公众号后台回复序列猴子加入)
相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model