查看原文
其他

OpenBuddy最新开源700亿参数大模型评测揭晓,擅长代码、推理|SuperCLUE

SuperCLUE CLUE中文语言理解测评基准
2024-09-09

近日,OpenBuddy社区正式发布了OpenBuddy-LLaMA2-70B大语言模型,这是迄今为止该社区训练出的最大参数规模模型,除了本次发布的700亿参数模型之外,OpenBuddy社区已经推出了3B、7B、13B、30B、40B、65B等多种规模的模型,同时还支持文,英文,日文,韩文,法文,德文等多种语言。并且据OpenBuddy官方自测,70B的认知能力和逻辑推理能力,有机会成为GPT3.5的开源平替。

那么OpenBuddy-LLaMA2-70B的性能如何,在我们的测评集上是否能有不错的表现?与国内外大厂以及科研机构开发的代表性模型相比相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样呢?

因此,我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评Super CLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3337道题OpenBuddy-LLaMA2-70B进行了测评。

话不多说,先看成绩~ 

结论



1.OpenBuddy-LLaMA2-70B在专业类能力上表现优异,如逻辑推理、代码和计算,尤其代码能力在被测模型中处于第一梯队。但在语言生成类任务上有一定提升空间。

2.OpenBuddy-LLaMA2-70B整体表现较好,与中文代表性闭源模型相比依然有一定竞争力。

3.基于开源模型训练的大参数量级的模型,会是一个不错的选择和未来的方向。


以下是我们从定量定性两个角度对模型进行的测评分析。

定量分析



SuperCLUE大模型综合评测:

注:总分=50%*OPEN分+50%*OPT分。

评测方法:
OPEN多轮开放问题评测:

共有623题,针对一个特定问题,利用超级模型作为评判官,被评估的模型相对于基线模型(如gpt-3.5)的胜、平局或失败的个数;胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)。win,即胜,tie即平,loss即负。

OPT三大能力客观题评测

OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务,共2714题。

详细评测方法可访问:

8月榜单!SuperCLUE中文大模型评测基准最新排名发布

解读|8月SuperCLUE大模型评测体系、方法及变动说明

OpenBuddy-LLaMA2-70B在十大基础能力上的表现:
注:十大基础能力分数=50%*OPEN分+50%*OPT分

在SuperCLUE基础十大能力评估中,我们发现该模型在多个能力上具有较好的表现,部分任务有比较大的改进空间

1.表现出色的能力:

  • 逻辑与推理(51.51)

  • 计算(48.11)

  • 代码(65.24)

  • 语言理解与抽取(75.37)

在上面的4个能力上,均处于被测模型中靠前排名

2.表现不足的能力:

语言生成方面相对表现较弱。生成与创作能力只有35.23分

定性分析



1. 基础能力的例子

1)生成与创作

比如给定一个主题进行诗歌的续写,我们可以看到GPT3.5在细节和创作性上完成的很好,OpenBuddy-LLaMA2-70B虽然也紧扣主题,但是在诗歌后半段有重复的情况发生。

2)语言理解与抽取

两个模型都正确地理解了用户的问题,并且都得出了相同的结论——所提供的文字具有积极的情感色彩。两者都注意到了尽管考试很难并且作者感到沮丧,但作者对自己的努力表示满意。

3. 复杂任务(计算、逻辑推理、代码等)的例子

1)计算
在第一题中,两个模型回答都完全正确,且清晰地表达了求解过程,正确地计算出了导函数和二阶导函数。但在第二轮求解3阶导函数时,OpenBuddy-LLaMA2-70B犯了一个错误,给出的三阶导函数为 y’‘’(x) = 36x + 12,而GPT3.5则给出了正确答案。这说明OpenBuddy-LLaMA2-70B在计算难度提升时,会有不稳定的情况出现。

2)逻辑推理

在给定的示例中,第一轮对话,两个模型都回答了正确答案“二月”,但OpenBuddy-LLaMA2-70B的原因分析中混入了很多错误的信息。但在第二轮对话中,OpenBuddy-LLaMA2-70B则指出闰年二月有29天,这比GPT3.5的回答更为准确。

3)代码

两个模型都给出了在Swift编程中实现这个功能的有效代码。OpenBuddy-LLaMA2-70B的回答更注重代码的简洁性和解释,而GPT3.5的回答更注重直观性和实际应用。根据这些因素,我们认为两者的回答都非常优秀,各有特点,可以视具体需要和编程熟练程度来选择使用。

评估的不足与局限性



1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但进一步的分析还可以包括人类对模型的评估
2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估
3. 当前各个大模型厂商在快速迭代中,虽然我们报告的数字是最新的,模型的快速迭代可能会导致后续相对表现的进一步变化

4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。


延伸阅读



论文:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark
https://arxiv.org/abs/2307.15020

SuperCLUE-Open:中文通用大模型开放式与多轮测评基准

https://www.cluebenchmarks.com/superclue_open.html

SuperCLUE-Open的GitHub地址:

https://github.com/CLUEbenchmark/SuperCLUE-Open

OpenBuddy的GitHub地址:

https://github.com/OpenBuddy/OpenBuddy

LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B

相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language models
 (二维码失效可以在公众号后台回复Openbuddy加入)
  

点击阅读原文,查看SuperCLUE评测详情
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存