OpenBuddy最新开源700亿参数大模型评测揭晓,擅长代码、推理|SuperCLUE
近日,OpenBuddy社区正式发布了OpenBuddy-LLaMA2-70B大语言模型,这是迄今为止该社区训练出的最大参数规模模型,除了本次发布的700亿参数模型之外,OpenBuddy社区已经推出了3B、7B、13B、30B、40B、65B等多种规模的模型,同时还支持中文,英文,日文,韩文,法文,德文等多种语言。并且据OpenBuddy官方自测,70B的认知能力和逻辑推理能力,有机会成为GPT3.5的开源平替。
因此,我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评Super CLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3337道题对OpenBuddy-LLaMA2-70B进行了测评。
结论
1.OpenBuddy-LLaMA2-70B在专业类能力上表现优异,如逻辑推理、代码和计算,尤其代码能力在被测模型中处于第一梯队。但在语言生成类任务上有一定提升空间。
2.OpenBuddy-LLaMA2-70B整体表现较好,与中文代表性闭源模型相比依然有一定竞争力。
3.基于开源模型训练的大参数量级的模型,会是一个不错的选择和未来的方向。
定量分析
SuperCLUE大模型综合评测:
注:总分=50%*OPEN分+50%*OPT分。
共有623题,针对一个特定问题,利用超级模型作为评判官,被评估的模型相对于基线模型(如gpt-3.5)的胜、平局或失败的个数;胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)。win,即胜,tie即平,loss即负。
OPT三大能力客观题评测:
OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务,共2714题。
详细评测方法可访问:
在SuperCLUE基础十大能力评估中,我们发现该模型在多个能力上具有较好的表现,部分任务有比较大的改进空间。
1.表现出色的能力:
逻辑与推理(51.51)
计算(48.11)
代码(65.24)
语言理解与抽取(75.37)
在上面的4个能力上,均处于被测模型中靠前排名。
2.表现不足的能力:
在语言生成方面相对表现较弱。生成与创作能力只有35.23分。
定性分析
1. 基础能力的例子
比如给定一个主题进行诗歌的续写,我们可以看到GPT3.5在细节和创作性上完成的很好,OpenBuddy-LLaMA2-70B虽然也紧扣主题,但是在诗歌后半段有重复的情况发生。
两个模型都正确地理解了用户的问题,并且都得出了相同的结论——所提供的文字具有积极的情感色彩。两者都注意到了尽管考试很难并且作者感到沮丧,但作者对自己的努力表示满意。
3. 复杂任务(计算、逻辑推理、代码等)的例子
2)逻辑推理
3)代码
评估的不足与局限性
4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。
延伸阅读
SuperCLUE-Open:中文通用大模型开放式与多轮测评基准
SuperCLUE-Open的GitHub地址:
OpenBuddy的GitHub地址:
https://github.com/OpenBuddy/OpenBuddy
LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
点击阅读原文,查看SuperCLUE评测详情