查看原文
其他

百川最新开源Baichuan2测评揭晓,理科能力提升明显,总分领跑中文开源|SuperCLUE

SuperCLUE CLUE中文语言理解测评基准
2024-09-09

本测评结果仅用于学术研究。

  Baichuan2简介  

近日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,均为免费可商用。并且还开源了模型训练的Check Point,同时发布了Baichuan2技术报告,详细介绍Baichuan2的训练细节。

Baichuan2技术报告见文末


那么,Baichuan2与Baichuan1相比有哪些变化?与GPT系列和Llama2相比有哪些新的趋势?Baichuan2在不同维度能力上的表现如何?
我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3337道题对Baichuan2-13B-Chat进行了全方位测评。
测评环境

参考标准:SuperCLUE综合性测评基准

评测模型:Baichuan2-13B-Chat


评测集:共3337道中文题,其中623道简答题和2714道选择题。包括基础能力、学术专业、中文特性三大评测维度的74个评测任务。


模型GenerationConfig配置:

  • do_sample:true
  • max_new_tokens:2048
  • repetition_penalty: 1.1
  • temperature: 0.3
  • top_k: 5
  • top_p: 0.85

测评方法:本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。


先说结论

结论1:在SuperCLUE基准上,Baichuan2-13B-Chat相较于Baichuan-13B-Chat(8月1日更新版)在大部分任务上有提升,尤其在逻辑推理、计算、代码任务上显著提升5-6分。


结论2:Baichuan2-13B-Chat与GPT3.5进一步缩小差距,从7月的5.9分缩小至3分。但距离GPT4依然有不小差距。
结论3:Baichuan2-13B-Chat在中文开源领域优势明显,在SuperCLUE中文任务上领先于Llama系列15分左右。


以下是我们从定量定性两个角度对模型进行的测评分析。

测评分析


1  定量分析

我们参考8月SuperCLUE榜单的国内外代表性模型,用以对比Baichuan2的表现。

SuperCLUE大模型综合评测

注:1.Baichuan2-13B-Chat(V2)为一代模型,于8月1日官方更新版本为V2;2.总分=50%*OPEN+50%OPT。


通过测评结果我们可以看到,Baichuan2在多轮开放简答题OPEN上提升将近5分,在选择题上提升为1分。Baichuan2在十大基础能力上的表现

注:十大能力分数为OPEN分数和OPT分数的加权平均。

 

相较于Baichuan1的提升

Baichuan2-13B-Chat在8个基础能力上进一步提升,在代码、计算、逻辑与推理等“理科”能力上提升明显。SuperCLUE猜测,Baichuan2此次大版本升级的主要优化方向在于解决之前“偏科”的问题。

相较于GPT、Llama2的情况

通过对比发现:

与gpt-3.5-turbo相比,Baichuan系列在逐渐缩小差距,从7月的5.9分缩小至3分。

与GPT4的差距略有缩小,但差距仍然很大,国产大模型仍需努力。

想较于Llama2系列模型,Baichuan2在中文上的表现持续领先于Llama系列15分-20分之间。

小结


从评测数据我们发现,Baichuan2重点优化了计算、逻辑推理、代码等“理科”能力,这让Baichuan2进一步缩小与gpt-3.5-turbo的差距,也进一步稳固了在中文开源领域对Llama2的领先优势。
需注意的是,Baichuan的13B系列模型的提升有缓和的趋势,不知是否会达到130亿参数量级模型的能力瓶颈。


2  定性分析
通过一些典型示例,对比定性分析Baichuan2-13B-Chat的特点。

逻辑与推理

在本示例的第一轮问题中,Baichuan2-13B-Chat的推理过程清晰,且没有错误。而gpt-3.5-turbo在推理过程中犯了一个错误,导致最终得出错误答案。在第二轮问题中,两个模型都推断出了正确答案。


代码

在这个示例中,两个模型都提供了使用scikit-learn库和Python创建和训练线性回归模型的方法,并且Baichuan2-13B-Chat还提供了模型性能评估(使用均方误差)和结果的可视化,这对于理解和解释模型预测的结果非常重要,这一点Baichuan2表现的比较好。


计算

在本示例的两轮问题中,Baichuan2-13B-Chat和gpt-3.5-turbo都求解出正确的导函数,并且给出清晰的解题步骤。另外求解导函数的斜率时都给出了正确的X=1和X=2时的斜率。


但当我们换一个难度更高的函数,并且求解函数的二阶导函数和三阶导函数时,我们发现Baichuan2-13B-Chat会在求解过程中遗漏一些求导项,而gpt-3.5-turbo相对来说比较稳定。


生成与创作

在本示例中,Baichuan2-13B-Chat和gpt-3.5-turbo表现的都不错,Baichuan2-13B-Chat的故事大纲和情节设计更为丰富和复杂,gpt-3.5-turbo的故事则更加简洁和直接。

从故事的创意性、深度和丰富性上看,Baichuan2-13B-Chat的回答更加出色。但从主题的突出和故事的易理解性上看,gpt-3.5-turbo的回答可能更适合目标读者——儿童。因此,这两个模型的回答在各自的方式上都做得很好。


语言理解与抽取

Baichuan2-13B-Chat和gpt-3.5-turbo的回答在质量上都十分接近,两者都准确地识别出了文本的情感色彩是积极的。对于客服服务和衣服的满意度的判断也都十分精准,并且都给出判断的依据。但相比之下,gpt-3.5-turbo在结构完整性和易读性上会更好一些。




小结


从定性分析的示例我们可以发现,Baichuan2在几个关键基础能力上很接近gpt-3.5-turbo,但依然存在不稳定的情况,稍微增加些难度会出现偏差。后续SuperCLUE会进一步提高难度考察Baichuan2的能力。


更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。



评测不足与局限性

1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但还需进一步提高自动化测评的准确性。

2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。


3. 当前各个大模型厂商在快速迭代中,虽然我们报告的数字是最新的(8月底),但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。


4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。



联系交流

 (二维码失效可以在公众号后台回复百川2加入)  延伸阅读SuperCLUE技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

https://arxiv.org/abs/2307.15020

Baichuan2技术报告:

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf

CLUE官网地址:

https://www.cluebenchmarks.com

SuperCLUE的GitHub地址:

https://github.com/CLUEbenchmark/SuperCLUE

Baichuan2的GitHub地址:

https://github.com/Baichuan-inc/Baichuan2

LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B

相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存