百川最新开源Baichuan2测评揭晓,理科能力提升明显,总分领跑中文开源|SuperCLUE
本测评结果仅用于学术研究。
Baichuan2简介
Baichuan2技术报告见文末
我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3337道题对Baichuan2-13B-Chat进行了全方位测评。
测评环境
参考标准:SuperCLUE综合性测评基准
评测模型:Baichuan2-13B-Chat
评测集:共3337道中文题,其中623道简答题和2714道选择题。包括基础能力、学术专业、中文特性三大评测维度的74个评测任务。
模型GenerationConfig配置:
do_sample:true max_new_tokens:2048 repetition_penalty: 1.1 temperature: 0.3 top_k: 5 top_p: 0.85
测评方法:本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
先说结论
结论1:在SuperCLUE基准上,Baichuan2-13B-Chat相较于Baichuan-13B-Chat(8月1日更新版)在大部分任务上有提升,尤其在逻辑推理、计算、代码任务上显著提升5-6分。
结论2:Baichuan2-13B-Chat与GPT3.5进一步缩小差距,从7月的5.9分缩小至3分。但距离GPT4依然有不小差距。
结论3:Baichuan2-13B-Chat在中文开源领域优势明显,在SuperCLUE中文任务上领先于Llama系列15分左右。
测评分析
我们参考8月SuperCLUE榜单的国内外代表性模型,用以对比Baichuan2的表现。
注:1.Baichuan2-13B-Chat(V2)为一代模型,于8月1日官方更新版本为V2;2.总分=50%*OPEN+50%OPT。
注:十大能力分数为OPEN分数和OPT分数的加权平均。
相较于Baichuan1的提升
相较于GPT、Llama2的情况
与gpt-3.5-turbo相比,Baichuan系列在逐渐缩小差距,从7月的5.9分缩小至3分。
与GPT4的差距略有缩小,但差距仍然很大,国产大模型仍需努力。
想较于Llama2系列模型,Baichuan2在中文上的表现持续领先于Llama系列15分-20分之间。小结:
需注意的是,Baichuan的13B系列模型的提升有缓和的趋势,不知是否会达到130亿参数量级模型的能力瓶颈。
逻辑与推理
代码
计算
在本示例的两轮问题中,Baichuan2-13B-Chat和gpt-3.5-turbo都求解出正确的导函数,并且给出清晰的解题步骤。另外求解导函数的斜率时都给出了正确的X=1和X=2时的斜率。
生成与创作
在本示例中,Baichuan2-13B-Chat和gpt-3.5-turbo表现的都不错,Baichuan2-13B-Chat的故事大纲和情节设计更为丰富和复杂,gpt-3.5-turbo的故事则更加简洁和直接。
从故事的创意性、深度和丰富性上看,Baichuan2-13B-Chat的回答更加出色。但从主题的突出和故事的易理解性上看,gpt-3.5-turbo的回答可能更适合目标读者——儿童。因此,这两个模型的回答在各自的方式上都做得很好。
语言理解与抽取
小结:
更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。
评测不足与局限性
1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但还需进一步提高自动化测评的准确性。
2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。
3. 当前各个大模型厂商在快速迭代中,虽然我们报告的数字是最新的(8月底),但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。
4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。
联系交流
https://arxiv.org/abs/2307.15020
Baichuan2技术报告:https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf
CLUE官网地址:https://www.cluebenchmarks.com
SuperCLUE的GitHub地址:
https://github.com/CLUEbenchmark/SuperCLUE
Baichuan2的GitHub地址:
https://github.com/Baichuan-inc/Baichuan2
LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model