其他
本测评结果仅用于学术研究。据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请,对Baichuan4在SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。Baichuan4体验地址:https://www.baichuan-ai.com/(已官方更新为准)测评环境参考标准:SuperCLUE综合性测评标准评测模型:Baichuan4(官方于5月19日提供的内测API版本)评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。模型GenerationConfig配置:temperature=0.3repetition_penalty=1.05top_p=0.85max_new_tokens=2048stream=false测评方法:本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。先说结论结论1:国内最佳成绩在SuperCLUE综合基准上的评测中,Baichuan4以总得分80.64分刷新了国内记录。不仅如此,它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。结论2:分类任务表现分析理科表现:在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。文科表现:在文科任务中,Baichuan4以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。结论3:全面而均衡的能力展示Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而,它在代码能力方面仍有提升的潜力。对比模型数据来源:SuperCLUE,