天工大模型测评揭晓,文理兼顾,跻身中文闭源模型第一梯队|SuperCLUE
本测评结果仅用于学术研究。
天工大模型简介
天工大模型是昆仑万维自研的千亿级大语言模型,于今年4月17日首发内测。近日,CLUE社区发现「天工」大模型v3.5在多个评测数据集上表现抢眼,尤其在推理评测集GSM8K上超过了GPT-3.5和LLaMA2-70B,引起了CLUE社区众多开发者广泛热议。
我们基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT,用3337道题对天工大模型进行了全方位测评。
测评环境
参考标准:SuperCLUE综合性测评基准
评测模型:天工大模型v3.5.20230915.a
评测集:共3337道中文题,其中623道简答题和2714道选择题。包括基础能力、学术专业、中文特性三大评测维度的74个评测任务。
模型GenerationConfig配置:
generate_length: 2048 repetition_penalty: 1 temperature: 0.8 top_k: 3 top_p: 1
测评方法:本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
先说结论
结论1:在SuperCLUE基准上,天工大模型在综合能力上处于中文闭源模型第一梯队,是一个很有竞争力的大模型。
结论2:天工大模型进一步缩小中文闭源模型与GPT3.5的差距。
结论3:天工大模型是一个能力均衡的大模型,各个任务上表现无明显短板,并且在语言理解、计算和逻辑推理能力上较为突出。
测评分析
我们参考8月SuperCLUE榜单的国内外代表性模型,用以对比天工大模型的表现。
注:总分=50%*OPEN+50%OPT。
注:十大能力分数为OPEN分数和OPT分数的加权平均。
小结:
需注意的是,本次评测的天工大模型为9月15日更新版本,对比的其他国内模型为8月评测结果,后续SuperCLUE会进一步对比。
逻辑与推理
计算
生成与创作
语言理解与抽取
小结:
更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。
评测不足与局限性
1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但还需进一步提高自动化测评的准确性。
2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。
3. 当前各个大模型厂商在快速迭代中,我们报告的其他模型的成绩是8月底的,但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。
4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。
联系交流
https://arxiv.org/abs/2307.15020
天工大模型的体验地址:https://tiangong.kunlun.com/
CLUE官网地址:https://www.cluebenchmarks.com
SuperCLUE的GitHub地址:
https://github.com/CLUEbenchmark/SuperCLUE
LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language model