谷歌Gemini中文基准测评出炉!总分51,不敌GPT4|SuperCLUE
本测评结果仅用于学术研究。
12 月 6 日,谷歌官宣Gemini1.0版正式发布,被认为是谷歌最大、最强的人工智能模型,效果超过GPT4。Gemini是一个多模态大模型,当前公布有三种型号,Gemini Ultra(最强版本,明年推出)、Gemini Pro(中端版本,已在Bard上应用)和Gemini Nano(移动端应用)。
评测模型:Gemini Pro(通过Bard网页产品测评https://bard.google.com)
评测集:SuperCLUE-Open多轮开放式11月评测集,1052道多轮简答题,包括专业技能与知识、语言理解与生成、AI智能体和安全性四大维度的十项基础任务。
模型GenerationConfig配置:
可参考谷歌Gemini官方文档:
本次测评为多轮开放式自动化评测,通过引入基准模型,在测试题库上使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型的回答更好。
候选项包括胜、平、负,最终计算待评估模型胜率方式获得总分。
结论3:与国内第一梯队模型相比,Gemini Pro在中文能力上没有特别的优势。在多数任务上的表现不如国内第一梯队模型。
SuperCLUE-OPEN(11月)
注:国内第一梯队模型为11月SuperCLUE-Open中Top10模型
在SuperCLUE-OPEN多轮开放问题测评基准上,Gemini Pro取得51.04分,较GPT3.5-Turbo低6.12分,较GPT4和GPT4-Turbo差距较大。
Gemini Pro在十大基础能力上的表现
与国内第一梯队大模型相比,Gemini Pro在计算能力上略高于国内第一梯队平均水平,其余9项基础能力均落后。其中,在代码、生成创作、安全能力上与国内第一梯队平均水平有较大差距。
小结:
维度一:专业技能与知识
能力8:角色扮演
维度四:安全
能力10:传统安全小结:
SuperCLUE排行榜:https://www.superclueai.com
CLUE官网地址:https://www.cluebenchmarks.com