AI考生能被什么大学录取?文科可上一本,理科过二本线
继公布AI高考语数外成绩后,大模型开源开放评测体系司南(OpenCompass)近日对7个AI大模型进行了高考全科目测试,结果显示:书生·浦语2.0系列文曲星大模型(浦语文曲星)、阿里通义千问大模型Qwen2-72B以及GPT-4o再次包揽文、理科前三甲;前三名AI“考生”的文、理科成绩分别超过了“一本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。
“当前大模型仍存在很大的局限性。组织AI大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。”司南相关负责人介绍,本次评测具有几大特点:
- 全卷考试:进行全卷评分,而不只针对单一题型,且包括带图的高考题
- 考前开源:评测覆盖的开源模型均为今年高考前开源的模型,排除泄题的可能性
- 老师打分:邀请有高考阅卷经验的老师打分,确保评分和高考尽量一致
- 完全公开:生成答案的代码、模型答卷、评分结果完全开源
Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型 Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型 GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本 InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型 Qwen2-57B:阿里巴巴于2024年6月4日上传并随后开源的Qwen2系列MoE对话模型 Qwen2-72B:阿里巴巴于2024年5月28日上传并随后开源的72B稠密模型
前三甲“考生”达一本水平,大部分模型未到二本线
阅卷老师:大模型与真人考生依然存在差距
反思能力弱
例如,数学科目中一题为:
(1)求C的离心率
(2)若过P的直线l交C于另一点B,且△ABP的面积为9,求l的方程
“一本正经”虚构内容
唐代诗人写时事,常常托之于汉代,如“__,__”,就是借汉喻唐,以古方今。
某模型作答:
“想知汉武宫香径,请看长安市醉人”
诗句存在对仗且的确“以古方今”,部分阅卷老师误以为自己不知道这首诗,而认为大模型做对了,但实际上这句诗出自大模型的“幻觉”,虚构而成。
缺乏空间想象能力
数学科目的第17题为一道立体几何题,此题平均得分率为8.5%,远低于数学平均得分率35.5%。并且通过检查模型答案,评测团队发现,模型往往会出现一些完全不符合空间逻辑的推断,例如:
对物理、化学实验理解肤浅
大模型普遍对实验设备及基本实验步骤的理解极为有限。
在回答化学题“取100mmol 己-2,5-二酮应选取何种仪器”时,除了GPT-4o以外所有模型均认为应使用量筒,完全没有考虑到需求数量对仪器选取的影响,如此少量的试剂应选用酸式滴定管。
在回答物理题“多用电表测量电压表内阻”时,所有大模型均无法准确读出图中的电阻值,表明大模型对实验设备的理解极为有限。