其他
AI大模型能答对几道高考数学题?
近日2024年高考作文题等高考相关话题引发热议“AI大模型做高考题”也成为一大看点
AI参加高考
数学能得多少分
悄悄问一句
高考数学题
你还看得懂吗?
或许我们看不懂
但大模型可以
近日
复旦大学NLP(自然语言处理)
实验室LLMEVAL团队
请来13位大模型“考生”
一起做2024年高考数学真题
结果怎样?
先说结论:
从整体来看
大模型们的“高考成绩”
都不算太高
OpenAI日前发布的
新一代旗舰大模型GPT-4o
与阿里云研发的通义千问
720亿参数大模型Qwen-72b
在两次测试中排名都靠前
正确率稳定在60%以上
部分大模型的表现
存在起伏与波动
如百川智能、字节跳动新近发布的
Baichuan4和豆包大模型
分别在新I卷和新II卷客观题测试中
得分排名第一
但在另一场测试中
排名相对靠后
图源:复旦大学NLP实验室
根据两次评测结果
该团队发现
大部分测试大模型在简单题
(如选择题前三道)
有较好的准确率
而在中档题中表现一般
对于较难的题目
大模型们的准确率会更低
少部分题目甚至出现
“全军覆灭”的情况
人工智能这么“聪明”
为什么还会出错?
AI为什么会把题做错
测试发现让AI大模型做数学题仍是一个难度较大的挑战
首先文本输入格式的不同会对测试结果造成比较明显的干扰目前测试主要采用上传图片识别文本的方式这种方式更类似“人类”是对大模型能力的全面考验有的大模型还未做题
就先败在了AI识图这一步
其次
大模型的推理能力
较难的题目
对思维能力的考察要求更高
大模型的准确率也会更低
此外在多选题方面大多数模型表现不佳可见,面临复杂选项的时候大模型的准确率也会降低
虽然在解题方面AI大模型的短期表现还达不到完美但在攻克数学问题的路上AI的每一次进步都是对未来教育想象空间的开拓值得更多耐心与期待
点击文末“阅读原文”
进入世界互联网大会官网
✦
相关阅读
✦
撰文/排版:李汶键 编辑:李飞 统筹:李政葳
参考丨复旦大学NLP实验室、澎湃新闻、机器之心、量子位
扫描二维码
关注我们
戳我~ 一键进入官网