GPT-4之高考评测
© 作者|刘沛羽
机构|中国人民大学
研究方向 | 自然语言处理,模型压缩
本文介绍并讨论了对OpenAI最新发布的大语言模型GPT-4在北京高考题目上的测试结果。文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!
当GPT-4进入北京市2022高考考场能有什么表现?
再冷的石头,坐上三年也会暖。
GPT-4是最近很火的大型语言模型,可以在多个任务上取得人类水平的表现。在最新发布的OpenAI技术报告中,GPT-4在考试类的测试中表现抢眼,如GRE语文考试中,取得169分的成绩(满分170)。不过要是聊到考试,论考察面之广,那还得是高考。问题来了,如果让GPT-4来做北京市2022高考会有什么结果呢?本文就来帮大家来做这个测试。我们汇总了北京市2022高考的语文、数学、英语、物理、化学、生物、历史、生物的考试题,尽量考虑所有的主观题和客观题。本文和现有高考评测的区别,之前大家只关注选择题,这次评估我们特意将非选择题囊括进来,同时,针对一些大型计算题(如,物理计算题)还会逐句分析GPT-4的解答过程,而不是只看答案,另外如果答错了还会问GPT-4为什么这么答。之所以这么做,因为我们尝试从做高考题的角度,深入分析GPT-4的能力边界在哪,希望对于大模型有更加全面的认识。
1. 考试结果
话不多说,直接上考试结果。我们汇总了北京市2022高考的语文、数学、英语、物理、化学、生物的考试题,包括所有的主观题和客观题,题目和答案来自2022年高考真题。考试结果如下:
(注:在测试的2022北京地理考试中,所有的题目都与图强相关,因此无法给出评测)
上述成绩不考虑英语听说考试(50分)以及大部分卷面中需要看图的题,如果我们粗略的按照平均正确率来算,大概是72%,按照总分750的话也就大概是541分,高出北京高考的本科批录取控制分数线116分(北京一本和二本合并为本科批)。好在我们不用操心给GPT-4填报志愿的问题,这个评估只是为了让大家对GPT-4的能力有个直观的认识,后面我们将详细来讲评测过程中我们对GPT-4细分能力的发现。
2. 评估方法
尽管考试题具备参考答案,但我们的评测过程仍面临以下几个挑战:(1)图像的表示。这一问题在理科以及地理领域尤为突出,我们分为三种情况处理。首先,最简单的情况是,图示的存在与否并不影响题目理解,因此可以直接忽略。其次,较为复杂一点的是,图示提供了额外的信息(比如物理中的电板电荷极性)我们会以括号辅助的形式添加到题目中,以协助GPT-4理解,前两种情况相对较少。最困难的也是常见的情况是,题目中包含难以用语言详细描述但对解题至关重要的图像(物理中的电路图,化学里的大型化学式以及地理中的地图等),我们只能跳过该题目不进行统计。(注:截止写稿之日,我们暂时还没有拿到GPT-4支持图像输入的方式)
(2)计算符号的表示。针对数学和物理中的公式,我们发现不管用文本类输入(如,t_0)还是用latex输入(如, )都不影响GPT-4的理解。为了统一,我们都尽可能采用latex表达问题,因此所有考试题目都由作者手敲公式输入,不可避免有所遗漏会采用文本输入,不过这个我们测试过不会影响GPT-4的理解。
(3)非选择题答案不确定。这种情况涵盖文科作文类题目和理科证明类题目,由于很难给出有说服力的得分,因此我们不会在上面的统计表中给出分数。然而,在后续的分析环节,我们仍将考虑这些题目,对GPT-4的能力进行探讨。
3. 知识存储
大型语言模型通常都会有常识的积累,比如天空是蓝色的,足球是圆的。但这里关注的知识则是侧重需要学习过书本而非体验生活就能获取的那些知识。我们主要分2个部分来考虑,文科知识,即语文的古诗词,历史知识等,理科规律,如物理的牛顿定律,化学的元素特征等。
3.1 文科知识
在语文考试的诗词补充题目中,部分诗词填写错误。只有第(3)是正确的,其他均错误。
高考语文14题
我们从知识记忆和问题理解2个角度来尝试理解它出错的原因。首先,经过测试发现GPT-4的知识储备还是很强的,以第(1)问为例,我们重开窗口来单独提问《锦瑟》中间两联,则会收到正确的回复:
甚至我们将这个范围扩展到其他的课本文章也可以收到正确的回复。以朱自清散文《背影》为例,第一句为“我与父亲不相见已二年余了,我最不能忘记的是他的背影。”,GPT-4回复:
看起来记忆知识并不存在问题,可能回答问题的时候对题目的要求理解可能存在问题。因此,我们降低了题目难度,直接将问题改为“帮我填写下面空白处的诗词,(1)《锦瑟》中间两联:“庄生晓梦迷蝴蝶,望帝春心托杜鹃。_________,_________。”,经过多次测试发现,GPT-4依然很难正确,总是轻易的将其他诗词中的句子填补进来,但是GPT-3.5在测试中,虽然原题容易答错,但采用前述简化后的题目则很快可以对应上正确的答案。那么GPT-4这里的考虑就有些费解了。
对于其他学科,这里简单举例,如政治考试中“基本认识”,如“全面建成小康社会是改革开放以来党的全部理论和实践的主题”是正确的,而“历史性成就的取得表明我国已进入社会主义高级阶段“是错误的;历史考试中,将史料涉及的历史事件按照时间顺序排序正确,说明对史实的记忆也是正确的。
3.2 理科规律
对于理科而言,需要记忆的主要包含公式定理和基本概念。公式定理特点是只包含较少的符号,但是不能出一丝差错,否则所有的计算都将失去意义,而化学和生物的基本概念有点类似文科的内容是需要死记硬背。通过测试发现这些对于GPT-4而言都不是问题。例如数学考试中基本数学公式:计算复数的模,圆到直线的距离;物理考试中电场强度计算公式;生物考试细菌是一种原核生物,其DNA分布在细胞质中,不在细胞核中;
化学考试中的化学反应方程,向硫化氢溶液中通入氯气生成黄色沉淀,GPT-4能清楚描述反应生成的各种物质;
高考化学第6题
具体的例子这里不再一一细数。
4.阅读理解
阅读理解本身就是大型语言模型的强项,例如ChatGPT已经可以根据人类的指令完成特定的任务,如机器翻译,情感分类等。但是在高考这个场景下,对于GPT-4而言,存在一些特殊的困难,我们分为纯文本类和符号类类分别讨论。首先,对于纯文本类,我们所有的测试都是在全中文的场景下测试的,而GPT-4通常被认为英文的表达能力是最强的,因此跨语言的理解是一个潜在问题,例如题目的理解是否正确,尤其是在语文考试中,古文、诗词的理解是否正确,都会影响GPT-4考试的正确率。另外,对于符号类问题,比较直接的情况就是数学公式,除此之外还有化学表达式(如,水的表达式 )等。下面我们会分别进行讨论。
4.1 文本理解
首先,我们可以看一下语文的诗词鉴赏题目。诗词语言涉及到的中文理解能力要求比简单理解题目高不少。如高考语文诗词赏析,杜甫的《病柏》,13小题询问这周诗主要意象有哪些,分别说明这些意象有何意韵。
有柏生崇冈,童童状车盖。
偃蹙龙虎姿,主当风云会。
神明依正直,故老多再拜。
岂知千年根,中路颜色坏。
出非不得地,蟠据亦高大。
岁寒忽无凭,日夜柯叶改。
丹凤领九雏,哀鸣翔其外。
鸱鸮志意满,养子穿穴内。
客从何乡来,伫立久吁怪。
静求元精理,浩荡⑥难倚赖。
参考答案中没有固定的形式,但是提到了2个要点:
(2)病柏由盛而衰的变化,象征了唐朝从强盛到衰落的沧桑巨变;丹凤哀鸣,象征正直之人被摈斥在外;
鸱鸮意满,象征了奸佞小人盘踞于朝中。诗人借助这些意象表达了对国运时局的忧虑。
对比GPT-4和上面要点,首先可以看出GPT-4对各个意象的理解还是比较确切的,比如柏树联想到世事难料,但是这个回答其实很难给分,原因在于要点中“时代背景”是一个重要内容,GPT-4将对文章的理解落脚到了诗人自己的经历,而不是对国运时局的感慨。本质上来说,这个问题似乎是一种通过多做题可以锻炼出来的答题技巧,整体来说,对古诗词理解到这个程度感觉还是可以的。
另外,在历史考试中的一道题中我们发现GPT-4对于题意的理解有时候也会出现问题。例如:
这道题正确答案是B。其实这个题GPT-4答错的原因,在于这个题面最后一句话“这意味着“中的”这“字如何理解,显然GPT-4理解成了清政府的做法,而事实上,正确答案似乎在问“英国提出的要求”意味着什么。
纵观所有考试来看,GPT-4在中文题目理解,甚至语文的古文、诗词理解上大体也是达标的,但是偶尔还是会有一些理解偏差的问题。
4.2 符号理解
理科考试中经常会出现符号表达,如数学的公式,以及化学中的符号等。对于数学考试而言,我们发现不管使用文本形式输入符号还是latex输入,都不会影响GPT-4的理解。这个其实也在我们的意料之中。比较有趣的是化学符号其实对于GPT-4而言也不是问题。
(1)化学表达式的理解。前面的高考化学第6题中涉及到各种物质溶液,如硫化氢( )溶液等,均可以被正确的理解,同时还能根据题目要求推断出发生的反应方程式。同时,对于一些特殊的写法,如 表示化学元素锶,38表示原子序数,也不成问题。
(2)物理变量的理解。物理考试题目中变量通常是数字加单位的形式,如 ,其中m表示米而不是新变量。在物理测试中,GPT-4依然可以很好的处理这些问题。
5. 复杂计算
在理科问题的处理上,GPT-4的答题方式遵循着一步一步思考的模式。即它会首先拆解题意,然后根据理解表达列式,最后统一求解。这个思路没有问题,但是我们发现GPT-4解题思路可能是正确的,最后的答案却是错误的,主要是解方程的能力依然存在问题。
(1)方程求解错误,很难修正。这里我们同样以一道高考物理考试18题为例。GPT-4已经成功分析了题意并正确列出来了方程 ,需要求解 的表达式,正确解答是 ,但是GPT-4始终无法正确求解,即便是单独重新开一个窗口,多次生成答案,针对这个方程求解 也还是算错。相反,同样的问题放在GPT-3.5却可以做对,这里确实值得讨论,感觉GPT-4似乎在算式求解上能力有所下降。
GPT-3.5求解方程
GPT-4求解方程出错
(2)计算中存在笔误,可被修正。同样对于高考物理19题第(3)问,GPT-4在最初列式中出现问题,导致整体到计算错误。有趣的是,可以在问题后进行反问,“请检查一下你做的过程是否正确“,GPT-4即可及时修正并给出正确答案。与前一种情况不同,这个我们可以理解为是一种“笔误”,可以通过及时检查来进行修正。
高考物理19题(3)问错误列式
通过提示修改可以改正
而对已经正确的解答而言,多次提示检查,基本不会将正确的改错。
6. 可探索的方向
通过整体的测试,我们大概对GPT-4做高考题有了一个相对全面的认识。有人可能会问,我就想要一个能回答出标准答案的GPT-4,能有什么方法?简单来说,可能有以下几个思路:
(1)多做真题。从语文的古文回答上看出,GPT-4的理解能力到位但是回答技巧欠缺,针对这个问题,我们最简单的方法就是多做高考真题。对于GPT-4而言,其实这个问题可以简化为一个高考题问答场景下的模型微调问题。我们的目标是,让模型可以多看一些示例的问题和标准的答案,尽量让它的回复更贴合标准答案的方式。
(2)计算能力有待提升。从物理题的解答来看,大多数情况下,GPT-4可以根据题意列出正确的表达式,但是解方程能力有待加强。在对比GPT-3.5过程中,我们发现GPT-4能力似乎还是有所下降的。不过给出一个方程进行计算,其实可以作为一个独立的模块,考虑接入外部的工具来执行,会是一个较为容易的解决思路。
(3)及时检查。从前面第5部分的经验来看,我们可以通过提示“请检查一下你做的过程是否正确“来督促GPT-4执行检查,可能会降低错误率。
7. 未来的工作
本文尽最大努力,希望给GPT-4一个完整的高考评分,但是依然避免不了存在以下局限性。我们会在后面继续完善整体的评估流程。
(1)缺少图示。尽管GPT-4宣称已经可以输入图像,但是截止目前,我们还没有拿到可用的方式,所以仅在文本输入的条件下,先进行了一轮评测,如果近期我们可以拿到支持图像输入的GPT-4测试资格,会进一步完善当前的评估。
(2)考题的局限性。我们目前只在北京市的2022年高考上进行了评测,考虑到不同地域和年份高考题均不一样,为了能够全面评估大语言模型的高考水平,我们计划增加不同年份、地域的高考题评测,努力实现自动化、更全面的评估。
8. 总结
我们总结了GPT-4在高考测试中的结果,较为全面衡量了GPT-4的常识记忆以及推理能力,发现:GPT-4在常识记忆和阅读理解方面表现良好,但在复杂计算方面存在一些不足。具体而言,GPT-4能很好的记忆文科知识以及理科规律,在阅读理解上表现不俗,英语考试几乎满分,即便中文的古文阅读理解以及理科符号理解也基本正确。但是我们也发现GPT-4存在的问题,对于推理类的考试表现则相对较差,如方程求解。综上所述,尽管GPT-4在许多方面表现出色,我们也要承认它存在一些不足,并且只有我们进一步去理解它的边界,才会有助于整个社区的发展。
更多推荐
最新综述:速览Transformer长文本建模研究进展
EMNLP 2022|SimANS:简单有效的困惑负样本采样方法