沈励 等:高中学业水平等级性考试数据分析拓展研究
原文刊载于《中国考试》2022年第5期第54—63页。
作者
沈励,北京教育考试院科研与评价处。
万雅奇,北京教育考试院科研与评价处副处长,教授级高级工程师(通信作者)。
摘要
为考试机构的考试数据分析工作提供实践新思路,以某学科高中学业水平等级考适应性测试数据为样本,采用 CTT下的亚组分析及试题难度参数结构分析、多级计分IRT下的试题类别特征曲线和信息函数,分析试卷对不同能力考生的区分程度、试题难度结构配比、非选择题分值及采分点设置的适宜性。研究表明,上述结合CTT和IRT的考试数据分析方法拓展了传统的考试数据分析模型,研究展现的数据分析流程、结果样式及用途说明能为等级考命题提供数据支持。
关键词
经典测量理论;项目反应理论;考试数据分析;学业水平考试;等级考;试题质量
正文
0 引言
以教育测量学的传统理论来界定,学业水平等级性考试(以下简称“等级考”或“选考”)由于采用等级赋分的方式计入高考总分,并被用作高等学校录取的依据之一,因而兼具标准参照测验与常模参照测验的性质。当一次考试兼具两种不同的测验性质时,对试题命制和考试数据分析工作提出新要求。传统教育测量理论主要针对单一测验性质提出,在测量属性增加与选考复杂性并存的现实下,等级考的数据分析模式若还固守经典测量理论的模式,仅用总体参数评价试题试卷,则不仅考试数据分析模型单一,也不能满足新一轮高考综合改革对试题命制和考试数据分析工作的新要求。张敏强指出,“十四五”期间要提升高考的科学化水平,需要加强教育测量学理论方法深度研究,方向之一是结合应用经典测量理论(CTT)和项目反应理论(IRT)评价高考试题试卷质量[1]。
CTT和IRT在考试数据分析中各具优势,CTT的指标因计算简便而更为常用,但CTT的参数计算具有样本依赖性。等级考因为是选考,所以各科目考生群体数量和层次结构不确定,即便年度之间的等级考试题具有稳定性,但因考生群体变化大,用CTT计算出的试题参数也不一定能为下次类似的命题提供稳健的信息。IRT可以克服CTT对样本的依赖性,实现试题参数估计跨群体的不变性,适合等级考背景下的数据分析,前一次考后的试题参数估计值,能为下次类似的命题提供稳健的信息;此外,IRT引进了试题信息函数,并用信息量来替代信度的概念,可以针对不同考生精确估计每个试题的测量误差,有了不同题目对不同考生单独计算信息量值的方法,就可以对不同考生的特质水平估计误差进行主动控制,从而更加有利于反馈命题质量,指导测验编制;IRT还具有将考生的能力参数与试题的难度参数定义在同一量尺上,并通过试题特征曲线直观地呈现出来等优点。
本研究结合CTT和IRT,拓展高中学业水平等级考数据分析模型,以期为考试机构的考试数据分析工作提供实践新思路,满足新一轮高考综合改革落地的新要求。
1 CTT框架下的亚组分析模型
在CTT框架下,以等级赋分的理论值为切分点,对考生得分进行分层,即将考生分为不同能力的亚组,通过计算不同能力亚组考生群体的难度系数,可以评价整份试卷对不同能力考生的区分能力。将试题的难度系数划分为10档,计算10档试题难度与考生得分的交叉分类列联关系,得到试题难度参数结构表,从试题的角度进一步评价10档难度试题对不同能力考生的区分。
1.1 试卷对不同能力亚组考生的区分能力
以某学科等级考适应性测试数据为对象(数据经过处理,无个人身份信息),使用单纯随机抽样方式,抽取2000份作为样本数据集。按照A省等级考赋分方案,将考生卷面总分从高至低划分为21个等级。如果想着重了解某学科试卷对于中高端能力考生的区分度,可计算等级赋分方案中的A1至A5、B1至B5共10个等级相对应的能力亚组上的区分度,实现流程如下:以样本数据集中的卷面总分为目标变量,首先按照卷面总分,将所有样本考生的卷面总分从高至低排列,然后计算卷面总分的一分一段频数、百分比及累计百分比,再按照赋分方案中各等级的比例要求,找到每个亚组的切分点,将所有样本数据归到不同的亚组中,最后计算每个亚组中的卷面难度系数,即可得到CTT下试卷对不同能力亚组的区分度。计算亚组切分点的方法是:按照等级赋分方案各等级的比例,计算出“排名占比区间”(表1为示例),当某个卷面总分的累计百分比落在“排名占比区间”内时,该卷面总分即成为一个亚组的切分点。需要说明的是,本研究的亚组划分仅是为本研究需要设计的,不一定与实际录取的赋分方式相同。
各种数据库管理软件或统计软件均可完成上述结果的实现。以R软件为例,排序使用order(),降序排列则在目标变量前面加上减号(-),频数分布使用table(),累计百分比用cumsum(),亚组难度系数使用aggregate(),指定函数为mean。
以样本数据集为例,将按照上述流程计算后的结果绘制成图1,可以看到某学科试卷对A1至A5、B1至B5共10个等级相对应能力亚组考生的亚组难度系数大致呈均匀递减趋势,除A3和A4、A4和A5两对亚组之间的难度系数差为0.02外,其余亚组之间的难度系数差均为0.03,与赋分方案中每一级之间差 3分的设计较为吻合,整卷对中高端能力考生的区分比较均匀。由此可见,通过亚组内的难度系数计算,能方便直观地分析出试卷对目标群体的区分程度,对反馈等级考命题质量具有借鉴作用。
1.2 试题难度参数结构表
以上述同一样本数据集为例。该学科等级考适应性测试卷共30道试题(或设问),以0.1为步长,将试题的难度系数从0~1划分为10档。首先计算每一道试题(或设问)的难度系数,然后将每一道试题(或设问)归类到10档难度分类中,再将试卷总分值相同的考生归为一个总分亚组,最后计算每一个总分亚组中10档难度分类下的试题平均难度系数,即可得到试题难度参数结构表,见表 2。表中每一个格子代表10档难度系数区间的试题在试卷总分值相同的一组考生内的试题平均难度系数。
通过试题难度参数结构表,可以分析整个试卷中试题难度结构配比问题。如表2所示,纵向看每一列:试卷中难度系数在(0.3,0.4]的试题,总分在78分以上的考生能答对50%以上的试题;难度系数在(0.4,0.5]的试题,总分在72分以上的考生能答对50%以上的试题;以此类推。
试题难度参数结构表的基本思想是:当得分率为0.5时,定位试题难度系数与考生试卷总分大致对应位置,这种思想类似于在 IRT试题反应曲线ICC上,用答对某试题的概率为50%时的点定位考生能力值θ。通过检视10档试题难度在试卷不同总分值上平均得分率的拐点位置、坡度变化,不仅可反馈当次等级考命题质量,还可以对下一次试题命制时难度结构的预分析提供一定的帮助。
2 IRT框架下非选择题分值及采分点设置的适宜性分析模型
在非选择题命制完成后,命题者还须制定尽可能详细的评分标准指导阅卷评分。制定评分标准首先要研究每一道试题的满分值是多少,给定试题满分值即是在明确这道题所要测量的行为特征的等级数,如一道满分 10分的非选择题,得分就有0~10共11个等级。如果等级过少,就难以有效区分不同能力水平的考生;如果等级过多,就有可能增加评分误差;只有等级划分合理,才能减少试题设计本身带来的测量误差。为设置非选择题的分值及采分点,可以用IRT模型,以试题类别特征曲线和信息函数为基础,研究以下两个方面的问题:一是相邻两个得分等级的难度阈值对考生作出有效区分的程度,二是不同分值的非选择题提供的实际信息量与理论上应提供的信息量的匹配程度。
2.1 GRM模型试题参数估计
采用多级计分的GRM模型(graded response model)[2]进行参数估计,公式为:
以样本数据集为例,使用R软件中的mirt[3]、lavaan[4]、psych[5]包实现流程和结果,16 个非选择题的采分等级数如表3所示,采分等级数为该题满分值加1。
使用单维IRT模型的前提之一是测试数据符合单维性假设,可使用验证性因子分析或探索性因子分析进行检验。验证性因子分析的操作如下:调用R软件lavaan包中的 fitmeasures()函数,对建立的单一因子模型进行检验,检验的相关参数为CFI、TLI、RMSEA和SRMR。如果CFI>0.95,TLI>0.95,RMSEA<0.06,SRMR<0.08,则有足够的证据证明测试数据与单一因子模型拟合较好,适合使用单维IRT模型[6]。探索性因子分析的操作如下:调用R软件的psych包,求出特征根,先用cor()语句求出数据集的相关系数矩阵,随后用eigen()语句对相关系数矩阵求特征根。一般情况下,当第一因子的特征根与第二因子的特征根之比在4倍及以上时,认为数据是单维的。
使用IRT 模型对题目进行分析,还需要考虑数据和模型的拟合度,如果拟合度过低,则研究结果没有意义。GRM模型与实测数据的拟合性,可在mirt包中调用函数M2()对建立的GRM模型进行检验,函数会给出统计量M2及相关参数CFI、TLI、RMSEA和SRMR。如前所述,如果CFI>0.95,TLI>0.95,RMSEA<0.06,SRMR<0.08,则代表GRM模型与数据拟合度好。
在上述检验完成后,应用R软件中的mirt包进行GRM模型的试题难度和区分度参数估计。调用函数mirt(),设置参数itemtype=“graded”构建GRM模型;随后调用函数coef()对建立好的GRM模型提取参数。样本数据集的参数估计结果如表4所示,其中a为试题的区分度参数,b1~b4代表得1~4分的难度阈值。
表4显示,该等级考适应性测试的非选择题区分度a在0.71~2.11,均值为1.76。试题的区分度在多大的区间合适,需要学科领域的专家进行判断。国外有对情绪管理情境测试的研究报道[7],试题a值在0.01~0.24为非常低,0.25~0.63为低,0.64~1.34为中等,1.35~1.69为高。若以此标准为判断依据,则本次测试中只有Q172为中等区分,其余非选择题的区分度都很高。
按照一般经验,难度参数在-2~2时较为合适,避免了试题太难或太易。从表4中的难度阈值参数可见,所有非选择题最低采分点的难度阈值b1均大于-2,表明试卷中没有太容易的非选择题,这与等级考非选择题承担的选拔功能是一致的。Q163、Q181和Q182最高采分点的难度阈值分别为2.34、2.37和2.25,表明这3道试题的最高采分点难度较大,学科命题专家可结合数据,查看这3道试题考查的内容和能力范畴,用难度阈值参数辅助判断试题是否达到了命题预设时的质量。Q172最高采分点的难度阈值为4.47,是所有非选择题中最高的,但是此题的区分度为0.71,是所有非选择题中区分度最低的,对这道试题的质量评价还需结合试题特征曲线、试题信息量等综合分析。
除对试题质量进行评价外,难度阈值参数还有利于命题者将考查核心素养不同水平、不同难度的试题对标,对新课标下以核心素养为要点的试题命制具有参考价值,如有研究认为高中生地理野外实践能力水平1~3的试题难度定位为-0.726、-0.186和0.602[8]。
2.2 类别特征曲线图分析
等级性应答的试题特征曲线又被称为类别特征曲线(option characteristic curve, OCC),按照等级数量的不同,有多条。OCC横轴为考生的能力水平θ,纵轴为作答的正确概率P(θ),每一条曲线代表了不同能力水平的考生在该题中获得相应等级分数的概率。
实现类别特征曲线图的操作是:调用mirt包中plot()函数对构建好的GRM模型作图,参数type=“trace”,which.items设定需要对哪几道试题作类别特征曲线,语句为plot(grm_fit, type=“trace”, which.items=c(1, 2, 3), …)。
以样本数据集为例,试题Q161、Q162、Q163的类别特征曲线如图2~图4所示。由图2可见,Q161共有5个采分点等级(0,1,2,3,4),但是采分点等级1、2的累积概率曲线P2、P3彼此难以区分,表明其区分不同能力水平考生的效果较差。图3和图4显示,Q162和Q163对不同分数等级的区分较为理想。
通过图式化的类别特征曲线图,能帮助命题者分析不同采分点等级对不同能力考生水平的区分。Q161的结果显示,该题的满分虽为4分,但实际并没有起到5个采分等级的区分效果,如果该题的设计没有问题,阅卷评分标准表述的清晰度也不存在问题,则可考虑合并采分等级,将该题的满分值从4分调为3分。
2.3 试题信息函数图分析
在IRT中,试题信息量表示的是试题评价考生能力水平的准确性。试题信息函数图(item information function,IIF)的横坐标为能力水平θ,纵坐标为试题信息量I(θ),每条曲线代表了该试题在不同的能力水平下所能提供的信息量值。一道试题的信息量越大,表示它越能准确估计考生的水平。
实现试题信息函数图的操作为:调用mirt包中plot()函数对构建好的GRM模型作图,参数type=“infotrace”,which.items设定需要对哪几道试题作试题信息函数图,语句为plot(grm_fit, type=“infotrace”, which.items=c(1, 2, 3), …)。
图5~图7为Q161、Q162、Q163的试题信息函数曲线。由图可见,Q161的信息函数曲线最高峰比Q162、Q163低,同为采分点等级数为5的3道试题,Q161实际提供的信息量要低于Q162和Q163,区分不同能力考生的水平相对也较弱。
Q1712和Q172是同一道大题的2个小问,采分等级数均为5。图8为Q1712和Q172的类别特征曲线,图9为Q1712和Q172的试题信息函数曲线。结合2个图分析,Q172的类别特征曲线较为平坦且曲线重叠,试题信息量在整个能力刻度θ(-6,6)上都较低;再据表4可知,Q172的区分度在所有非选择题中最小,提示命题者可考虑对该题进行修改。
2.4 试题信息量匹配分析
试题信息量匹配分析的目的是通过构建所有试题在不同能力水平考生中的局部特征表达模式,以及分析不同分值的非选择题提供的实际信息量与理论上应提供的信息量的匹配性,协助命题者检验命题预期,为改进试题提供有价值的数据支撑。试题信息量匹配分析的方法为以下2步。
第一步,计算试题最大信息量I(θ)max及其对应的能力水平θ值,将每道试题的I(θ)max及对应的θ值作散点图,得到每道试题对什么能力水平的考生具有最良好估计的直观判断,从而构建出所有试题在不同能力水平考生中的局部特征表达模式。R软件mirt包中没有找到直接的函数可以得到I(θ)max及对应的θ值,可以采用以下语句进行计算:
extr.1<-extract.item(grm_fit,1)(提取建立好的GRM试题参数)
Theta<-matrix(seq(-4, 4, by=.1))(生成一个以0.1为步长从-4到4的矩阵θ)
info.1<-iteminfo(extr.1, Theta)(得到第1题θ从-4到4上所有的信息量值)
max(info.1)(得到最大信息量值)
第二步,对比分析试题理论上应提供的信息量比例,以及试题实际提供的最高信息量比例。理论上应提供的信息量比例等于某道非选择题的满分值占所有非选择题满分值的百分比,实际提供的最高信息量比例等于某道非选择题信息量的最大值占所有非选择题信息量最大值的百分比。
以样本数据集为例,按照上述步骤计算后的结果如图10和表5。图10展现了所有非选择题的I(θ)max及对应的θ值,在16道非选择题中:有7道对θ在(-1,0)之间的考生测量最精确,比较适合考查能力水平处于平均水平偏下的考生;有7道对θ在(0,1)之间的考生测量最精确,比较适合考查能力水平处于平均水平偏上的考生;有1道对θ在(1,1.25)的考生测量最精确,有1道对θ在2.25附近的考生测量最精确,这2道题比较适合考查能力水平较高的考生。通过对试题最大信息量分布的刻画,构建出整份试卷所有试题的局部特征表达模式,用数据帮助验证命题时的难度预设。
表5依次列出了每道非选择题的满分、I (θ)max及对应的θ值、实际提供的最高信息量比例、理论上应提供的信息量比例。通过对比第5列和第6列可见,样本数据集16道非选择题,其中有6道实际提供的最高信息量低于理论上应提供的信息量。综合试题最大信息量分布及信息量匹配分析,可以透视试题命制方面的问题,提出改进试题的措施。
3 总结与展望
本文结合实例,阐述结合CTT和IRT分析考试数据的实现流程,期望将测量结果有效、客观地应用于命题及试题质量改进,以尽可能多的证据完善考试命题工作及试题质量评价。在实际工作中,虽然考试机构工作人员已经认识到CTT在指导实践过程中暴露出的不足,但因IRT需要的各种参数和技术的应用没有简单易用的计算机软件支持,所以并没有在考试工作实践中广泛应用IRT。为解决这一问题:一方面,在考试机构从事考试数据评价的工作人员,需要增加数据的量化实践能力;另一方面,考试机构应在评价系统的信息化研究中,开发适用于关键数据统计分析的智能化应用软件,使其既能对IRT、认知诊断理论等现代测量理论的基本指标进行计算,又能使该应用操作与普通办公软件一样简洁直观,便于一般工作人员使用。
在高考综合改革背景下,考试数据分析模型要适应改革特点,结合考试机构实际工作需求进行相应拓展,才能发挥出实证数据对考试改革的支撑作用。
参考文献
“《中国考试》杂志”
学习强国号
需要本期杂志可长按二维码识别购买。