孙杭：英语阅读诊断测评中学生的认知过程

外研测评 2022-04-24

The following article is from 外语学术科研网 Author 孙杭

小编心语

本期第二篇文章为大家分享上海交通大学孙杭博士的《英语阅读诊断测评中学生的认知过程》一文。文章从认知角度分析了阅读诊断测试的效度，可以为英语阅读教学和测试带来启发。

提要：本研究采用有声思维法对8名学生在阅读诊断测评中的答题认知过程进行了调查。研究发现，被试使用了一系列阅读和考试策略，且其认知策略涵盖了Khalifa & Weir（2009）阅读认知过程模型中不同层次的认知过程，能够较为全面地反映真实语境下的阅读行为；被试使用的阅读策略与命题规范中确定的阅读微技能总体上拟合度较高，而命题规范可以对快速阅读中的“查读”和“寻读”技能进行进一步的界定。本研究通过对学生在作答阅读诊断测评时认知过程的分析，为评价诊断测评的认知效度提供了证据。

关键词：阅读理解；诊断测评；认知过程；认知效度；有声思维

引言

近年来，诊断测评作为外语测评的新手段受到越来越多的关注。研究表明，在考试中获得相同总分的考生对不同语言微技能（language subskill）的掌握程度存在着差异（Kim 2015）。诊断测评旨在辨别学生在语言微技能掌握上的强项和弱项，并提供诊断性反馈以促进补救型教与学（Alderson 2005）。因此，诊断测评作为连接测评与学习的桥梁，具有巨大的促学潜力。

尽管诊断测评呈现出强劲的发展趋势，但是，其研究与实践也面临一些问题。一方面，目前学界对语言能力包含的知识和技能尚未有清晰的界定（Jang 2005）。以阅读为例，学界对阅读能力是否可分以及可分为哪些微技能始终存在争议（Alderson & Lukmani 1989；Lumley 1993；Weir et al. 2000）。另一方面，随着认知效度的概念逐渐得到认可，考生在考试时的认知过程在多大程度上与非测评环境中的认知过程相一致成为衡量测评效度的重要标准（Field 2013）。由于诊断测评考核离散的（discrete）语言微技能，考生在考试时的认知过程是否具有多样性，以及能否代表真实语境中的认知过程，是对诊断测评认知效度提出的巨大挑战。然而，现有的关于诊断测评的研究大多关注如何利用认知诊断模型对水平考试进行翻新以获取诊断性信息（Alderson 2010），对专门编制的诊断测评及其认知效度的研究则相对较少。鉴于此，本研究旨在借助有声思维法对学生在作答阅读诊断测评时的思维过程进行调查。通过对考生答题时的认知过程进行分析，一方面考查考生实际使用的认知策略是否与考试预期考核的语言微技能相符，另一方面为阅读诊断测评的认知效度提供证据。

认知效度和阅读认知过程模型

考试的认知效度是指“在何种程度上一个考试可以使考生在考试和非考试情境下运用的认知过程相似或一致”（Field 2013：78）。Weir（2005）将认知效度称为理论效度（theory-based validity），并将其作为社会认知框架（socio-cognitive framework）的重要组成部分。语言测评的局限性使得测评时的语境不可能与真实的语言使用环境完全一致，因此，认知效度的目标是使考生在考试时的认知过程能够最大限度地代表其在真实语境下的思维过程（Field 2013）。Field（2013）总结了考察测评的认知效度需关注的三个问题：1）相似度，即考试中和真实目标语境中使用的认知过程的相似程度；2）全面度，即题目是否可以使考生动用足够多的认知过程，以充分展现其在真实语境下可能运用到的认知过程；3）校准度，即考试对考生不同认知层次的要求是否与考生的表现相吻合。这些问题从认知过程的角度对Messick（1989）的构念不相关（construct irrelevance）和构念体现不足（construct under-representation）的概念进行了重新阐释（Bax 2013）。

针对阅读测评的认知效度，Khalifa & Weir（2009）在实证研究的基础上构建了基于认知过程的阅读模型（图1）。该模型高度概括和总结了读者在实际阅读中的认知过程，可以用来指导阅读测评开发和考察测评的认知效度。该模型包括三个部分：元认知活动、核心处理过程和背景知识。元认知活动包括修正、监控和目标设定三大要素，其中目标设定，即读者选择采用哪种阅读方式，决定了读者在核心处理过程中的认知策略。基于Urquhart & Weir（1998）的分类，Khalifa & Weir（2009）提出阅读类型可分为仔细阅读（carefulreading）和快速阅读（expeditious reading），且这两种阅读类型都可以发生在局部层面（local level）和整体层面（global level）。图1中间部分的核心处理过程是阅读模型的核心部分。核心处理过程包括8个认知层次，其复杂程度由下至上逐层增加。较低级的认知层次包括单词识别和词汇通达、句法分析和建立命题意义，而高级的认知层次则包含推断、建立心理模型、生成篇章表征和跨篇章表征。图1的右侧部分是读者的背景知识，包括词汇、句法知识、与阅读文本相关的话题知识和世界知识以及文本结构知识等。总体而言，Khalifa & Weir（2009）的模型涵盖了不同的阅读类型、不同层次的阅读认知过程和读者的知识结构，能够较为全面地反映现实生活中的阅读行为。

研究设计

3.1 研究问题

本研究采用有声思维法（think-aloud）对8名学生在阅读诊断测评中的答题认知过程进行调查。本研究以Khalifa & Weir（2009）的阅读认知过程模型（以下简称“模型”）作为检验阅读诊断测评认知效度的理论框架。如果被试在答题时的认知过程较多地涵盖了该模型中的要素，那么我们认为该考试较为全面地测量了真实语境下的阅读认知过程，因而具有较高的认知效度。本研究旨在回答以下两个问题：1）被试在答题过程中使用了哪些认知策略？其阅读行为是否涵盖了Khalifa & Weir（2009）模型中不同层次的认知过程？2）被试在答题过程中的认知策略与阅读诊断测评命题规范中确定的微技能是否相符？

3.2 研究方法与实验材料

有声报告法（verbal protocol）是阅读测评研究中最重要的定性研究方法之一，它能间接地展现读者在阅读时无法被直接观察到的思维过程。有声报告法可分为内省法（introspection）和回顾法（retrospection）。Cohen & Upton（2006）指出，内省法是指考生在答题的同时进行有声报告，而回顾法往往是在考生完成任务以后收集有声报告。Cohen（2000）将有声报告进一步分为自我观察型（self-observational）和自我展现型（self-revelational）有声报告。在自我观察型有声报告中，被试趋向于描述和解释在完成任务时采取的行动；在自我展现型有声报告中，被试关注如何解决任务且只说出他们实时的思维过程而不解释其原因。自我展现型有声报告在本质上是内省的，被称为典型的有声思维法，同时也被认为是最能准确地反映被试认知过程的方法（Cohen & Upton 2006；Ericsson & Simon 1993）。本研究旨在最大限度地反映考生在真实考试情境下答题时的认知过程，因此采用有声思维法收集研究数据。

本研究的实验材料为“优诊学”（高校版）阅读测评。该系统的设计和开发基于国内外英语课程标准、考试大纲和英语能力标准体系，旨在通过对大学生英语能力的诊断，为师生提供有针对性的反馈。“优诊学”阅读测评分为四个级别（四、五、六、七级），本研究选择阅读五级的一套试题作为实验材料，目标群体的能力水平大致相当于《中国英语能力等级量表》五级。该套试题包括一篇快速阅读和五篇仔细阅读，涉及不同的话题和体裁，有判断题、多项选择、单项选择题、信息匹配题和文本填空题五种题型，考核了“快速找出特定信息”“快速提取文章的主旨大意”“获取细节信息”“作出合理推断”“理解主要观点与要点”“理解并对比不同的观点和态度”和“理解语篇的逻辑关系”七种阅读微技能。诊断部分答题时间共60分钟，其中，快速阅读限时15分钟。

3.3 研究对象

本研究的研究对象为来自国内两所普通高校不同专业的12名大二学生，其中，4名参与了试点研究，8名参与了正式实验。被试英语水平符合“优诊学”五级的目标考生群体。参加正式实验的8名被试的基本信息见表1。

3.4 数据收集和分析

在正式实验前，研究者选择4名学生进行了一次小规模的试点研究。依据试点研究结果，研究者对正式实验时被试培训的内容和答题时间进行了相应调整。在正式实验时，被试首先参加了半小时的培训，研究者向被试介绍了实验目的和流程。随后作为热身练习，被试完成了一道拼字游戏题和一道阅读理解题。在实验时，被试被要求采用内省的、自我展示型有声思维方式，一边做题，一边说出自己的全部思维过程。被试可以用中文和英文进行有声思维。如果被试在有声思维过程中停顿时间太久，就会被提醒“请继续说话”，除此之外，研究者不会对被试进行任何干扰。实验结束后，研究者针对被试未进行口述或口述不清晰的地方进行回溯性访谈，以确认被试的报告内容。由于有声思维法用时较长，阅读测评的六篇文章被分为A、B两个部分（各三篇文章），每名被试只需做A或B部分。快速阅读限时25分钟，仔细阅读不限时。研究者对实验过程（培训阶段除外）进行全程录音和转写。研究者参照Cohen & Upton（2006）的研究，将被试的认知策略分为阅读策略和考试策略（考试管理策略和应试技巧）。通过借鉴Jang（2005）和Cohen & Upton（2006）的编码方案以及诊断测评的命题规范和试点研究的结果，研究者确定了最终的编码方案（表2）。随后，研究者将编码方案与Khalifa & Weir（2009）模型的核心处理过程中不同的认知层次进行对应，并对录音转写资料进行编码。为保证编码的可靠性，研究者邀请了另一位编码人员按照编码方案对四篇有声思维转写资料（A、B部分各两篇）进行了独立编码，两位编码人员的编码一致性为81.4%，信度较高。

结果与讨论

4.1 被试使用的阅读和考试策略

根据频数统计，被试共使用阅读策略165次，其中考试策略129次（考试管理策略115次，应试技巧14次）。表3对使用频率最高的五种阅读策略和考试策略进行了统计。从阅读类型来看，使用频率最高的阅读策略“查读以寻找特定信息”属于快速阅读类型，其余四种阅读策略均属于仔细阅读类型。Weir et al.（2009）提出，快速阅读对大学生的学术学习十分重要，而且对于一些母语和第二语言学习者来说，快速阅读比仔细阅读更具挑战性。然而，一直以来大多数阅读测试（如雅思等）往往更重视仔细阅读而忽略了快速阅读。在本研究中，对考生阅读策略的统计证实了诊断测评考核了考试大纲中设定的快速阅读和仔细阅读两种阅读类型。从阅读类型的局部和整体层面来看，频数较高的两种阅读策略“查读以寻找特定信息”和“理解明确表示的细节信息”属于局部层面的认知策略；另外三种阅读策略“理解和对比不同/相似观点”“结合上下文推测词义”和“总结文章主要观点”均为整体层面的认知策略，说明该测评对局部和整体层面的认知策略均有所考核。

在考试策略上，被试最常用的五种策略均属于考试管理策略，而非应试技巧。同时，由表3可见，被试在答题时使用“利用篇章内容排除一些不合理选项”和“读文章之前先读题目”的考试管理策略较多，一定程度上验证了先前研究中关于考生更倾向于将阅读理解选择题看成问题解决型（problem-solving）任务而非阅读理解任务的结论（Rupp et al. 2006）。另一个值得注意的考试策略为“总结题目要求并部署答题/阅读策略”，这一策略在其他考试策略研究的编码中较少出现。在本研究中，被试在作答平时接触较少的题型——信息匹配题时较多地使用了该策略，体现了被试的元认知意识。

4.2 被试认知过程与阅读模型中核心处理过程的拟合度

通过将本研究编码中的阅读策略与Khalifa & Weir（2009）模型中的核心处理过程进行对应，研究将观察到的被试阅读表现与理想阅读表现模式进行了比较。表4体现了被试实际使用的认知策略在阅读模型核心处理过程不同层次中的分布。由表4可知，被试在作答时运用了由低到高不同层次的认知过程，较为全面地涵盖了阅读模型中的认知策略，尤其是针对高层次的认知过程，被试在诊断测评中多次运用了推断以及段落层次、篇章层次和跨篇章层次的认知策略，符合大学生在日常学术英语阅读中需要运用的认知策略水平。然而，需要指出的是，表4中句法分析、词汇通达和单词识别这三个低层次的认知过程使用频数较低，这是因为考生对低层次认知策略的使用往往是自动的、无意识的（Grabe 2009），因而在有声思维时较难展示出来。以单词识别为例，考生在阅读时时刻在对单词的拼写、发音和形态进行解码，而这种解码过程往往是无意识的。

由于篇幅所限，下面仅列出一位被试的口述过程以及研究者的分析作为实例，以说明被试在答题过程中的认知过程。

例1：认知层次：“生成跨篇章表征”（高级）；篇章主题：素食主义；题型：信息匹配

题目：

A recent study finds vegetarians suffer significantly more often from anxiety disorder and/or depression. This finding disagrees with______.（正确答案为B）

A. Text A B. Text B

C. Text C D. Text D

3号被试口述：

A recent study finds vegetarians suffer significantly more often from anxiety disorder and/or depression. This finding disagrees with.

他是说那个素食主义者，他们会遭受更多的什么疾病啊什么的，反正是不好的东西。他这个这个发现是和某一篇不同，那我觉得应该从A、B两篇里面选。然后，但是A主要是讲他是说肉食主义者那些，啊不是，是讲那些吃动物那些动物，觉得这个行为很残忍，而不是讲那个这个这个营养的问题，所以我觉得肯定是选B。

在本题中，被试需要找到与题目的研究结论观点不同的文章。在四篇文章里，A、B两篇支持素食主义，而C、D两篇则是反对素食主义。被试首先通过区分不同的观点，选择了A、B两篇作为备选选项。随后，被试又区分了A、B两篇中的论证角度，指出虽然两篇都支持素食主义，但A篇的论据是吃肉的行为残忍，而B篇的论据是吃素也能保证营养，与题目中的研究发现相反。被试的答题过程体现了他既对不同文章的主旨有整体的理解，又对相同观点中不同的论证角度有所区分，属于高层次的认知过程。

4.3 被试认知策略与考试大纲中预期策略的拟合度

针对被试实际使用的阅读策略与命题规范确定的策略的拟合度，研究者借鉴金艳、吴江（1998）的分类方法对答题正确和答题错误时被试是否运用了预期策略作了统计（表5）。诊断测评共有32题，分为两部分，各由4名学生完成，因此，答题的总频数为128次。由表5可知，在答题正确的情况下，被试使用预期策略的频数为73次，占总数的90.1%；而未使用预期策略却答对题目的情况只有9.9%，说明被试靠应试技巧和其他微技能答对题目的可能性极小。

然而，在答题错误的情况下，被试使用预期策略的频率占42.6%，说明一部分题目的预期策略不能帮助被试答对题目。通过对这些题目进一步分析发现，这类题目大多数属于快速阅读部分。在快速阅读中，考试大纲将判断正误题考核的微技能定义为“快速找出特定信息”（查读），而将选择题考查的微技能定义为“快速提取文章的主旨大意”（略读）。快速阅读策略可分为略读（skimming）、查读（scanning）和寻读（search reading），其中，查读和寻读技能较为相似。一般认为查读的目的是获取细节性信息（如特定的单词或词组、人名和日期等），因此一般通过词汇匹配来完成，极少涉及句子层面以上的认知过程（Khalifa & Weir 2009），而寻读则用来寻找一些预设主题的相关信息，其认知过程不只是简单的视觉匹配工作。由于寻读的信息更难处理，一旦找到信息，读者对文本信息关注的频数和时长要比查读时更多、更长（Pugh 1978）。下面以一道快速阅读题中被试的口述为例来说明。

例2：预期策略：“快速找出特定信息”（查读）；篇章主题：绿洲；题型：判断正误

题目：The Faiyum, an oasis to the west of the Nile River, is formed by springs.（正确答案为False）

5号被试口述：

Springs，关键词，springs，（重复五次）咦，找一找。However，这个东西，springs，咦，在哪儿呢？Springs，应该有这个关键词，往上面找一找，这个。（跳着读一些单词和句子）The Faiyum lies in a kind of natural bowlor depression to the west of the Nile River，这个没问题，然后，它是一个这个东西也没问题，然后，它是不是由这个spring组成的。（往下跳着读）Oases formed by springs，嗯，应该是这个，关键词全有。

在本题中，被试使用了查读技能，即通过单词匹配来做题，因此认为此题的表述正确。然而，本题有两个考点，即Faiyum的位置和构成，其相关信息分布在5个句子中。原文中该段末尾提到“Oases formed by springs are visible because... The Faiyum, however, is slightly different. It is formed by channeled water...”。由此可见，被试不仅需要读完全段，还需要理解句间的转折关系才能答对此题。因此，本题考查的应是寻读技能，而非大纲规定的查读技能。这种情况也出现在其他旨在考核查读技能的题目中，从而出现了被试运用了大纲预期策略却没有答对题的情况。鉴于此，考试大纲可在快速阅读部分增加对寻读的微技能的标注，并对查读和寻读的定义进行进一步界定。

结论

本文考察了8名学生在阅读诊断测评中的答题认知过程，并对测评的认知效度进行了检验。Khalifa & Weir（2009）提出，在定义阅读理解的构念时，已有研究往往使用因子分析的定量法或专家判断的定性法，而忽略了考生在阅读任务中的重要角色。阅读是一项典型的认知活动，厘清学生在完成阅读任务时的认知过程有助于理解阅读能力的构成，对外语阅读的教学和测评也具有指导意义。同时，近年来备受关注的认知诊断测评旨在对考生的认知能力结构，即对个体认知属性（cognitive attribute）的掌握程度进行判断。认知过程模型与认知诊断测评的理念相符，是指导认知诊断测评开发的理论依据和考核测评效度的有力工具。作为专门编制的诊断测评，本研究中的阅读测评在考试开发阶段即保证了考核不同微技能题目的数量。相比之下，在利用认知诊断模型翻新水平测试以获得诊断信息时，一些重要的认知技能可能由于没有足够的题目来测量而不得不被删除（Kim 2015），继而降低了这类测试的认知效度。本研究的结果显示，阅读诊断测评包含了不同的阅读类型并考核了不同层次的认知过程，具有较高的认知效度。

此外，尽管许多测评开发者编写了一些旨在考核特定语言微技能的题目，但是，由于阅读测评往往只报告总分，这些题目是否考核了预设的微技能并非十分重要（Alderson 2000）。诊断测评的目的在于考核学生对特定微技能的掌握程度，因此，考试题目与预设微技能的正确匹配至关重要。本研究显示，被试使用的阅读策略与考试大纲中规定的微技能基本相符，应试技巧对被试正确作答的作用较小。然而，研究也发现，快速阅读部分测试大纲中规定的考核查读技能的个别题目实际考核了寻读技能。未来研究可搜集更多考生的有声思维数据，并结合专家判断，进一步分析这些题目并对测试大纲中考核寻读技能的题目进行标注。在保证考核特定微技能的题目数量充足的条件下，增加对寻读技能的考察，以提高快速阅读部分微技能考核的全面性。

诊断测评的目的在于帮助教师和学生了解学生在语言学习中的优势和不足，并为补救性的教与学提供建议。阅读能力是一种接受性技能（receptive skill）。教师无法直接观察到学生在阅读理解时的认知过程，因而难以发现制约学生外语阅读能力提升的瓶颈以提供相应的帮助。本研究对阅读诊断测评认知效度的调查表明，诊断测评较为全面地考察了读者在真实阅读活动中可能运用到的认知过程，并能对学生在阅读微技能上的强项和弱项进行诊断。因此，教师可根据阅读诊断测评的反馈结果了解学生群体和个体对不同阅读微技能的掌握情况，从而调整教学目标和内容，以指导学生有针对性地学习和提高。

注：本文转载自外语学术科研网微信公众号，文章刊登在《外语教育研究前沿》2019年第2卷第4期25-32页，由于篇幅所限，参考文献及注释已省略。本文版权归《外语教育研究前沿》编辑部及作者所有。其他任何学术平台若有转载需要，可致电010-88819585或发送邮件到research@fltrp.com。

为支持老师们筹备远程英语教学、助力同学们的英语自主学习，外研测评向老师和同学们免费开放在线英语诊断学习系统——优诊学。该系统能够为老师和同学们提供在线诊断测评和即时丰富的反馈报告，有利于老师和同学们实时了解学习情况，精准制定教学/学习计划，实现有效互动。高中版还将提供多样的针对性教学资源。如需使用，请后台留言联系方式，我们将与您联络，提供后续支持。也可访问以下网址：高中版https://uzx.iceshi.org、高校版https://udig.iceshi.org，了解更多。

扫描下方二维码，

加入第四届英语教学与测评学术研讨会，

疫情过后，让我们相约北京！

往期精华

专家视点

专家视点 | 林敦来：英语教师课堂测评素养及提升方法

专家视点 | Chris Davison: 教师测评素养：我们如何了解需要提高什么？

专家视点 | 陈新忠等：利用诊断性评价改进高中英语教学

专家视点 | 吴岩：新使命大格局新文科大外语

专家视点 | 姜钢、何莲珍：构建系统连贯的考试体系，促进英语教育教学和评价方式改革

专家视点 | 金艳：外语教师评价素养发展：理论框架和路径探索

专家视点 | 武尊民：基于标准的学业质量测评：连接中国英语能力等级量表与内容标准