期刊好文丨在线英语写作诊断测评中自评量表的开发与效度验证（文/潘鸣威等）

Original 潘鸣威等外语学术科研网 2022-06-09

提要：自评是语言学习者自我评估语言技能和知识的手段，有助于提升学习者的自我意识和学习自主性，是一种兼具互动性和焦虑度低的评估方式。在诊断测评中，自评量表发挥着重要作用。本研究以写前自评和写后自评为研究内容，结合《中国英语能力等级量表》中写作能力量表的描述语，分别设计了写前写作能力自评量表和写后写作策略自评量表。研究还通过定量的方法对两个自评量表的效度进行验证，发现其具有较为理想的构念，不同能力级别的自评量表之间结构较为稳定。由于诊断测评在线上进行，自评量表结果的即时反馈对培养学生的自主学习能力具有积极作用，不仅为学生提供了关于写作能力和写作策略的诊断性信息，还能帮助学生理解写作标准，更有效地运用写作策略，最终改进学习。

关键词：诊断测评；自评量表；写作能力；写作策略

1.引言

自我评价（self-assessment）是学习者自我评估语言技能和知识的过程（Matsuno 2009），能达到提升学习者的自我意识和学习自主性的目的（Bulter & Lee 2010；Oscarson 1997），是一种兼具互动性和焦虑度低的评估方式（Bachman & Palmer 1996；Brantmeier & Vanderplank 2008）。在自我评价中，自评量表发挥着重要作用，是提升学生语言能力自我认知的主要途径。采用自评量表可以加强对学生自主学习能力的培养，不仅为学生的学习提供诊断性信息，也能够帮助学生理解标准，从而改进学习。这种自我评估能力的提升需要进行培训（O’Dwyer & Runnels 2014），在高校英语写作教学实践中，教师评估学生作文时更聚焦语言的使用（韩宝成、赵鹏 2007），而较少关注学生自身对语言能力的认知和理解。

基于此，本研究依据《中国英语能力等级量表》（China’s Standards of English Language Ability，简称CSE）（中华人民共和国教育部、国家语言文字工作委员会 2018）中的关于写作能力的量表（以下简称“CSE写作量表”），在写作诊断测评中开发了写作能力自评量表和写作策略自评量表，并对其构念进行了效度验证。在此基础上，本文对今后写作诊断测评中自评量表的使用和反馈及其对教学的意义提出了一些思考。

2.文献回顾

2.1 自我评价与诊断测评

自我评价与传统的语言测试不同，属于替代性的评价手段，由于考生自评时的焦虑程度较低，因而可以有效地从一个侧面反映出考生的语言水平。大量研究表明，语言测试中若引入自我评价，可较好地提升学生对语言能力的自我认知，为学生的语言学习提供诊断性信息，并帮助他们理解语言能力的标准，提高自我意识等（Alderson 2005；范劲松 2017；刘建达 2002）。此外，自评还可以培养学生的学习能力，使其更了解自己的学习目的，加强对自主学习能力的培养，从而全面改进学习（Oscarson 2013；Suzuki 2015）。

然而，由于自评是一种替代性评价，在大规模、高利害的语言测试中，自评无法受到公众的广泛认可。相比较而言，在利害程度较低的诊断测评中，自评拥有较为宽广的探索空间，其原因在于诊断测评是一种旨在发现学习者语言学习的优劣并提供及时反馈的评价。Alderson（2005）和Leighton & Gierl（2007）认为，诊断测评通过测量学习者特定的知识结构和认知技能，为学习者在某一特定领域的优缺点提供详细而及时的反馈，因此，诊断测评中的自评可帮助学生发现自己语言能力的强项和弱项，并及时进行补救。此外，诊断测评中的自评还可以帮助教师根据学生的诊断结果及时调整教学目标、内容和进度，在有效帮助学生改善学习的基础上，向学生提供及时、有用的反馈（Alderson 2005）。总之，诊断测评中的自评可从真正意义上实现以评促学（武尊民 2017）。

从现有文献来看，关于诊断测评的研究主要围绕两个方面展开。第一，开发认知诊断测评，并提出认知诊断的评估框架与效度验证（Alderson 2005；Leighton & Gierl 2007；杜文博、马晓梅 2018）。这方面的研究主要以接受性语言技能（如听力和阅读）为主，将试题与其测量目标对接，借助认知诊断模型（如DINA模型，详见de laTorre 2011）来对考试的效度加以验证。Jang（2009）对二语阅读认知诊断测评进行实验研究，并通过融合模型（fusion model）来判断诊断反馈信息的有效性。第二，与利用认知诊断模型不同，国外的语言诊断测评除了考查语言能力外，还通过自评来体现学生的优缺点（如DIALANG），着力在诊断测评与语言教学之间构建一座桥梁（Alderson 2005）。

近年来，诊断测评在我国语言测试领域受到越来越多的关注，但从研究范畴看，已有研究基本属于认知诊断模型的相关研究（Chen et al. 2013；蔡艳等 2011；陈慧麟、陈劲松 2013；陈慧麟、赵冠芳 2013；孟亚茹 2013），而通过自评来实现诊断测评的研究较为少见。应该指出，学生在语言学习过程中不仅应具备自评能力（刘建达 2017），而且通常也已基本具备了自评能力（Caulk 1994）。因此，我们有必要利用自评的手段在诊断测评中融入更多有价值的反馈信息，以帮助学习者了解自身的优缺点。

2.2 写作能力自评

诊断测评中的自评应有明确的自评内容和自评维度，这也是自评量表构念效度的主要来源。CSE在语言能力的界定和描述上涵盖面广，对具化写作能力的自评有很大的借鉴意义。CSE将写作能力定义为在各种书面交流环境中，面向特定读者，为实现交际目的，调动语言知识、写作策略和文本类型知识进行意义生成、构建和整合的书面表达能力（潘鸣威 2019；潘鸣威、吴雪峰 2019）。不难从中发现，针对写作能力的测评可从语言知识和写作能力以及写作策略三方面展开，而这三个方面也是CSE写作量表的主要来源。

从CSE写作量表的构成来看，与语言知识和写作能力有关的维度主要包括语言质量、文章结构、写作内容、书写规范以及任务完成度。这些维度与通常对作文质量的评判维度基本一致（Cumming et al. 2000；Cumming et al. 2001；文秋芳 2007；文秋芳、刘润清 2006）。语言质量主要包括所写文字符合语法的程度以及用词用句的丰富度和复杂度等；文章结构主要包括作文结构的完整性和清晰度、行文的连贯性和逻辑性等；写作内容主要是指所写文字与作文主题的紧扣性；书写规范主要是指英文标点、大小写等使用的规范程度；任务完成度主要是指所写内容与写作任务指令语的关联度（不离题或不偏题）等。

除语言知识和写作能力外，写作策略也是CSE写作量表的构成之一。现有研究中的写作策略在分类上存在一定差异。例如，Petrić & Czárl（2003）根据二语写作的认知过程将写作策略分为构思策略、写中策略与修改策略，但由于该研究的样本量较小，这一实证研究的外推性有限。Hwang & Lee（2017）通过混合研究法构建了大学英语写作策略能力清单，提出写作策略可分为元认知策略、记忆策略、认知策略、一语/母语使用策略、修改策略、二语使用策略、社交策略与补偿策略八类。然而，这些策略在学生自评过程中往往会产生问题。例如，学生对某些策略的含义（如社交策略）可能存在理解偏差，或者学生即使运用了某些策略，也未必能有效追溯或回忆起自己曾经用过的策略（如元认知策略）。此外，有关研究表明，虽然写作策略的分类有所不同，但是写作策略本身却很难分级，即高水平学生使用的某些写作策略可能在低水平学生的写作中也同样存在（刘燕妮 2013；张艳红 2012）。因此，在诊断测评的自评中，应该对CSE的写作策略描述语进行加工，便于学生理解写作策略的内容指向，而不同水平学习者在策略自评中可使用同一套自评量表。

综上所述，由于部分写作策略是发生在写中和写后的，写作能力自评应该安排在实际写作之前，让学生在有足够思考空间的前提下进行能力自评；而写作策略自评则应安排在实际写作之后，让学生在刚完成写作后回溯自己的写作策略使用情况，并对照同一套自评量表的描述语进行自评。

3.研究设计

3.1 自评表的设计

本研究基于外语教学与研究出版社自主开发的在线诊断测评平台“优诊学”（高校版）。这一平台包含四个级别，分别与CSE的四级、五级、六级和七级相对应。该诊断测评自评表的描述语主要源自《中国英语能力等级量表》，并聚焦涉及人群最为广泛的四个级别，依次为CSE4、CSE5、CSE6和CSE7。就受众面角度而言，这四个级别基本涵盖了我国高等教育阶段的英语学习者。

确定各级别自评表描述语主要经历了以下四个步骤。第一，从CSE中筛选适合学生自评的描述语，并依据写作能力或写作策略的范畴进行归类。写作能力自评（写前自评）的内容主要从语言质量、文章结构、写作内容、书写规范以及任务完成度这几个方面展开。比如，写前自评描述语可以是“我能在英语写作中正确使用时态和语态”“我能在英语写作中做到段落的自然衔接”等。写作策略自评（写后自评）的内容则主要涉及构思、撰写以及检查与修改这三个环节。第二，初步组合了四个级别的自评表。相邻级别之间保留一定量重叠的描述语，保证该目标级别在涵盖广度上有足够的空间，比如，针对五级水平学生的自评表中，有部分描述语与四级和六级的描述语一致。这样的相邻级别锚题设计是为了保证自评表得分的等值处理，从而可以对不同级别学生的自评结果进行纵向比较。举例而言，写作策略自评表的描述语可以是“我用关键词列出了作文的提纲，用于构思作文的内容”“我使用了衔接手段，如指代、替代、省略等，以确保段落与段落之间的自然衔接”。第三，从学生的视角对自评表中的描述语加以审阅，对某些在理解上可能造成困难或是歧义的内容进行加工或微调。第四，邀请专家对自评表的描述语进行内容判定，从自评表的内部结构、级别划分以及措辞等方面进行进一步优化。通过以上四个步骤，最终形成了四个对应不同写作量表级别的写作能力自评表，各包含20条描述语；一个写作策略自评表，包含22条描述语。

在形式上，写作能力自评表采用“我能”进行描述，并以4点Likert量表形式（1=完全做不到，2=勉强做到，3=基本做到，4=较好做到）呈现。写作策略自评表虽在形式上运用“我能”进行描述，但由于策略的使用在程度上很难区分，因此设计为两级来计分，即1表示使用了策略，0表示未使用策略。在诊断测评的流程设计上，根据受试的水平，系统将相应级别的写作诊断测评推送给他们。受试首先完成写作能力自评（约5分钟），然后在规定时间内完成一篇与其级别能力水平相符的习作，最后结合自己的习作实情完成写作策略自评（约5分钟）。

3.2 受试与数据收集

2017年10月至2018年2月期间，本研究对来自我国不同地区11所高校的大学生进行了在线写作诊断测评，测试参与者在完成写作测试任务前后，分别完成了3.1中所述的写前自评表和写后自评表。本次受试在地域分布上，基本做到了平衡覆盖，学生所在院校处于东部、中部、西部。在院校分布上，参与测试的11所高校层次和类型覆盖也较为全面：教育部直属高校4所，地方一般院校7所；外语类院校2所，师范类院校3所，医学类院校1所，综合类院校5所。受试的专业分布情况见表1。

如表1所示，共有2,486名学生（已剔除作答不认真的情况）参加了写作诊断测评与写前和写后自评。其中，大学一年级（36.9%）和二年级（46.7%）受试所占比例较高，英语专业与非英语专业的受试比例约为1∶2。就受试分布而言，一年级学生在各个级别上均有作答；二年级学生在最高级别七级自评中未作答；而三年级和四年级学生在低级别四级和五级自评中作答数量极少。这一分布基本满足了两个条件，即同一水平程度的学生（一年级）对所有自评表进行作答；不同水平程度的学生基本按照对应原则对自评表进行作答。

3.3 研究问题与工具

基于以上研究设计，我们试图回答以下两个问题：1）写前（写作能力）自评表的效度如何？2）写后（写作策略）自评表的效度如何？这两个研究问题主要通过验证性因子分析和结构方程建模的定量方法来验证自评表的效度。为保证数据的可比性，本研究均采用锚题技术对不同级别的写前（写作能力）自评表结果进行等值处理。

本研究在数据统计时使用了SPSS24.0和AMOS22.0等统计软件。

4.研究发现与讨论

4.1 写作能力自评

表2为写作能力自评的描述统计。从各级别的均值来分析，由于每个级别自评表的最高分一致（均为80），因此，可发现除了六级的自评得分平均值略高（55.98）外，其余级别的写作能力自评在绝对值上差异极小。由各级别的值域可发现，随着级别的升高，值域则不断收窄，说明写作能力的差异越来越小。这同样也体现在最小值上，从四级到七级，最小值逐步增大，说明写作能力自评结果呈阶梯状上升，这与写作能力由低级别向高级别发展这一基本规律是吻合的。此外，本研究还计算了四个写作能力自评表的内部信度。就Cronbach’s α信度值而言，四级至七级的自评表内部信度值依次为0.939、0.917、0.930和0.926，这说明自评表的内部信度是较为理想的。

接着，我们通过验证性因子分析的方法进一步验证了不同级别写前自评表的构念效度。四级写前自评792个作答数据验证性因子分析显示，各项拟合指标良好（RMSEA=0.068＜0.08，GFI=0.911＞0.9，CFI=0.934＞0.9，TLI=0.919＞0.9）；对五级写前自评的740个作答数据进行验证性因子分析，各项拟合指标良好（RMSEA=0.062＜0.08，GFI=0.92＞0.9，CFI=0.925＞0.9，TLI=0.908＞0.9）；对六级写前自评的528个作答数据进行验证性因子分析，各项拟合指标良好（RMSEA=0.069＜0.08，GFI=0.904＞0.9，CFI=0.923＞0.9，TLI=0.906＞0.9）；对七级写前自评的257个作答数据进行验证性因子分析，各项拟合指标良好（RMSEA=0.053＜0.08，GFI=0.904＞0.9，CFI=0.952＞0.9，TLI=0.942＞0.9）。这些均表明四个写作能力自评表的效度较为理想，可反映出较为全面、可靠的写作能力自评维度，综合体现了语言质量、文章结构、写作内容、书写规范以及任务完成度的构念。

4.2 写作策略自评

写作策略自评发生在学生完成在线写作诊断的习作之后，是属于写后自省的一种自我评价。本研究发现，不同级别所使用的写作策略自评表内部信度值达到0.808，说明其内部信度较为理想。表3为写作策略自评的描述统计，按照各条策略自评的均值得分顺序由高到低排列。由表3可知，学生使用最多（均值大于等于0.80）的策略为Q02（“我认真地进行了审题，并安排了文章的结构和内容”）和Q10（“我使用了连接词来表示句子与句子间的关系，如：先后顺序、对比、因果、举例等”）。相比较而言，学生使用最少（均值低于0.20）的策略为Q14（“我转述或引用了他人的观点用以论证自己的观点”）和Q16（“我使用了一些修辞手法，使表达更生动，如：比喻、排比、拟人、反问等”）。

表3中的22条写作策略的描述语分属于构思、撰写以及检查与修改三种策略。本研究进一步归纳后发现，这三种策略在自评得分中的排名依次为构思（0.617，SD=0.270）、撰写（0.511，SD=0.199）、检查与修改（0.543，SD=0.374）。这说明，学生在写作过程中，构思策略使用相对较多，而撰写策略及检查与修改策略使用相对较少。

结合在线诊断测评平台提供的数据，本研究还发现，受试学生在检查与修改上所用的时间占整体答题时长的比例较低，接近50%的学生在光标静止5分钟后即按下完成答题的按钮，说明他们在结束答题之前运用检查与修改这一写作策略的频数较低。

为了进一步验证写作策略自评表的效度，我们通过结构方程建模的方式来对其结构进行分析。由于三种策略两两相关，我们以路径分析的方式得出了写作策略三因素结构模型，如图1所示。其中，构思（gs）由5条描述语组成（Q1—Q5），撰写（zx）由13条描述语组成（Q6—Q18），检查与修改（xg）由4条描述语组成（Q19—Q22）。该模型的拟合度指标也较为理想（χ²/df=8.42，RMSEA=0.055＜0.08，GFI=0.931＞0.9，AGFI=0.915＞0.9，RMR=0.01<0.05）。

当然，由图1也可发现，虽然从结构方程模型的角度而言，写作策略自评表的效度较为理想，但部分描述语的因子载荷低于0.3，如Q15（“我运用了表格或图表来说明自己的观点或直观地提供了信息”）的载荷为0.29，Q18（“我的写作内容不是从某些写作模板中来的”）的载荷为0.27。究其原因，初步分析与讨论如下：Q15中涉及的表格和图表在限时写作中较少发生，因为写作任务无须考生运用自己的表格或图表来辅助习作中意义的传达；Q18的内容可能与策略的工作定义略有不同，本研究所指的策略主要是用于促进或补偿写作成品质量的行为，应该与应试技巧区分对待，因此，Q18的内容在今后的自评中可考虑进一步修改。

5.结语

本文聚焦写作诊断测评中的自评，以CSE写作量表为主要参照，开发并验证了写作能力（写前）和写作策略（写后）自评表。研究发现，写作自评不仅是一种写作能力测评的有效手段，也是诊断测评中考生自主评判的有效方式。本研究设计的写作能力和写作策略自评表在构念效度上较为理想，分别体现了语言质量、文章结构、写作内容、书写规范以及任务完成度的能力构念，以及构思、撰写、检查与修改的策略构念。

此外，本研究开发的自评量表结合在线诊断的优势，可在诊断测评系统中较好地实现自评功能，并为诊断测评在反馈信息的丰富性上提供有利的条件。本研究对写作教学也有一定的启发和意义。在写作教学中，教师应该创设情境，设计学生在写作不同阶段的活动与任务，让学生对自己的写作行为负责，并让学生在平时的英语写作中增强这方面的意识。此外，写作能力的提高是一个循序渐进的过程，通过在线自评写作，写作教学的理念也应进一步落实到写作过程，包括长期的写作过程，真正实现以写作促发展、以评促学的目的。从自主学习的角度而言，自评结果可让学习者受益，也可提高他们在写作策略使用方面的意识，加强策略使用的有效性。今后，本研究将进一步探索这些自评表对学习者在理解写作能力、确定学习目标等方面发挥的作用，为相关研究提供借鉴和参考。

注：本文选自《外语教育研究前沿》2019年第2卷第4期33-41页。由于篇幅所限，参考文献及注释已省略。

相关阅读：

· 刊讯丨《外语教育研究前沿》2019年第4期目录及摘要

· 期刊好文丨专栏引言：诊断性语言测评的开发和效度研究（文/金艳余国兴）

· 期刊好文丨英语阅读诊断测评中学生的认知过程（文/孙杭）

· 期刊好文 | 外语教师专业发展中的矛盾与行动：自我叙事研究（文/杨鲁新）

· 期刊好文 | 论外语教育的学科定位与教师的身份认同（文/周燕）

· 期刊好文 | 外语“金课”与“金牌外语教师团队”（文/文秋芳）

【声明】感谢《外语教育研究前沿》编辑部授权iResearch发布此文。本文版权归《外语教育研究前沿》编辑部及作者所有。其他任何学术平台若有转载需要，可致电010-88819585或发送邮件research@fltrp.com，我们将帮您协商授权事宜，请勿擅自转载。

查看全文，可点击“阅读原文”。