刘淑君, 等｜智能作文反馈能提升中学写作教学效果吗？

摘要：中文智能作文评价系统的发展有望变革传统写作教学的实践和研究，其融入日常写作教学的方式及融入后的教学效果是语文老师和写作教学研究者们高度关注的议题。本研究以B校参加写作拓展课的28名中学生为样本，采取单组前后测的方法开展为期十周的准实验研究，从多个维度验证融入智能作文反馈的议论文写作教学效果。学生接受议论文写作指导后参加三次写作活动，每次需要首先将完成的初稿进行智能批改，之后根据智能反馈内容修改作文。研究重点分析学生写作修改特点和作文质量提升状况，同时探究学生写作动机与写作修改信念的发展情况，并调查学生对智能作文反馈的体验和感受。研究发现：第一，学生最常用的修改方式是增加和替换，其次是删除和调序；低阶修改占比高于高阶修改；学生非常注重自主修改，其修改成功率低于回应反馈的修改成功率；第二，学生作文成绩提升显著，文章长度大幅增加，学生在论据、阐释和结论等文体要素的使用上取得显著进步；第三，学生写作动机在毅力和激情维度提升显著，写作修改信念在低阶和高阶维度都显著提高；第四，大部分学生认为智能作文反馈能促进写作实践，反馈质量是影响学生使用体验的关键因素。由此可知，智能作文反馈能有效支持学生写作修改过程，提升作文修改质量。持续探索智能作文反馈与教师反馈、同伴反馈、课程结构的多元整合路径将有益于人机协同写作教学实践的推广。

关键词： 智能作文反馈 ; 写作教学 ; 作文成绩 ; 写作动机 ; 写作修改信念

作者简介

刘淑君，博士，湖州师范学院人文学院讲师。

李艳，通信作者，博士，浙江大学教育学院副院长、教授、博士生导师。

目录概览

一、研究背景

二、相关文献综述

三、研究方法

四、研究发现

五、结果讨论

六、结论与启示

一、研究背景

作为人工智能在教育场景中的一种典型应用，智能作文评价以其秒批改和秒反馈的优势为未来个性化的写作教学实践提供了可能性，给传统语言教育的变革带来新契机。所谓智能作文反馈，是指智能作文评价系统生成的作文反馈信息，包括评分信息和内容反馈信息两个部分。自20世纪60年代美国杜克大学Page教授团队开发第一款智能作文评价系统PEG(Project Essay Grade)以来，智能作文评价的系统研发和教学应用效果就一直备受学界关注(Page, 1966)。早期的智能作文评价系统侧重评分功能，随着计算机自然语言处理技术的进步，20世纪90年代研发的E-rater、MY Access和Criterion等智能系统将作文评分与内容反馈相结合，为作者提供更加全面而多维的评价(唐锦兰，吴一安，2011)。同时，此类系统还支持师生互动和生生互动，有利于创建融合教师反馈、同伴互评和智能反馈的多元交互平台，推动以证据为中心的写作教学实践 (Li, Link, & Hegelheimer, 2015)。国外有研究显示，智能作文反馈对学生写作修改实践、作文质量以及动机信念等方面都有积极影响(Stevenson & Phakiti, 2014)。近年来，随着越来越多的国家启动智能作文评价的研发工作，此类系统评价的对象逐渐从英语作文扩展到中文、日语和阿拉伯语等其他语种的文本(Azmi, Al-Jouie, & Hussain, 2019; Hao, Xu, Ke, Su, & Peng, 2016; Ishioka, Kameda, & Coling, 2006, pp. 233−240)。以IN课堂语文作文智能批改(简称IN课堂)和爱语文APP为代表的中文作文智能评价工具也逐渐进入教育场景。由于中文智能作文反馈工具教育应用的时间较短，目前还处于推广阶段，很多语文教师对其反馈质量和应用效果持怀疑态度，这也影响了此类系统教育应用潜力的发挥。

本研究拟选取IN课堂语文作文智能批改(简称IN课堂)作为智能反馈工具，从写作修改实践、作文质量、写作动机和学生感知等多维度探究融入智能作文反馈的中学议论文写作教学效果。之所以选择IN课堂，是因为已有研究发现，IN课堂兼具评分和反馈功能，支持学生多次提交作文获得评价，并为人机互动和师生互动提供空间，支持机器和师生之间的双向反馈(IN课堂智能教育平台，2018；董艳等，2021)；此外，IN课堂评分效度良好，反馈质量较高，具备与教师协同教学的可能性(刘淑君等，2021)。本研究选择议论文作为写作文体，原因有二：首先，议论文是中学写作教学的重要文体之一，它承载着世界观与方法论教育的重任，与学生的思维发展关系密切(刘华，2012)；其次，中学生议论文写作能力和逻辑思维品质的发展现状不容乐观，初中生论证思维与能力还不足以为高中写作任务奠定良好基础，议论文在中学阶段既是重点也是难点(邓彤，2014)。

二、相关文献综述

（一）智能作文反馈对学生写作修改实践的影响

国外已有研究显示，智能作文反馈对学生写作修改实践具有重要影响(Link, Mehrzad, & Rahimi, 2020; Li, Link, & Hegelheimer, 2015; Chapelle, Cotos, & Lee, 2015)。有研究者从作文提交次数、修改行为、修改层次和修改效果等方面调查了学生写作修改实践，发现智能反馈组学生较教师反馈组学生修改成功率更高，但会更多地通过移除行为进行修改，解决问题的努力程度有待提高(Link, Mehrzad, & Rahimi, 2020)。Attali(2004)通过对Criterion数据库中6—12年级学生的23567篇作文的分析发现，71%的作文只有一次提交记录，学生并未基于智能反馈信息进行进一步的写作修改；29%作文提交了2—10次，说明学生得到系统多次反馈并进行了修改，其作文终稿质量较初稿有所提升。Li, Link, & Hegelheimer ( 2015)针对美国某高校70名学生的研究发现，智能作文反馈能帮助母语为非英语（English as a Foreign Language，简称EFL）的大学生增加作文提交次数，由此提升作文质量。

Chapelle, Cotos, &Lee( 2015)对美国20名EFL大学生基于Criterion反馈的写作修改行为进行了分析，结果发现，学生忽视了50%的智能反馈信息，但70%基于智能反馈的修改都带来了文本质量的提升；基于智能反馈的修改行为可分为无修改、移除、增加、删除、替换和调序六种类型，学生最常用的是“替换”。修改层次指作文终稿较初稿的内容变化层次，包括词汇、语法、格式、内容、结构、观点等，可分为低阶修改和高阶修改(Cotos, Link, & Huffman, 2017)。有研究者以美国某高校28名EFL学生(实验组12人、对照组16人)为样本、以Criterion为反馈工具进行对照实验发现，智能反馈并不会将学生写作修改局限在低阶层面，实验组(“教师+Criterion”反馈)和对照组(教师反馈)学生在高阶修改和低阶修改的占比上没有显著差异；然而，学生忽视了45%的智能反馈内容，远高于教师反馈被忽视的比例，但学生基于智能反馈的修改成功率高于教师反馈(Link, Mehrzad, & Rahimi, 2020)。可见，仅向学生提供反馈并不能保障落实效果，智能反馈在得到有效落实的情况下才能提升写作修改效果。

（二）智能作文反馈对学生作文质量的影响

智能作文反馈对作文质量的影响是该领域的研究焦点，由于评价工具、学生样本、语言背景的复杂性，此类研究还不能达成一致结论。Wang, Shang, & Briody( 2013)对57名EFL大学生实施为期16周的对照实验(实验组31人、对照组26人)显示，智能反馈组较对照组(教师反馈)在文本准确性上有显著优势。另有研究针对大学生作文(n=463)的内容分析表明，Criterion的教学应用可以降低EFL大学生的文本错误率，但以英语为母语的学生作文错误率并没有降低(Chodorow, Gamon, & Tetreault, 2010)。可见，当智能反馈融入EFL大学生写作教学时，学生作文质量会得到提高(Choi, 2010)。

针对以英语为母语的中小学生的研究结果比较复杂。Shermis, Garvan, & Diao( 2008)分析了美国某地区六、七、八、十年级2017名学生借助智能反馈完成的11685篇文章的质量，发现各年级学生作文质量都有提升，且八年级学生作文成绩提升最为显著、语言错误率降幅最大；这是由于学生写作修改能力随着年级递增而提升，同时作文成绩提升幅度也和文体类型相关。但是，当智能反馈直接与传统写作教学简单叠加时，智能反馈组与其他反馈组学生作文质量往往没有显著差异。比如，Ware(2014)研究发现，接受同伴反馈、教师反馈和Criterion反馈的三组初中生(n=82)在作文准确性、流畅性与整体分数上都没有显著差异，教师反馈与同伴反馈较智能反馈对学生文体要素使用有更积极的影响。还有学者将美国某地区114名六年级学生分为实验组(使用PEG反馈)和对照组(使用谷歌文档编辑)开展对照实验，发现两组学生后测作文质量无显著差异，且较前测都没有显著提升(Wilson & Roscoe, 2020)。然而，当智能作文反馈与有效教学策略结合时，学生作文质量会得到较大幅度提升。Palermo和Thomson(2018)以美国某地区829名6—8年级学生为样本，通过对照实验探究“传统写作教学”“智能反馈+传统写作教学”和“智能反馈+自我调节策略发展教学(Self-Regulated Strategy Development，简称SRSD)”三种条件对学生写作质量的影响，结果显示，“智能反馈+SRSD”组学生的后测作文较其他两组篇幅更长、质量更高且包含更多的议论文文体要素。这说明智能反馈与特定教学策略有机结合能促进学生写作能力提升与迁移。

（三）智能作文反馈对学生写作动机的影响

多项研究表明，智能作文反馈对学生写作动机有积极影响(Grime & Warschauer, 2010; Foltz, 2014; Wilson & Czik, 2016)。Grime和Warschauer(2010)探究了智能作文评价系统MY Access在美国某地区八所中学的使用情况，发现MY Access的应用能提升中学生写作与修改动机。Foltz(2014)的研究发现，使用Write-to-Learn反馈的学生会增加写作和修改的时间投入，由此提升写作参与的持久性和写作毅力。Wilson & Czik( 2016)以美国145名八年级学生为样本的对照实验研究(实验组72人、对照组73人)表明，实验组(PEG+教师反馈)学生对写作动机量表中毅力维度的题项“我会花时间解决写作中的问题”的认同度显著高于对照组(教师反馈)；同时，实验组学生的作文提交次数也高于对照组学生。以上研究为智能作文反馈对学生写作动机的积极影响提供了依据，但该领域还需要推进针对不同语种文本反馈工具的更多实证研究，进一步验证以上结论。

通过对智能作文反馈领域的文献回顾不难发现，已有研究大多聚焦英文智能作文评价系统的教学应用效果，由于中文智能作文评价系统兴起较晚，相关实践研究还比较有限，教育界还需要开展更多实证研究验证其在写作教学中的应用路径及效果。目前，中学写作教学中存在反馈滞后、学生写作动机低下等问题，教师认知和时间精力都存在局限。如何发挥AI新技术的优势，探索人机协同写作教学的合宜形式，是智能时代语文教师必须思考的问题(宋灵清，许林，2018；余胜泉，王琦，2019)。

鉴于以上国内外研究综述，本研究拟聚焦人机协同的议论文写作实践，探究融入智能作文反馈的中学写作教学效果。研究首先分析中学生写作修改实践的特点，继而调查学生作文质量、写作动机及写作修改信念的变化，最后以回顾笔记的形式调查学生对智能作文反馈的体验与感受。研究包含以下四个问题：

(1)在融入智能作文反馈的中学议论文写作教学中，学生写作修改行为、层次、动因和效果分别表现如何？

(2)融入智能作文反馈的中学议论文写作教学能否提升学生作文成绩、文章长度和议论文要素使用频率？

(3)融入智能作文反馈的中学议论文写作教学能否促进学生写作动机和修改信念的提升？

(4)中学生对智能作文反馈的体验与感受如何？

三、研究方法

（一）研究对象

研究者本人(教育博士，曾任教中学语文)在B校面向七、八年级学生开设一门“论辩写作”拓展课，以选修该课程的学生为研究样本。论辩文是议论文的一种，侧重在有争议的问题上表明立场、捍卫立场并驳斥反面观点。B校是长三角地区某省会城市的九年一贯制学校，该校在国家必修课程外，面向七、八年级学生开设丰富多彩的拓展课。该课程通过学生自主报名与学校调剂分配相结合的方式招募到35名学生。

教学实验贯穿秋冬学期(2020年9—12月)，课程共十周，每周两个课时。实验过程中，学生需接受议论文写作指导，完成三篇作文初稿，并借助IN课堂修改作文。有四名学生作文提交不完整，三名学生中途转到其他课程，全程参与实验课程并完成写作任务的有28名学生。学生平均年龄13.13岁，男生人数是女生的1.5倍；自主选课的有12人(占比42.86%)，接受调剂的有16人(占比57.14%)。

（二）准实验设计

本研究采取单组前后测的方法设计实验。第一周，学生完成写作动机和写作修改信念问卷，撰写一篇命题议论文作为前测作文；教师介绍IN课堂的功能和操作方法。第二至三周，教师教授议论文的构思和写作要点，并以师生合作写作的形式强化写作知识。第四至九周，学生完成三次议论文写作活动，每次活动用时两周：前一周学生接受写作指导并撰写初稿；后一周学生在机房借助IN课堂反馈修改文章，教师适时组织交流展示活动。写作指导、初稿撰写和作品交流活动都在B校某教室进行；写作修改活动在学校机房开展，该机房座位纵向排列，共四排，可容纳40人同时上机。第十周，学生完成写作动机和修改信念后测，教师以开放性问题引导学生回顾基于IN课堂反馈的作文修改过程，学生书写回顾笔记。之后，研究者收集并分析学生写作修改、作文质量、动机信念和体验感受等方面的数据，用以验证融入智能作文反馈的中学写作教学效果。

本课程融入了智能评价的人工智能要素，具有创新实验性质，以鼓励学生参与、激发写作兴趣和培养论辩思维为主要目标，教师基于学生综合表现评定课程成绩。具体而言，考勤占20%，课堂参与占30%，作业提交占30%，作文成绩占20%，学生作文成绩取三次作文终稿成绩之和。

（三）作文题目拟定

教师为每次写作练习提供两个题目，一个是社会热点话题评论，另一个是《西游记》人物论辩，学生可根据兴趣自由选择。热点话题选取与学生生活紧密相关的话题，比如“中学生追星利大于弊还是弊大于利”等。《西游记》是部编本语文教材中的必读名著，属于七年级上册的阅读任务，七、八年级学生对其内容都比较熟悉，该书趣味性与深刻性并重，是很好的论辩资源，因此，研究者设计系列人物论辩话题，比如“猪八戒是取经路上的猪队友还是好队员”等。题目编制完成后，研究者邀请B校语文教师对其趣味性和适宜性进行审核。

（四）数据收集与分析过程

本研究所收集的数据包括学生写作修改、写作动机、修改信念和回顾笔记，拟从多个维度探究融入智能作文反馈的中学写作教学效果。各类数据的收集与分析过程如下。

1. 写作修改数据的收集与分析

本研究以学生第三次作文初稿(n=28)和终稿(n=28)为样本分析学生写作修改特点，从修改行为、修改层次、修改动因和效果四个方面收集并分析数据。

研究者采用Beyond Compare软件对作文初稿和终稿文本进行内容对比，将有独立意义的修改点逐个录入Excel表格，共梳理出修改点253项，随后统计每篇作文初稿字数，将实际修改数量转化为每千字修改数。

借鉴已有文献中的分类方式，研究者结合国内中学写作教学现状，将写作修改行为划分为增加、删除、调序和替换等四种类型；修改层次分为低阶修改和高阶修改，其中低阶修改指有关标点、词句、语法的表层修改，高阶修改指涉及主题意义、内容选材和结构构思等的深层修改(Chapelle, Cotos, & Lee, 2015; Link, Mehrzad, & Rahimi, 2020)。研究者与B校语文教师W合作，从修改行为和修改层次的维度对修改点进行编码；之后对比IN课堂反馈和文本修改情况，初步判断各修改点属于自主修改还是回应反馈的修改，从修改动因和效果的角度对修改点进行编码；最后，对写作修改行为和修改层次的数据进行统计分析，比较学生自主修改和回应反馈修改的比例及效果。修改点编码样例如表1所示。

表 1 学生写作修改层次、行为、动因和效果的编码样例

2. 学生作文质量数据的收集与分析

本研究从学生作文成绩、文章长度和议论文要素等方面收集学生议论文写作质量的相关数据。

(1)学生作文成绩数据的收集与分析

教学实验贯穿秋冬学期，有一定的持续性，因此本研究不仅调查学生作文终稿成绩较初稿成绩的提升情况，也分析学生作文的长期进步情况。

针对学生的三次作文练习，每篇作文初稿和终稿都被录入IN课堂得到智能评分，同时教师参照中考作文评分标准对作文评分，两种评分方式都以40分为满分成绩，取二者均值为作文最终成绩。研究对学生三次作文初稿和终稿成绩分别进行配对样本t检验，以此验证学生议论文成绩在短期内——终稿成绩较初稿成绩——的提升状况。

同时，研究以学生第三次作文初稿作为后测样本，与前测作文成绩比较，以此检验学生作文成绩长期提升状况，即学生在无反馈的情况下独立完成的作文是否有进步。借鉴美国国家评估理事会编制的八年级议论文评分指南，参照国内议论文教学情况，研究者编制针对中学生的议论文整体评分规则，用于前后测作文评分。该评分规则提供1—6分的评分指导建议，评分员需从整体上对文章质量进行评估，不用单独评估个别项目或局部质量(National Assessment Governors Board, 2017)。

研究者和W首先独立完成前后测作文评分，取两人评分精确一致项(评分完全一致)与相邻一致项(评分等级相邻)项数之和除以总项数计算评分一致性(Hoang & Kunnan, 2016)。两位评分员针对前测作文的评分一致性为0.96，针对后测作文的评分一致性为0.92，都比较理想。之后，二人再次审阅评分有差异的作文，协商达成最终得分。研究采用SPSS 23对前后测作文整体得分进行Wilcoxon非参数检验，以此验证学生作文长期提升状况。

(2)学生作文长度数据的收集与分析

在写作教学领域，作文长度是衡量教学效果的指标之一(Graham & Harris, 2003, pp. 323−334)，有人发现作文长度和作文质量呈显著正相关(Morphy & Graham, 2012)，语文课程标准和中高考作文评价标准也都对学生作文字数提出了明确要求。本研究对学生作文前测和后测(第三次作文初稿)作文长度进行对比，以此调查融入智能作文反馈的写作教学能否影响学生作文长度。作文长度用总字数来衡量，研究者用Word文档字数统计功能记录前后测作文字数，该过程忽略书写、语法等文本错误，只关注总字数。研究采用SPSS 23对前后测作文字数进行配对样本t检验，用以验证学生作文长度是否显著增加。

(3)学生议论文要素使用数据的收集与分析

根据先前文献中推荐的程序，研究者和W对前后测作文中的议论文要素——论点、论据、阐释、反驳和结论——合作评分(Scardamalia, Bereiter, &Goelman, 1982, pp. 175−210)。对于论点和结论，如果文本包含该要素，得1分，如不包含，得0分；对于论据、阐释(进一步解释论据和论点之间的关系)和反驳，每出现一次得1分。二人提前阅读五篇文章，了解学生大致水平，交流评分中可能出现的问题，明确评分细则。之后，两位评分员分别评阅十篇作文，统计每项议论文要素的评分一致性。结果显示，二者在论点层面一致性为1，支持理由层面一致性为0.80，阐述层面一致性为0.80，反驳层面一致性为0.90，结论层面的一致性为0.90，都比较理想。对于评分有差异的样本，二人通过协商达成一致。

研究采用SPSS 23对前后测作文的各要素得进行Wilcoxon非参数检验，用以检验学生后测作文中议论文要素使用情况较前测是否有提升。

3. 学生写作动机与修改信念数据的收集与分析

学生在实验前后都需完成写作动机量表和写作修改信念问卷。学生写作动机量表在已有文献基础上改编(Piazza & Siebert, 2008)，共11题，包括学生对写作的自信(三个题项)、毅力(四个题项)和激情(四个题项)三个维度，采用李克特七点量表设计（见表2）。该量表在研发阶段的克隆巴赫α系数为0.89，在本研究的前后测中，量表的克隆巴赫α系数分别为0.88和0.91，表明量表信度较高。研究采用SPSS 23对学生写作动机前后测进行配对样本t检验，用以验证融入智能作文反馈的议论文写作教学能否提升学生写作动机。

表 2 学生写作动机量表题项样例(Piazza & Siebert, 2008)

借鉴前人编制的写作修改信念量表(Chen & Zhang, 2019)，本研究根据国内中学生议论文写作特点略作调整，如将“我可以修改文章中的拼写错误”改为“我可以修改文章中的错别字”，由此形成中学生写作修改信念问卷。该问卷由15个题项组成，分低阶修改信念和高阶修改信念两个维度，前者包括五个题项，后者包括十个题项(见表3)。学生根据对各项陈述的自信程度在“0—10”中进行选择，“0”表示“做不到”，“10”表示“完全可以做到”。在本研究中，该问卷前后测的克隆巴赫α系数分别为0.97和0.96，说明量表信度良好。研究采用SPSS 23对学生低阶和高阶修改信念的前后测得分进行配对样本t检验，用以调查实验前后学生写作修改信念提升状况。

表 3 中学生写作修改信念问卷的题项样例(Chen & Zhang, 2019)

4. 学生体验与感受类数据的收集与分析

教学实验结束后，教师将第三次作文初稿的智能评分与反馈信息提供给学生。教师提出“IN课堂的作文评分对你的写作有帮助吗，为什么？”“IN课堂的反馈建议对你的写作有帮助吗，为什么？”和“你认为IN课堂在哪些方面需要改进？”三个问题，要求学生回顾第三次写作修改过程，将回答写在相关的评分或反馈内容旁边，最终收集到20份回顾笔记。研究者分类整理学生对每个问题的回答内容，对其进一步梳理总结。

四、研究发现

（一）学生写作修改实践

针对问题一(在融入智能作文反馈的中学议论文写作教学中，学生写作修改行为、层次、动因和效果分别表现如何？)，本研究以学生第三次作文初稿(n=28)和终稿(n=28)为样本，通过文本对比整理出253项修改点，将每篇文章的修改数量转换为每千字修改数，之后对全部修改点从修改行为、层次、动因与效果四方面编码分析。

在253项修改点中，学生最常做出的修改行为是增加（141项，占比55.73%），然后依次是替换(85项，占比33.60%)、删除(23项，占比9.09%)、调序(4项，占比1.58%)。表4显示，学生每千字平均修改数量为13.05 (SD=7.34)，其中低阶修改占比60.38%，超过了高阶修改占比(39.62%)。可见，在融入智能作文反馈的写作教学条件下，学生更侧重低阶修改。

表 4 学生作文修改层次统计(n=28)

由修改动因维度的编码分析可知，在253项修改点中，学生回应IN课堂反馈的修改占17%(43项)，其他83%(210项)都属于自主修改。两种修改动因下的低阶修改占比都高于高阶修改；回应IN课堂反馈修改的低阶修改比例(62.79%)略高于自主修改的低阶修改比例(60%)，但二者相差不大(见表5)。

表 5 学生写作修改动因与层次比较(n=28)

从修改效果看，在学生回应IN课堂反馈的43项修改中，40项(占比93%)属于成功的修改，即修改有助于提升文本质量；只有3项(占比7%)属于不成功的修改，没有达成预期的文本改进。追踪具体文本发现，针对IN课堂具体精准的反馈内容，学生大多能做出有效修改；而针对模糊笼统的智能反馈，学生修改效果往往不理想(见表6)。在学生做出的210项自主修改中，修改成功的有170条（占比81%），另外40条(占比19%)修改并不成功。可见，与学生自主修改相比，基于IN课堂反馈的修改成功率更高。智能作文反馈对学生作文质量的影响往往通过写作修改实践来实现，接下来将分析学生作文质量在准实验期间的发展变化。

表 6 学生基于IN课堂反馈的作文修改样例

（二）学生作文质量分析

针对问题二（融入智能作文反馈的中学议论文教学能否提升学生作文成绩、文章长度和议论要素使用频率？），本研究从作文成绩、文章长度和文体要素三方面分析学生议论文质量。

首先，针对学生作文成绩，本研究不仅调查学生作文终稿成绩较初稿提升情况，还关注学生作文长期进步。对学生三次作文初稿成绩和终稿成绩进行配对样本t检验，表7显示，学生三次作文终稿成绩较初稿成绩都显著提升，写作修改效果良好。

表 7 学生作文成绩的配对样本t检验(n=28)

研究者和W教师合作对28位学生的前测作文和后测作文(第三次作文初稿)进行整体评分，取二者均分作为每篇作文的最终得分。Wilcoxon非参数检验结果显示，前后测作文成绩的中位数都是3分。然而，从符号秩的数据看，正秩(后测>前测）的个案数为22，秩平均值为12.18；负秩(后测<前测)的个案数为5，秩平均值为8.00；绑定值(后测=前测）的个案数为5。可见，学生后测作文成绩要高于前测，且这种差异具有显著性(Z=−4.09，p<0.01)，效应量为中等(见表8）。经过十周的教学干预，学生独立完成作文的成绩较前测有显著提升，且该提升具有长期效应，表明在智能作文反馈的学习环境中，学生能将习得技能迁移到新的写作任务中。

表 8 学生前后测作文成绩的Wilcoxon非参数检验(n=28)

注：**p<0.01。

由此可知，融入智能作文反馈的写作教学不仅能促进学生作文终稿成绩较初稿的短期提升，还有助于学生议论文写作能力的长期进步。

其次，对学生前测和后测作文(第三次作文初稿)的字数统计显示，学生前测作文平均字数为515.32，后测作文平均字数为708.18，后测作文字数比前测高出近200。配对样本t检验结果显示，后测作文长度显著高于前测作文长度(t=7.47，p<0.01)。可见，在融入智能作文反馈的写作教学条件下，学生作文长度提升幅度显著。

最后，研究者和W教师对学生前后测作文中的议论文要素合作评分，由此得到前后测作文的文体要素得分。Wilcoxon非参数检验结果显示，后测作文在论据、阐释和结论上的得分显著高于前测，且具备小到中等的效应量；前后测作文在论点和反驳层面的得分均没有显著差异(见表9）。深入调查发现，有12名学生的后测作文论据项数高于前测，占总样本的42.86%；有19名学生的后测作文阐释项数超过前测，占总样本的67.86%；有10名学生在后测作文中增加结论要素，完成从无到有的突破，占总样本的35.71%。可见，在融入智能作文反馈的写作教学条件下，学生对论据、阐释、结论三个文体要素的使用频率提升显著，论点和反驳两个要素的使用频率没有显著变化。

表 9 学生前后测作文中议论文要素的Wilcoxon非参数检验结果(n=28)

注：*p<0.05，**p<0.01。

综上可知，在融入智能作文反馈的写作教学条件下，中学生议论文在作文成绩、文章长度和文体要素使用上都有显著进步。在这一显性表现的背后，学生写作动机与修改信念的变化也值得关注。

（三）学生写作动机与修改信念分析

针对问题三(融入智能反馈的中学议论文写作教学能否促进学生写作动机和修改信念的提升？),本研究首先对学生写作动机前后测进行配对样本t检验。表10显示，学生写作动机后测在毅力维度(t=2.15, p<0.05)和激情维度(t=2.53, p<0.05)都较前测有显著提升，自信维度前后测之间没有显著差异。

表 10 学生写作动机前后测的t检验(n=28)

其次，对写作修改信念前后测进行配对样本t检验。表11显示，后测量表均分显著高于前测(t=4.40，p<0.01)，低阶修改信念后测得分显著高于前测(t=3.58，p<0.01)，高阶修改信念后测得分也显著高于前测(t=4.47，p<0.01)。值得注意的是，学生前测的高阶修改信念均分6.53(SD=2.55)低于低阶修改信念均分7.14(SD=2.40)；学生后测的高阶修改信念均分8.17(SD=2.82)也低于低阶修改信念均分8.64(SD=1.76)。

表 11 学生写作修改信念前后测配对样本t检验（n=28）

注：**p<0.01。

总之，在融入智能作文反馈的写作教学条件下，学生写作修改信念较前测有所提升，量表均分、低阶修改信念和高阶修改信念的提升都是显著的。此外，不管是前测还是后测，学生的低阶修改信念得分都高于高阶修改信念，说明学生对完成低阶修改有更强的意愿和信心。

（四）学生对智能作文反馈的体验与感受

学生写作修改实践、作文质量、写作动机和信念在准实验期间的发展变化情况，都可以和学生的体验感受类信息互相印证。针对问题四(中学生对智能作文反馈的体验与感受如何？），本研究借助三个开放性问题收集学生的体验和感受数据。对于问题一(你认为IN课堂作文评分对你的写作有帮助吗，为什么？)，有16名学生(占比80%)给出肯定回答，理由有三。第一，它能帮助学生了解作文质量(九人次)。一方面，IN课堂评分可帮助认识自身作文水平，让学生有自知之明，不会盲目自信；另一方面，在修改作文提交后，系统会立即评分，学生可了解修改后的作文质量。第二，它能促进学生写作修改实践(七人次)。有人表示，自己提交作文后会第一时间关注分数，如果偏低，就会立刻修改，“觉得分数太低似乎伤自尊，想要努力去修改完善”，“它会激励自己努力去突破，修改一次就看看是否有提升，等待的三秒钟有点小激动的，就像玩游戏一样，能增加写作的趣味性”。第三，它能增强学生的写作自信(三人次)。有同学举例说，“我把文章修改提交后，发现比之前提升了5分，就会觉得自身努力被认可，会很开心”。

有两名学生(占比10%)表示IN课堂评分对写作没有帮助，并对其评分公正性表示质疑。学生提到，“系统对字数过于重视，对重复累赘语段不能有效判定，对引用名言的判断过于程式化，只关注是否有引用标志，这会导致评分不公”，“如果我增加一段和主题无关的内容，作文分数也会提升，这说明智能评分和人类评分还是有差距的，它还是不够聪明”。另外两名学生(占比10%)未明确表态。

针对问题二(IN课堂的反馈建议对你的写作有帮助吗，为什么？)，有13名学生(占比65%)给出了肯定答案，有五名学生(占比25%)表示没有用或用处不太大，还有两名学生(占比10%)没有给出明确回答。

对IN课堂反馈建议持肯定态度的学生主要给出了三点理由。第一，它能为学生写作修改过程提供支持，拓展修改思路(六人次)。一方面，系统会针对标点、错别字和语法等提供修改建议。有学生举例说，IN课堂提出“在同一句话中出现多次‘他’，建议只保留一处，避免称谓上的重复”，这是自己写作时没有注意到的，修改后确实会让语句更流畅。另一方面，系统给出的作文提分点往往能提供修改作文的方向。有学生以作文《猪八戒，取经路上的好队员》举例，系统提出“让事实说话，用令人信服的事例来证明自己论点正确，道理将不言而喻”，该同学据此得到启发，增加了一个事例来佐证观点。第二，它可以丰富学生写作知识和语言积累(三人次)。有学生提及，“系统提供‘如何使说理具有力度’的写作指导短文，让我对议论文语言有了更深刻的认识”；也有同学提出，“拓展学习”板块的词语辨析有趣又有用，能丰富词语运用的知识。第三，它会激发学生写作和修改的热情(五人次)。有学生认为，系统会对作文从词句到语段都大加表扬，让学生有种被肯定的自豪感，更积极地投入写作与修改实践。

然而，也有五名学生(占比25%)认为IN课堂反馈信息没有用或用处不大，主要有三个原因。第一，系统表扬内容过于夸张且不贴合文本(两人次)。有学生举例说，系统说文章“语言优美，又富有启迪，以小见大、见社会、见精神”，与文章内容不符，适当表扬确实能激励写作，但表扬不贴切也影响效果。第二，反馈建议存在笼统、缺乏针对性、程式化等问题(四人次)。有学生举例说，系统建议有时过于宽泛和笼统，它提出“文章角度比较单一，说服力不强，建议运用正反对比的思维方式组织和阐释材料”，自己还是不知从何处下手；也有学生觉得某些建议听起来不错，但很难落实，比如系统建议“立意角度还可以更有新意，可尝试打破常规，逆向思维，进行反向立意”，自己很难据此修改。第三，对文本错误的识别率不高(三人次)。有学生指出，尽管系统识别出部分标点、错别字和语法等文本错误，但大量语言错误，尤其是比较复杂的语法错误还不能被识别出来。

针对第三个开放问题(你认为IN课堂系统在哪些方面需要改进？)，学生提出完善评分机制、加强内容反馈的针对性、提供写作范文范例、丰富评价文体(比如增加诗歌类)等改进建议。

五、结果讨论

（一）智能作文反馈融入议论文写作教学后，学生最常做出的修改行为是增加和替换，较少用到删除和调序；学生低阶修改比例高于高阶修改；学生非常重视自主修改，然而其成功率低于回应IN课堂反馈的修改成功率

学生最常做出的修改行为是增加和替换，二者都能体现出学生处理写作问题时的积极态度。Link, Mehrzad, & Rahimi( 2020)的研究发现，智能反馈条件下学生会更频繁地做出移除行为，即把反馈有问题的内容直接删除，带有逃避问题的消极倾向；与之相比，本研究的结果还是让人乐观的。此外，学生用到调序的次数最少，或许调整内容顺序要用到较高层次的写作与思维能力，对中低水平学生来说并不容易。

学生低阶修改比例(60.38%)高于高阶修改(39.62%)，即学生更侧重低阶修改。对中学生来说，或许理解与落实高阶修改建议有一定的难度。该结果与写作修改信念调查的发现是契合的，学生低阶修改信念得分高于高阶修改信念，说明学生更有意愿和信心完成低阶修改。深入调查IN课堂反馈内容发现，学生会忽视系统生成的大量高阶建议，落实高阶修改建议需要更复杂的写作技能和更强的毅力，即使对优秀的学生来说也是挑战。学生在回顾笔记中也提到，IN课堂高阶修改建议存在过于笼统、程式化、针对性不强等问题，或许现阶段人工智能技术还无法达成对内容意义的深度理解，教师在高阶反馈方面应该更有优势，这也为人机协同写作教学提供了发展方向。

学生自主修改和回应IN课堂反馈修改的占比分别为83%和17%，说明学生非常重视自主修改，会依靠个体认知积极发现、诊断并解决写作中的问题。学生自主修改的成功率低于基于智能反馈的修改成功率，这和先前针对英语写作修改研究的结果是一致的(Link, Mehrzad, & Rahimi, 2020)。IN课堂会帮助学生发现并诊断文本低阶错误，甚至提供具体解决方案，学生只需接受即可，修改成功率自然会提高；学生自主修改文本时，需要独立发现、诊断、解决文本中的问题，每个步骤都有失败的可能，修改成功率也会相应降低。

分析学生的写作修改特点，不仅能帮助语文教育者从微观角度了解学生的写作修改现状，也可使研究者反思智能反馈工具对学生写作修改的意义和价值。学生的写作修改实践不仅体现了学生的写作动机与修改信念，也直接影响着学生作文终稿较初稿的提升状况，是衡量中学写作教学效果的重要依据。

（二）在融入智能作文反馈的中学议论文写作教学条件下，学生作文成绩提升显著，文章长度大幅度增加，学生在论据、阐释和结论等文体要素的使用上取得显著进步

该结果与前人多项研究结果一致，智能作文反馈对普通学生和学习障碍生的作文质量都有提升作用(Stevenson & Phakiti，2014)。Palermo & Thomson( 2018)的研究发现，智能作文反馈与特定教学策略相结合能显著提升中学生写作质量，本研究的结果与之基本类似。本研究不仅调查学生作文终稿较初稿成绩提升情况，还关注学生作文成绩长期提升状况，同时分析学生对议论文论据、阐释和结论等要素的使用频率，以期通过多维度数据的相互验证提升研究结果的可信度。

值得注意的是，本研究采取单组前后测的方法设计实验，并没有对照组控制实验条件，因此学生作文质量提升或许得益于课程教学，也可能是自我发展因素(Stevenson & Phakiti, 2014)，未必完全归因于智能作文反馈的贡献，这也是本研究的局限所在。教学实验设计和实施需依托已有学生和课程资源，难以在真空条件下开展，更严谨的对照实验设计还有待未来研究推进。

（三）智能作文反馈融入中学议论文写作教学能显著提升学生写作毅力和激情，学生写作修改信念在低阶和高阶维度都有显著提升

写作动机对提升作文成绩具有重要作用(Hayes, 2012)。已有研究表明，智能作文反馈能促进学生写作动机的提升(Morphy & Graham, 2012; Foltz, 2014)，本研究印证了该结论。经过十周的教学试验，学生写作动机在毅力和激情维度提升显著，证实中文智能作文反馈对中学生写作动机具有积极影响。学生在回顾笔记中也提出，IN课堂的“秒评分”让学生看到点滴进步，会提升写作信心，“秒反馈”也通过全面表扬激发学生写作兴趣，这都和学生写作动机密切相关。值得注意的是，学生写作动机发展过程缓慢，且受多种因素的影响。由于缺乏对照组，学生又来自不同班级，本研究设计方案本身并没有排除语文课程、家庭教育等干扰因素，因此对该结论的接受和解释应持慎重态度。

学生写作修改信念在低阶和高阶维度都有显著提升，这与学生写作毅力维度的提升可相互解释。学生写作动机量表第三题(我在写作中会尝试各种可能性)和第十题(我会花时间解决写作中的问题)属于毅力维度，都和写作修改信念联系紧密。学生写作修改信念提升或许与两种因素有关：一方面，教师鼓励学生围绕论点、论据等文体要素构思、撰写和反思文本，学生在修改时有抓手；另一方面，智能作文反馈即时而便捷，学生能随时提交作文并得到“秒评分”和“秒反馈”，这能激发学生的持续修改意愿。然而，写作修改信念与学生修改数量、行为、层次等实践未必存在正相关，也就是说，学生修改信念提升并不等于同等程度的写作修改行为与效果。修改信念转化为有效写作修改实践不仅需要师生协力提升写作修改能力，还有赖智能作文评价系统在技术上迭代更新，提升反馈质量，强化过程支持力度。

（四）大部分学生认为智能作文反馈对写作有促进作用，智能反馈质量是影响学生用户体验的关键因素

回顾笔记显示，百分之八十的学生肯定智能评分对写作的促进作用，超过一半的学生对IN课堂的内容反馈持肯定态度，即大多数学生认可智能作文反馈的效果，这与先前针对英语智能作文评价的调查结果是一致的，师生大多数情况下对智能反馈有着较高的认可度(Palermo & Thomson, 2018; Grime & Warschauer, 2010)。学生认为智能评分的有用性体现在帮助认识自身作文水平、促进写作修改、提升写作自信等方面，这都建立在IN课堂评分效度良好的基础上。这里的“评分效度良好”主要来自学生的主观判断，即学生认为IN课堂评分和作文质量是契合的，能反映自身真实的写作水平；少部分学生对IN课堂评分效度产生质疑，认为自己将修改后的文本反馈给系统时，IN课堂迭代评分不够准确科学，因此不认可智能评分。尽管学生对IN课堂评分效度的评判未必完全科学，但它能为IN课堂的系统改进提供重要启发。先前有研究证实IN课堂评分效度良好，但是它主要关注系统对作文的初次评分，而非写作修改过程中对同一篇作文的动态的迭代评分(刘淑君，李艳，杨普光，李小丽和高红芳，2021)，而这恰恰是学生在写作修改过程中更为看重的。

一半以上的学生对IN课堂的内容反馈持肯定态度，认为它能拓展写作修改思路、丰富知识积累并激发写作兴趣，这分别指向IN课堂提供的纠正型、信息型(比如提供学习资源)和表扬型反馈的有效性。部分学生提出智能反馈内容存在表扬不够贴切、建议过于笼统、对文本错误识别率不高等问题。可见，学生是否接受智能反馈信息，取决于反馈内容是否准确科学且容易理解，即学生只有在认可反馈内容的科学性、能够理解且有能力实施时，才能将其转化为写作修改行为(Link, Mehrzad, & Rahimi, 2020)。

由此可知，智能反馈质量是影响学生使用体验的关键因素。大部分学生对智能作文反馈持积极态度，这带给语文教育者一种技术赋能教学的信念，也显示出智能作文反馈在教学应用上的巨大潜力。同时，学生基于用户体验对IN课堂提出完善评分机制、加强反馈针对性等建议，为系统的功能完善和技术革新提供了重要启发。

修改是写作认知模型中的关键环节( Flower & Hayes, 1981)，学生在发现、诊断和解决文本问题的过程中会遇到困难，需要从写作反馈中得到支持。智能作文反馈具备即时生成和双向互动的优势，让“练习—反馈—修改”的迭代过程实现智能化(Attali, 2004)；同时，系统语料库可为学生匹配个性化学习资源，推动自适应学习的发展。融入智能作文反馈的中学写作教学在学生写作修改实践、作文质量和写作动机信念等维度收获了积极成效。教师尽管在认知和精力上存在局限，但在意义理解、情感交流、学习引导等方面的优势依然无可取代。人机协同教学应是未来写作教学的理想形态，智能作文反馈能成为传统写作教学的有益补充，但并不能动摇教学过程中师生对话的核心作用(闫光才，2021)。

六、结论与启示

依托B校“论辩写作”课程的单组教学实验，本研究从学生写作修改实践、作文质量、动机信念等维度探究融入智能作文反馈的中学议论文写作教学效果，主要得出三点结论。

第一，在智能作文反馈条件下，学生最常做出的修改行为是增加和替换，较少用到删除和调序，写作修改行为较为积极；学生更侧重低阶修改，在落实高阶反馈建议上还面临挑战；学生非常重视自主修改，然而其成功率低于回应IN课堂反馈修改的成功率。第二，融入智能作文反馈的议论文写作教学效果良好，学生的作文质量、写作动机及写作修改信念得到全方位提升，智能作文反馈系统与教师的协同教学具备实施的可能性。第三，大部分学生认可智能作文反馈对写作的促进作用，智能反馈质量是影响学生体验的重要因素。

上述结论说明，智能作文反馈能促进学生作文质量和动机信念的提升，学生对其认可度较高，具备教学应用的基础，这为人机协同写作教学领域的发展提供了重要启示和建议。

首先，学校应创设智慧校园环境，支持智能技术在语文教学中的广泛应用。学校管理者应该顺应时代发展趋势，充分认识到智能技术在教学中的作用，为教师提供自由的工作空间，支持教育创新实验。其次，教师应积极转换角色，提升人工智能素养，在人机协同写作教学中有所担当。智能作文反馈可以随时随地向学生提供服务，反馈内容丰富而广泛，这让写作教学超越了教室这一封闭场域，同时打破了教师“传道、授业、解惑”的传统功能角色。教师要在智能时代发挥引领者、促进者、协调者的作用，推动人机协同教学的有效实施。最后，研发方应立足用户体验，关注智能作文反馈的应用效果，通过跨学科合作实现产品持续迭代升级。“人—机”双向反馈质量是决定智能作文反馈应用效果的关键因素，只有不断提升系统的文本识别和反馈精准度，找准定位，才能在人机协同写作教学中发挥技术优势。系统应着力通过高质量反馈监控学生修改过程，通过提供学习资源和过程性支持辅助学生提升能力，最终助力学生成长为独立的作者。

（刘淑君工作邮箱：03077@zjhu.edu.cn；本文通信作者为李艳：yanli@zju.edu.cn）

为适应微信排版已删除注释和参考文献，请见谅，如需阅读全文，请点击左下角“阅读原文”获取。

上期回顾

特稿

尤西林：中国当代通识教育的起源背景与现状问题——兼论通识教育“评估−调整”机制的意义

高等工程教育

乔伟峰等｜基于共同体准则的治理：工程教育认证的理论源流与实践走向

曾开富等｜中美研究型大学工程教育制度与理念研究——基于语料库的批判话语分析方法

李曼丽等｜新时期本科教育拔尖创新人才培养模式探索——一项关于清华“钱班”12年试点的质性研究

基本理论与基本问题

吴瑞君等｜我国人口在校模式高质量发展研究

李小红等｜家庭文化资本对学生阅读素养的影响：基于多层logistic模型的实证研究