“我来读文献—线上论坛” 2015年度干货整理 | 第17期,语言测试与评估
iResearch外语学术科研平台“我来读文献”活动自2013年上线至今,已成功举办21期,覆盖语言学、应用语言学、文学、翻译等各个研究方向和领域;自2015年4月第12期开始,“我来读文献”活动增加了“线上论坛”,邀请领读专家和文章作者与读者在线交流研讨。活动以国内外权威学术期刊最新发表的论文为载体,通过“专家导读——个人研读——专家同行互动交流”这一系列过程帮助读者加深对文献的理解和思考,帮助青年教师和科研新手提升学术研究能力,开拓学术视野。
时间不巧错过了之前可能感兴趣的活动?没关系,小编帮您进行2015年度各期活动“线上论坛”的干货整理!
人工评分过程直接影响到考试分数和考试公平性,因此研究人工评分过程具有较大的意义。本文使用了即时回溯等方法,有助于读者了解质性研究方法。
点评文献:王海贞,2011,英语录音口试评分过程研究 [J],《外语测试与教学》(4):42-50。
点评嘉宾:
王海贞 苏州大学
江进林 对外经济贸易大学
这24名研究对象是当年从全国各地来到南京大学考试中心参加专四评分工作的老师们。在选择研究对象时,我尽可能地考虑到了各种因素,包括性别、年龄、教学经验、评分经验、研究背景(语言学、文学、翻译学)、主授课程和学校地域等,以保证评分员的真实性和代表性。
另外,还有两条因素很重要:研究对象的配合性和健谈性。质化数据的收集非常耗时间,我采用的是一对一的方式,每个人的数据收集平均需要110分钟。所以,我首先要征得老师们的同意,然后约时间并找安静的地点。研究对象是否健谈是我提前跟他们进行接触和交谈来判断的(我当年也是评分老师)。幸运的是评分老师们大多是积极配合的。
由于期刊论文篇幅有限,感兴趣的话可以阅读我的英文专著——《英语录音口试评分过程研究》(2009)。
当然有,如创建编码、标注数据等。读者可参考质化数据分析的相关书籍,例如,《应用语言学中的质性研究与分析》(杨鲁新等,2013)、《质的研究方法与社会科学研究》(陈向明,2000)等。
关于质化数据分析的国外参考文献也很多,例如,Qualitative Research in Applied Linguistics: A Practical Introduction (Heigham, J. & Croker, R. A., 2009)、Doing and Writing Qualitative Research (2nd Edition) (Holliday, A., 2007)、Qualitative Data Analysis: An Expanded Sourcebook (2nd Edition) (Miles, M. B. & Huberman, A. M., 1994)、Qualitative Research Practice: A Guide for Social Science Students and Researchers (2nd Edition) (Ritchie, J., Lewis, J., Nicholls, C. M. & Ormston, R., 2003) 等。
相关的参考文献还有很多,在此不一一列举了。
确实,质化数据不像量化数据,后者可以采用统计分析软件,如SPSS,进行信度和效度分析。但是,质化分析同样具有科学性,同样可以保证其效度。建议读者阅读一些质化数据分析的相关书籍和参考文献,我刚才已经推荐了一些(详见问题2的解答)。
比如,在《应用语言学中的质性研究与分析》(杨鲁新等,2013)的第九章中专门讨论了“效度保证”,采取三角验证法、长期观察研究场地、大量引用或者翔实展示所收集的数据、研究人员的自我反思和诚实等方式。
在本文中我采用了三角验证法,数据有多个来源,翔实展示所收集的数据(详见表6),研究人员的自我反思(如从初始印象到反复验证)。
另外,限于文章篇幅,有些在本文没有详细汇报,读者可以参考我的英文专著——《英语录音口试评分过程研究》(2009)。
江进林
王老师说得很对,我再补充一点——专家判断。质性数据的收集过程、分析过程等如果有权威专家的指导贯穿其中,也可以成为效度证据之一。
首先来分别看一下TEM-4、CET-4、TOEFL和IELTS各自的口试评分标准。
“TEM-4口试评分标准(优秀等级)”,具体如下:
复述:能有条理地复述所听材料的详细内容。
即席讲话:能紧扣所给的题目,有条理地组织自己的讲话,内容充实,言语流畅,无不必要的停顿。
交谈:能根据所规定的情景和角色灵活自如地进行交谈。
语音语调:语音准确,发音清晰,语调自然。
语法与词汇:语法基本正确,明显错误很少;用词恰当,词汇量丰富。
“CET-4口试评分标准(A等级)”,具体如下:
语言准确性和范围:语法和词汇基本正确;表达过程中词汇丰富、语法结构较为复杂;发音较好,但允许有一些不影响理解的母语口音。
话语的长短和连贯性:在讨论有关话题时能进行较长时间的、语言连贯的发言,但允许由于无法找到合适的词语而造成的偶尔停顿。
语言灵活性和适切性:能够自然、积极地参与讨论;语言的使用总体能与语境、功能和目的相适应。
TOEFL口试评分分为三个方面:口语表达(Delivery)、语言运用(Language Use)和话题展开(Topic Development),具体标准如下:
口语表达主要包括发音(Pronunciation)、重读和语调(Stress and Intonation)以及自然语速(Natural Pacing)。发音力求准确,重读强调内容,语调符合英语,语速贴近自然。
语言运用考查考生如何有效地运用各种语法结构和词汇来表达自己的思想观点,主要包括语法和词汇两个方面。
话题展开考查考生能否全面、连贯地表达自己得观点,包括切题和内容完整两个方面。
IELTS口试目的在于测量考生在英语国家学习和生活的能力,因此强调运用英语交际的真实性和有效性,表现在考试中考官与考生一对一的面谈。
IELTS口试注重语言能力和策略能力,其评分标准分为四个方面:
流利度和连贯性(Fluency and Coherence)
词汇多样性(Lexical Resource)
语法结构和准确度(Grammatical range and accuracy)
发音(Pronunciation)
CET-4和TEM-4的口试均使用了“能做(Can-do Statements)”的描述语,直观地说明具有某种语言能力的学习者能用语言完成怎样的交际任务,如“能够较积极地参与讨论”、“能紧扣所给的题目”。TOEFL口试等级描述语则从“回应”(Response)和“话语”(Speech)视角客观描述话语特征。
结合以上口试的评分标准,我总结了一些共同点,供大家参考:
(1)基本特征相同,均为交际测试,重点考查考生运用英语进行口头交际的能力。考试效度高,具有真实性、功能性、交互性、情景性、综合性等交际口试特征(文秋芳,1999)。具有高风险考试(high-stakes)性质,考试结果对考生、家长、教师、学校和地区意义重大,甚至决定考生的毕业、入学、学位证书、继续进修的机会、用人单位的聘任或升职等。
(2)评分方法基本相同,多采用分析法与综合法相结合,既参照分析性评分量表又综合整体印象评分。CET-4口试采用分析性的综合评分(analytically holistic marking)(杨惠中,1999:51)。TEM-4口试中复述故事内容的评定属于典型的分析性评分,而其他四个部分(即席讲话内容、交谈内容、语音语调和语法与词汇)的给分是印象分(文秋芳;王凌,2009)。TOEFL口试既提供分析性评分量表又融入整体评分描述语。IELTS依照分析性等级量表评判分数。
(3)构成英语口语能力的特质因素相同,包括语言的准确性、流利性和复杂性,语篇的连贯性、充分性和切题性,语言使用的功能性,话语的适切性或得体性等不同点也有,比如等级设置、交际任务等。
我推荐大家看由剑桥大学外语考试部与剑桥大学出版社联合出版的Studies in Language Testing (SiLT) (Saville, N. & Weir, C. J., 1995-2015)系列丛书,目前已经出版了42本,涵盖语言测试领域的多个话题,研究对象是国际权威外语考试,可以参考。
至于近期的研究热点,我觉得主要有以下四个:
考试效度研究,这个是经典研究话题,一直以来研究不断。
反拨效应,目前受关注较多。
机考,相关话题也比较热门。
基于学习的测试、形成性评价等,这类话题与学习的联系比较密切,也是近年的关注热点。
王海贞
我推荐一个网站:http://languagetesting.info/。该网站由Glenn Fulcher教授创办,并在不断持续更新中。
往期回顾:
“我来读文献”2015年度干货整理 | 第12期,综述性文章的阅读与写作
“我来读文献”2015年度干货整理 | 第13期,二语习得研究
“我来读文献”2015年度干货整理 | 第14期,语言测试与评估
“我来读文献”2015年度干货整理 | 第15期,语料库语言学
【声明】本文版权归iResearch所有。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com协商授权事宜,请勿擅自转载。(*封面图片来自网络)