“我来读文献—线上论坛” 2015年度干货整理 | 第17期，语言测试与评估 | 自由微信

“我来读文献—线上论坛” 2015年度干货整理 | 第17期，语言测试与评估

Original iResearch 外语学术科研网 2021-03-17

iResearch外语学术科研平台“我来读文献”活动自2013年上线至今，已成功举办21期，覆盖语言学、应用语言学、文学、翻译等各个研究方向和领域；自2015年4月第12期开始，“我来读文献”活动增加了“线上论坛”，邀请领读专家和文章作者与读者在线交流研讨。活动以国内外权威学术期刊最新发表的论文为载体，通过“专家导读——个人研读——专家同行互动交流”这一系列过程帮助读者加深对文献的理解和思考，帮助青年教师和科研新手提升学术研究能力，开拓学术视野。

时间不巧错过了之前可能感兴趣的活动？没关系，小编帮您进行2015年度各期活动“线上论坛”的干货整理！

第17期活动讨论主题：语言测试与评估

人工评分过程直接影响到考试分数和考试公平性，因此研究人工评分过程具有较大的意义。本文使用了即时回溯等方法，有助于读者了解质性研究方法。

点评文献：王海贞，2011，英语录音口试评分过程研究 [J]，《外语测试与教学》（4）：42-50。

点评嘉宾：

王海贞苏州大学

江进林对外经济贸易大学

01文中的24位研究参与者是如何选出的，是否有代表性？

王海贞

这24名研究对象是当年从全国各地来到南京大学考试中心参加专四评分工作的老师们。在选择研究对象时，我尽可能地考虑到了各种因素，包括性别、年龄、教学经验、评分经验、研究背景（语言学、文学、翻译学）、主授课程和学校地域等，以保证评分员的真实性和代表性。

另外，还有两条因素很重要：研究对象的配合性和健谈性。质化数据的收集非常耗时间，我采用的是一对一的方式，每个人的数据收集平均需要110分钟。所以，我首先要征得老师们的同意，然后约时间并找安静的地点。研究对象是否健谈是我提前跟他们进行接触和交谈来判断的（我当年也是评分老师）。幸运的是评分老师们大多是积极配合的。

由于期刊论文篇幅有限，感兴趣的话可以阅读我的英文专著——《英语录音口试评分过程研究》（2009）。

02文中提到对质化数据的分析主要采用了主题浮现法，那么对质化数据的分析是否还有其他方法？

王海贞

当然有，如创建编码、标注数据等。读者可参考质化数据分析的相关书籍，例如，《应用语言学中的质性研究与分析》（杨鲁新等，2013）、《质的研究方法与社会科学研究》（陈向明，2000）等。

关于质化数据分析的国外参考文献也很多，例如，Qualitative Research in Applied Linguistics: A Practical Introduction (Heigham, J. & Croker, R. A., 2009)、Doing and Writing Qualitative Research (2nd Edition) (Holliday, A., 2007)、Qualitative Data Analysis: An Expanded Sourcebook (2nd Edition) (Miles, M. B. & Huberman, A. M., 1994)、Qualitative Research Practice: A Guide for Social Science Students and Researchers (2nd Edition) (Ritchie, J., Lewis, J., Nicholls, C. M. & Ormston, R., 2003) 等。

相关的参考文献还有很多，在此不一一列举了。

03文中质性分析的数据如何保证它的信度和效度？

王海贞

确实，质化数据不像量化数据，后者可以采用统计分析软件，如SPSS，进行信度和效度分析。但是，质化分析同样具有科学性，同样可以保证其效度。建议读者阅读一些质化数据分析的相关书籍和参考文献，我刚才已经推荐了一些（详见问题2的解答）。

比如，在《应用语言学中的质性研究与分析》（杨鲁新等，2013）的第九章中专门讨论了“效度保证”，采取三角验证法、长期观察研究场地、大量引用或者翔实展示所收集的数据、研究人员的自我反思和诚实等方式。

在本文中我采用了三角验证法，数据有多个来源，翔实展示所收集的数据（详见表6），研究人员的自我反思（如从初始印象到反复验证）。

另外，限于文章篇幅，有些在本文没有详细汇报，读者可以参考我的英文专著——《英语录音口试评分过程研究》（2009）。

江进林

王老师说得很对，我再补充一点——专家判断。质性数据的收集过程、分析过程等如果有权威专家的指导贯穿其中，也可以成为效度证据之一。

04请问英语专业四级口试与大学英语四级口试、TOEFL及IELTS等口试的评分标准有何不同？

王海贞

首先来分别看一下TEM-4、CET-4、TOEFL和IELTS各自的口试评分标准。

“TEM-4口试评分标准（优秀等级）”，具体如下：

复述：能有条理地复述所听材料的详细内容。
即席讲话：能紧扣所给的题目，有条理地组织自己的讲话，内容充实，言语流畅，无不必要的停顿。
交谈：能根据所规定的情景和角色灵活自如地进行交谈。
语音语调：语音准确，发音清晰，语调自然。
语法与词汇：语法基本正确，明显错误很少；用词恰当，词汇量丰富。

“CET-4口试评分标准（A等级）”，具体如下：

语言准确性和范围：语法和词汇基本正确；表达过程中词汇丰富、语法结构较为复杂；发音较好，但允许有一些不影响理解的母语口音。
话语的长短和连贯性：在讨论有关话题时能进行较长时间的、语言连贯的发言，但允许由于无法找到合适的词语而造成的偶尔停顿。
语言灵活性和适切性：能够自然、积极地参与讨论；语言的使用总体能与语境、功能和目的相适应。

TOEFL口试评分分为三个方面：口语表达（Delivery）、语言运用（Language Use）和话题展开（Topic Development），具体标准如下：

口语表达主要包括发音（Pronunciation）、重读和语调（Stress and Intonation）以及自然语速（Natural Pacing）。发音力求准确，重读强调内容，语调符合英语，语速贴近自然。
语言运用考查考生如何有效地运用各种语法结构和词汇来表达自己的思想观点，主要包括语法和词汇两个方面。
话题展开考查考生能否全面、连贯地表达自己得观点，包括切题和内容完整两个方面。

IELTS口试目的在于测量考生在英语国家学习和生活的能力，因此强调运用英语交际的真实性和有效性，表现在考试中考官与考生一对一的面谈。

IELTS口试注重语言能力和策略能力，其评分标准分为四个方面：

流利度和连贯性（Fluency and Coherence）
词汇多样性（Lexical Resource）
语法结构和准确度（Grammatical range and accuracy）
发音（Pronunciation）

CET-4和TEM-4的口试均使用了“能做（Can-do Statements）”的描述语，直观地说明具有某种语言能力的学习者能用语言完成怎样的交际任务，如“能够较积极地参与讨论”、“能紧扣所给的题目”。TOEFL口试等级描述语则从“回应”（Response）和“话语”（Speech）视角客观描述话语特征。

结合以上口试的评分标准，我总结了一些共同点，供大家参考：

（1）基本特征相同，均为交际测试，重点考查考生运用英语进行口头交际的能力。考试效度高，具有真实性、功能性、交互性、情景性、综合性等交际口试特征（文秋芳，1999）。具有高风险考试（high-stakes）性质，考试结果对考生、家长、教师、学校和地区意义重大，甚至决定考生的毕业、入学、学位证书、继续进修的机会、用人单位的聘任或升职等。

（2）评分方法基本相同，多采用分析法与综合法相结合，既参照分析性评分量表又综合整体印象评分。CET-4口试采用分析性的综合评分（analytically holistic marking）（杨惠中，1999：51）。TEM-4口试中复述故事内容的评定属于典型的分析性评分，而其他四个部分（即席讲话内容、交谈内容、语音语调和语法与词汇）的给分是印象分（文秋芳；王凌，2009）。TOEFL口试既提供分析性评分量表又融入整体评分描述语。IELTS依照分析性等级量表评判分数。

（3）构成英语口语能力的特质因素相同，包括语言的准确性、流利性和复杂性，语篇的连贯性、充分性和切题性，语言使用的功能性，话语的适切性或得体性等不同点也有，比如等级设置、交际任务等。

05请嘉宾推荐一些有关语言测试的经典文献，并简单梳理下近期的研究热点。

江进林

我推荐大家看由剑桥大学外语考试部与剑桥大学出版社联合出版的Studies in Language Testing (SiLT) (Saville, N. & Weir, C. J., 1995-2015)系列丛书，目前已经出版了42本，涵盖语言测试领域的多个话题，研究对象是国际权威外语考试，可以参考。

至于近期的研究热点，我觉得主要有以下四个：