查看原文
其他

应用语言学研究必备实用工具

分享 语言科学 2021-09-19


应用语言学研究包括理论研究和实证研究。

(1)理论研究在于提出、发展与建立应用语言学的理论体系,包括术语体系、分类体系与概括性话语体系。

(2)实证研究是基于数据的探索过程,包括数据收集、数据检索、数据加工、数据分析和数据解释。数据可以是文字资料,也可以是数字资料。数据可以是来自于一个或者几个案例的资料,也可以是来自大量案例的资料。

应用语言学的研究工具则是指那些用于数据收集、数据检索、数据加工、数据分析的制品,包括纸制品、软件和设备。有了研究工具,我们能够看的更广、更深、更全面、更细致、更科学。常用的应用语言学工具包括:


一、数据收集工具   


主要用于收集原始或一手的文字与数字资料

包括:测试卷、问卷、眼动仪、脑电仪(ERP)、键击输入纪录(Keystroke Inputlog键录)以及各种利用计算机收集数据的软件。

1. 测试卷

根据理论语言学提供的音、形、词、句、篇、用、义等方面的理论或者根据语言技能理论,设计与编制的各种语言知识与水平测试卷。常见的包括HSK、雅思、托福、CET4/8,TEM4/8 等。

2. 问卷

与语言研究相关的问卷,如语言学习动机问卷、语言学习策略问卷、评判性思维问卷、创造性思维问卷等。


3. 眼动仪

眼动仪是心理学基础研究的重要仪器,用于记录人在处理视觉信息时的眼动轨迹特征,通过分析记录到的眼动数据来探讨眼动与人的心理活动的关系。广泛用于注意、视知觉、阅读等领域的研究。


4. 脑电仪

脑电仪是探讨大脑活动的重要窗口。可进行多学科的研究,包括生理学、心理语言学、神经语言学等,为脑活动过程和脑功能状态研究,提供了很好的平台。


5. Inputlog(键录)

Inputlog(键录)是可以记录各类电脑输入操作的工具,包括键盘输入、鼠标输入和话语识别(speech recognition),可详细记录人们用计算机写作、翻译或进行其他语言活动过程中,操作键盘和鼠标的情况。研究者用记录下来的文字与数字资料,可从事相关的研究,包括写作过程研究、翻译过程研究、接受性与产出性词汇研究等。


在实际研究中,从可行性、实用性、科学性和规模性来说,1)要充分使用测试卷和问卷,2)要充分利用现成的、可以大规模收集数据、分析数据的计算机软件。


二、数据检索工具


    用于对原始数据中某些特征的提取。这类工具包括Antconc、ConcAPP、Hyconc、Monococ、Wordsmith等。主要用于检索语料库或者文本中的词、短语、搭配、词块等。这类软件对了解词的用法、常用义、常见搭配非常有用,也可用于教学,用于提取教学用例子或者考试题。

1. Antconc

由日本早稻田大学科技学院Laurence Anthony编写的一款绿色,跨平台语料处理软件。该软件具有索引,词表生成,主题词计算,搭配和词族提取等多种功能。


2. ConcAPP

由香港理工大学Chris Greaves研制的语料库检索工具。主要功能包括:制作语境共现、句内语境共现(sentence concordance)、检索词搭配、词频表,支持英语、中文、日文的语料;支持对单个或者多个语料文件的检索。


3. Hyconc

国产实用的语料库分析处理软件HyConc,主要包括三种功能:一是单语语料检索分析处理功能,二是平行语料检索处理分析功能,三是语料的预处理功能。


4. Wordsmith

由英国利物浦大学Mike Scott设计的一个功能强大的综合软件包。包含Concord(语境共现检索工具),Wordlist(词频列表检索工具),Keywords(关键词检索工具),Splitter(文本分割工具),Text Converter(文本替换工具),Viewer(文本浏览工具)等6个程序。


三、数据加工工具

   对原始文字数据进行附码的一些软件,如TAGGER, CLAWS,ICTCLAS,该类工具可以帮助我们回答如”作者/译者的语言有哪些显著特征?”“二语学习着可以熟练使用哪些产出性词汇?“”二语学习着的产出词汇发展有哪些规律?“等问题。

1. TAGGER

Tree Tagger:TreeTagger是德国斯图加特大学Helmut Schmid开发的一款自动词性标注软件,采用宾州树库符码集。支持英语、德语、法语、意大利语等四种语言的词性标注,同时还支持词形还原(lemmatization)功能。

Stanford POS Tagger是斯坦福大学自然语言处理小组开发的一款词性自动标注软件,采用宾州树库符码集(Marcus等:1993),符码准确率可达到96.97%。

2. CLAWS

Constituent-Likelihood Automatic Word-tagging System是Lancaster大学开发的自动语法标注的软件。赋码的正确率高达96%以上。

3. ICTCLAS

中科院计算技术开发的汉语词法分析系统,全称为Institute of Computing Technology, Chinese Lexical Analysis System,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。


四、数据分析工具


数据分析工具包括语料描述统计分析软件与概率统计分析软件。

语料描述统计分析软件:可以对语料做描述分析,包括频数分析、频率分析,均值与标准差分析。包括Excel、Range、Wordsmith、Cohmetrix。

概率统计分析软件:在描述统计的基础上,运用概率理论,根据特定的研究假设,对数字数据进行检验分析。包括SPSS,SAS,STATA,MATLAB,R等,还有LISREL,AMOS等高级建模统计分析软件。

1. Range

由新西兰维多利亚大学开发,以词频分析为基础设计,自带有若干基础词表,其所列词表的分析检索结果可帮助研究人员发现不同词类在文中的分布情况,词族,词符的出现频率以及其在文中的累计频率,还可用于不同文本词汇量大小、措辞异同对比。

2. SPSS

SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功。它集数据录入、整理、分析功能于一身,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS分析结果清晰、直观、易学易用,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。


3. SAS

由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。是一个模块化、集成化的大型应用软件系统。SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持及其数据仓库设计,主要完成以数据为中心的四大任务:数据访问;数据管理,数据呈现;数据分析。

4. STATA

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。


5. MATLAB

MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。

6. R

R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。


本文转自语言学心得。本文改编自南京师范大学教授、博士生导师马广惠老师 《应用语言学研究工具论》的lecture,特此感谢。


延伸阅读

文科生的编程自白
崔希亮教授推荐语言学书单
剑桥大学语言学系推荐入门书单
科研工具 |语言学研习书单
互动赠书||带你玩转翻译技术



语科教师群


小科邀您入同学群


欢迎留言并分享至朋友圈

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存