查看原文
其他

我与语言数据科学的故事

吴诗玉教授 语言科学 2022-04-24
      今天课后,坐在上海交通大学思源湖畔的凳子上小憩。此时,春风拂面,杨柳依依,向那开阔的湖面一眼望去,波光粼粼。真是“水光潋滟晴方好,山色空蒙雨亦奇。”美丽的思源湖!       不由想起,多年前,同样在思源湖畔,我跟雷蕾教授发生过的一次争执。那时,他还是我导师门下的一名博士生,我是他师兄。他跟我说,要转向语料库语言学研究,并打算系统学习和掌握Python和 R。对此,我颇为不屑,甚至不无讥讽地问他:“你知道这个世界上最大的英语语料库是哪一个?是 Google!最大的中文语料库是哪一个?是百度!说到语料库技术,我们这些人有谁玩得过他们?可能我们 费尽力气,掌握的一点引以为豪的所谓技术,在他们那里不过是雕虫小技,不足为道……,没什么意思。”多年以后的今天,雷蕾教授在 Python应用于语言研究上已 经颇有造诣和积淀,在科学出版社出版了《基于Python 的语料库数据处理》一书。 更重要的是,他业已成为一名在国际学术界也颇有名气的语料库语言学学者,在国际应用语言学旗舰期刊——Applied Linguistics 上发表过多篇学术研究论文。       没错,google 或者百度确实在处理文本或语料数据上具有高超的能力和技术, 并在拥有语料资源上具有无可比拟的优势,但是,我们也同样具有他们无可比拟的优势,那就是语言学的专业知识。或许,能够有效地取长补短,为我所用,才可能 实现跨越式的发展,又何必妄自菲薄呢?正是这个原因,我本人在之后的几年里,大量阅读了 R. Harald Baayen,Andy Field,Stefan Th. Gries,Natalia Levshina 以及 Hadley Wickham 等的著作,为 R 在语言科学研究中的应用积累了理论和实践的经验。       很难想象,在今天这个时代,从事语言学研究可以不跟数据打交道,不管这种数据是数值型的数据,还是语料文本数据。难道仅仅靠苦思冥想,就能提出天才式的语言学理论?或者靠大量的学术史梳理,进行文献综述,就能获得原创性的成果?恐怕很难。Mizumoto和 Plonsky2016 年曾在Applied Linguistics上发表文章,提出让R成为应用语言学研究者的学术通用语(Lingua Franca)。本人很赞同这个看 法,故在推出《第二语言加工及 R 语言应用》(外研社,2019)一书之后,又写作了本书——《R 在语言科学研究中的应用》。      本书在一定程度上是为自己所写,因为每进行一次项目研究,都会涉及一些共同的内容,久而久之,就形成了一些可供后续使用的经验,有些经验会根深蒂固地保存在脑海里,而有些经验过一段时间则会被遗忘,待要再次使用时又要费时耗力搜查、折腾一番。因此,下定决心,将勤补拙,把一些东西总结后写了下来。不敢像希罗多德说的,“把这些成果发表出来,是为了保存人类的功业,使之不致由于 年深日久而被人们遗忘……”最朴素的想法是,如果这些经验能被推广亦为他人所用,则实为一件快乐的事情,若实则微不足道,甚至谬误,能被指出、校正,也属幸事。       借此机会,要感谢那些帮助过我的人。首先,要感谢我的导师王同顺先生,还有马里兰大学的Nan Jiang 教授,感谢他们的栽培和扶持。其次,要感谢我的学生们。他们中有的听过我的“第二语言处理及R 语言应用”课程,有的通过我的网课与我相遇。教学相长,正是他们,让我对R有了更广泛而深入的理解和应用,让我有机会试错,不断进步。他们与我志同道合,并肩努力,一同通过 R 来探寻语言的奥秘。还要感谢科学出版社的杨英编辑,耐心、细致和专业。当然,也要感谢还没 投入“师门”就要为我“打工”的博士生李赞。书山有路勤为径,学海无涯苦作 舟。最后,感谢我的家人,我的太太和小孩,他们是我动力的源泉。       感谢美丽的思源湖。让我静下来,慢下来。

本文摘自吴诗玉教授:《R在语言科学研究中的应用》,科学出版社出版



书名:《R在语言科学研究中的应用》
作者:吴诗玉教授
书号:9787030694119
出版社:科学出版社 
出版时间:2021-10-01
定价:88元


内容简介





R是天生的数据分析利器,因其在统计建模和数据可视化方面的优势,它被越来越多的语言学者熟知和使用,已经成为应用语言学、心理语言学、实验语音学等研究者青睐的重要研究工具。本书在语言学量化研究视域下主要介绍了四个方面内容:①“干净、整洁”的数据框的标准;②基于ggplot2的语言数据可视化;③NHST的原理,即如何在语言研究中实现从样本到总体;④统计推断的多种应用。本书从训练数据框操作能力入手,在介绍这四个方面内容时,首先着力解决一些关键概念的理解问题,然后提供大量实例,把关键概念付诸具体应用。比如,在介绍数据框操作时,既有语言研究中常用的问卷数据处理,也有大量的反应时行为数据(E-prime)处理,这些数据都是基于笔者真实的语言研究项目。每项研究都会涉及上述四个方面内容,因此形成了一些可供后续使用的经验。




本书目录

前言

本书使用说明
第 1 章 R 数据科学:数据框的操作 1
1.1 干净、整洁的数据框的标准2
1.2 熟练地使用数据框操作函数8
1.2.1 gather( )和 spread( )的用法8
1.2.2 separate( )和 unite( )的用法 13
1.3 一些基础正则表达式的知识 21
1.4 数据表合并 32
1.4.1 传统的变长或变宽的表格合并 32
1.4.2 生成新变量的表格合并 37
1.4.3 不生成新变量的表格合并 43
1.4.4 集操作46
1.5 数据框运算和操作的五个函数 49
第 2 章 数据框操作实例:问卷数据处理 56
2.1 案例一:汉语第三人称代词的可接受度判断实验56
2.1.1 背景56
2.1.2 材料56
2.1.3 程序58
2.1.4 数据清洁和整理 59
2.1.5 利用最终数据进行描述统计 67
2.2 案例二:英语第三人称代词的可接受度判断实验71
2.2.1 背景71
2.2.2 材料73
2.2.3 程序74
2.2.4 数据清洁和整理 75
2.2.5 利用最终数据进行描述统计 87
第 3 章 数据框操作实例:反应时行为数据处理 91
3.1 背景92
3.1.1 被试92
3.1.2 材料93
3.1.3 程序94
3.2 E-prime 数据清洁和整理 94
3.3 RStudio 数据清洁和整理99
3.4 总结 113
第 4 章 概率分布 114
4.1 介绍 114
4.2 离散变量分布 116
4.3 连续变量分布:正态分布, t 分布、 F 分布和χ2分布120
4.3.1 正态分布 120
4.3.2 t 分布、 F 分布和χ2分布 128
第 5 章 假设检验的原理 133
5.1 正态分布视域下的 NHST 134
5.2 t 分布、 F 分布以及χ2分布视域下的 NHST141
5.3 总结 148
第 6 章 ggplot2 作图151
6.1 与实验数据关联的作图知识152
6.1.1 基础图形语法 152
6.1.2 分页 164
6.1.3 着色 176
6.1.4 图例修改 183
6.2 实验数据之外的作图知识188
6.2.1 theme 系统189
6.2.2 坐标体系、注解和绘制函数198
第 7 章 实验设计、 t 检验、方差分析和回归模型 203
7.1 实验研究和实验设计203
7.1.1 描述性研究 203
7.1.2 相关研究 204
7.1.3 界定变量之间关系的研究206
7.1.4 实验设计 208
7.1.5 拉丁方实验设计 211
7.2 t 检验 214
7.2.1 单样本 t 检验214
7.2.2 独立样本 t 检验218
7.2.3 配对样本 t 检验220
7.2.4 t 检验的效应量 222
7.2.5 t 检验的统计假设的前提 226
7.3 方差分析 226
7.3.1 独立测量的单向方差分析227
7.3.2 重复测量的单向方差分析230
7.3.3 多自变量方差分析 235
7.4 统计模型 242
7.5 总结 245



作者简介




吴诗玉,上海交通大学外国语学院教授、博士生导师。主要研究方向为应用语言学(二语习得(认知心理过程,外语教学,第二语言加工(语音及篇章));心理语言学;擅长使用R进行数据处理( 数据可视化、统计建模和文本挖掘),多变量回归分析等。出版著作5部,在国内CSSCI以及国际SSCI期刊上共发表近40篇研究论文,主持国家社科基金项目等科研项目多项。








识别二维码购买

            


  

1.相关阅读
跨语言视角下的汉语假设句研究
认知语言学的研究方法
具身语言的理论基础
语言类型学视域下的领属范畴研究
非习语程式语与学术写作语言产出研究
起始年龄和语言学能与二语学习成效的关系研究
语言迁移和概念性迁移:理论与实证
驱动语言学发展的三类问题

2.工具方法
武大教授:从论文写作、研究方法到答辩
《人文社科论文修改发表例话》重磅上市
一次搞懂十大文献综述是什么体验?
雷蕾教授《基于Python的语料库数据处理》重磅上市
文科生的编程自白
王华树博士团队带你走进人工智能时代的翻译技术
语言科学研究的利器——R

3.公益讲座

山东大学迎百廿校庆学术活动(7-10月)
香港中文大学中国语言及文学系学术讲座系列
中国人民大学文学院系列讲座
香港城市大学田家炳博士中國文化講座系列
厦门大学新文科系列讲座(10.20-11.18)
心理语言学线上论坛(10.20-11.17)

厦门大学语言交叉学科研究系列讲座
东北师范大学外院学术前沿系列讲座
浙江大学紫金港跨学科国际讲坛
10月29—11月5日语言文学讲座/会议/论坛(第73期)
首届语言与脑科学国际论坛

4.讲座回看
2021年度国社科活页新变化专项解读
教育部人文社科项目申报书填写+立项案例
语言文学公益讲座回放集锦(六)
How to get 教育部人文社科基金项目

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存