雷蕾教授《基于Python的语料库数据处理》重磅上市
内容简介
本书以语料库语言学研究实践为导向,介绍Python编程基础知识。第1章为Python语言简介,第2章至第6章由易到难、循序渐进介绍Python语言的基本数据类型和语法。第7章和第8章提供文本处理的个案实例。全书内容涵盖语料库语言学研究中常用的文本处理模式,读者可以通过学习本书掌握语料库语言学研究中的Python编程技巧,以便更深入地进行研究。另外,本书提供大量语料库语言学文本处理所需的Python代码,读者可以直接将这些代码(或将这些代码稍加改动)用于自己的研究中。
本书目录
文科生的编程自白
第1章 引言 1
1.1 Python语言与语料库数据处理 1
1.2 安装Python 3
1.3 Python代码的编写和运行 5
1.4 PyCharm的安装和使用 6
1.5 “Hello world!” 8
1.6 本书结构 10
第2章 数值和字符串 13
2.1 数值 13
2.2 常用数值运算符 14
2.3 常用数值函数 16
2.4 数值计算示例 20
2.5 数值计算练习 24
2.6 字符串 25
2.7 字符串运算 28
2.8 字符串与数值的互换 29
2.9 常用字符串函数 29
2.10 练习 32
第3章 条件与循环 33
3.1 条件判断 33
3.2 while循环 39
3.3 for...in循环 39
3.4 读写单个文本 41
3.5 练习 44
第4章 列表和元组 46
4.1 列表 46
4.2 列表与字符串的相互转换 47
4.3 常用列表函数 49
4.4 列表相关文本处理实例 56
4.5 元组 59
4.6 练习 60
第5章 正则表达式 62
5.1 正则表达式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零个或多个字符 66
5.5 分组 72
5.6 元字符的转义 74
5.7 换行符、回车符、制表符 77
5.8 正则表达式相关实例 77
5.9 练习 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函数 92
6.3 字典排序 95
6.4 字典相关实例 97
6.5 练习 102
第7章 语料库数据处理个案实例 103
7.1 分句和分词 103
7.2 词性赋码 107
7.3 词形还原 111
7.4 抽取词块 112
7.5 计算搭配强度 114
7.6 删除词表中的停用词 119
7.7 语料检索的KWIC实现 120
7.8 句子检索相关个案 122
7.9 实现Range软件功能 123
7.10 读取多个文本文件 133
7.11 多个文本文件批量改名 137
7.12 使用Stanford CoreNLP进行文本处理 139
第8章 语料库Unicode数据处理个案实例 153
8.1 中文分词 153
8.2 中文词性赋码 157
8.3 检索中文文本 160
8.4 英汉双语语料文本的合并与分割 162
附录A Python及命令行文本处理相关参考书籍 167
附录B 宾夕法尼亚大学树库词性赋码集 168
作者简介
雷蕾,华中科技大学外国语学院教授、博士生导师。研究兴趣涉及语料库语言学、学术英语、二语习得、计量语言学、语言研究方法等领域。
出版专著5部,在Applied Linguistics、Lingua、International Journal of Corpus Linguistics、System等SSCI期刊发表研究性论文20余篇,在SSCI期刊发表书评10余篇,在CSSCI期刊发表论文或书评10余篇,两篇论文入选ESI高被引论文。主持国家社科基金项目等科研项目多项。担任20余家国内外期刊匿名审稿人。识别二维码购买
延伸阅读
语科教师群
小科邀您入同学群
欢迎留言并分享至朋友圈