查看原文
其他

新书推荐 | 文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》

转自:翻译学通讯

点击蓝字关注我们

推荐语


文科生可以学会的Python

本书以语料库语言学研究实践为导向,介绍Python编程基础知识。第1章为Python语言简介,第2章至第6章由易到难、循序渐进介绍Python语言的基本数据类型和语法。第7章和第8章提供文本处理的个案实例。全书内容涵盖语料库语言学研究中常用的文本处理模式,读者可以通过学习本书掌握语料库语言学研究中的Python编程技巧,以便更深入地进行研究。另外,本书提供大量语料库语言学文本处理所需的Python代码,读者可以直接将这些代码(或将这些代码稍加改动)用于自己的研究中。

书名:基于Python的语料库数据处理

作者 :雷蕾

出版社:科学出版社

出版时间:2020年6月

定价:68元

优惠限时价:52元

 

作者简介:

雷蕾,华中科技大学外国语学院教授、博士生导师。研究兴趣涉及语料库语言学、学术英语、二语习得、计量语言学、语言研究方法等领域。

出版专著5部,在Applied Linguistics、Lingua、International Journal of Corpus Linguistics、System等SSCI期刊发表研究性论文20余篇,在SSCI期刊发表书评10余篇,在CSSCI期刊发表论文或书评10余篇,两篇论文入选ESI高被引论文。主持国家社科基金项目等科研项目多项。担任20余家国内外期刊匿名审稿人。

友情提示:扫码即可购买,欢迎下单。如需发票,请务必在地址栏下方的留言处,自行备注抬头、税号和email,谢谢合作!


文科生的编程自白

在书稿即将完成之际,我非常乐意与读者诸君分享我学习语料库语言学、特别是学习语料库数据处理技术的经历,以与大家共勉。

如果从2002年开始硕士求学算起,我接触和学习语料库语言学已有近二十年时间,而学习语料库数据处理技术大致经历了如下三个阶段,即从完全依赖软件工具处理数据的初始阶段,到兼用软件工具和编程处理数据的中间阶段,再到最近几年基本通过编程处理数据。

初始阶段:依赖软件工具

在学习语料库语言学的初始阶段,我主要依赖WordSmith、AntConc等软件工具来处理语料数据。使用软件工具处理数据的一个显著优点是学习成本低、操作简单。但随之而来的问题是,数据处理受限于软件功能,即数据处理局限于WordSmith、AntConc等软件所提供的制作词表、提取关键词等少数几个简单功能,而当需要用其它方法处理数据以解决稍微复杂的研究问题时,往往囿于数据处理能力限制而无法开展更深入研究。

中间阶段:软件工具与编程并行

2010年春在提交了博士论文外审后,我开始摸索学习编程。记得最开始学习的是Perl语言,后来又学过一点儿Linux系统的命令行语言。刚开始学习最痛苦,纯文科出身没有任何编程基础,加上又是自学,走了不少弯路;当然,痛苦摸索的过程也锻炼了自学能力,特别是网络查找资料和解决方案的技能得到了提升。后来Python越来越来火,大约2014年我开始学习Python编程。由于有Perl基础,学习Python似乎轻松顺利了许多。2014年4月第一次到美国阿拉巴马大学英语系访学,在租住的小屋里,磕磕绊绊终于写好了从某大报自动爬取中英文新闻报道并双语对齐的代码,看着代码成功运行、不一会儿数千对齐文本自动生成,喜不自禁,感觉拥有了整个世界!2015年,再次到阿拉巴马访学,又零星学了一阵R语言,但还是写Python居多。这一阶段,主要运用软件工具做语料基本处理(如用AntConc做检索、Linux命令行下调用Stanford CoreNLP做词性赋码或句法分析),然后写Python代码对初始处理过的数据进行深加工。因此,这一阶段软件工具和编程兼用,相互协作,而通过Python写代码处理语料也已比较熟练。

现阶段:编程为主

转眼到了2017年秋季,我到美国内布拉斯加大学林肯分校英语系访学。由于合作导师Matthew Jockers教授主要使用R语言,而我主要写Python,我们开始合作处理数据时不太顺畅。比如,我把Python代码发给Matthew,他需要将我的代码“翻译”成R代码,反之亦然,我需要将Matthew的R代码“翻译”成Python,此种低效促使我开始认真学习R语言。当然由于有编程基础,学习过程也颇顺利,在内布拉斯加半年访学结束,R语言也用得比较顺手了。自此以后,逐渐熟悉了在Python或R中调用其他工具包,也渐渐很少再用软件工具,过渡到绝大部分数据处理工作通过编程来完成的阶段。

啰啰嗦嗦这么多,既是对过去近二十年学习的小结,也是向读者诸君“现身说法”——文科生也可以自学编程。当然,我们颇业余的编程水平与理工生或专业程序员不可同日而语,我们写的代码可能非常简陋甚至低效,但我们在笨拙挣扎后能写出可以运行的代码,能解决绝大部分我们想要解决的研究问题,就够了。

本书是我学习Python编程的心得,也是我多年科研工作中累积的Python代码的部分集合。本书在介绍Python基本数据类型和语法的基础上,提供了大量语料库数据处理个案实例。从较为简单的文本分句、分词、词性赋码、词形还原,到较为复杂的搭配提取、句法分析、双语文本对齐,个案实例涵盖了语料库数据处理所需的大部分研究场景。相信读者诸君在阅读和学习本书内容后,能掌握Python语料数据处理的基本技能,从而在此基础上不断扩大研究边界、提升研究实力和研究质量。

本书的撰写和出版,需要感谢太多人。感谢导师王同顺教授的培养和关心,感谢合作导师Dilin Liu教授、Matthew Jockers教授的指导和提携,感谢北京航空航天大学卫乃兴教授、梁茂成教授、以及华中科技大学外国语学院领导和同事的鼓励和支持。感谢我的博士生施雅倩、文举帮忙校对书稿、测试代码。感谢科学出版社张宁女士和其他编辑老师的帮助和默默付出。最后,感谢太太和女儿的爱,我要将此书献给她们。

本书受2019年华中科技大学文科双一流建设基金资助,为“大数据语言信息处理一流团队建设”项目阶段性成果,特此致谢。

雷  蕾2020年02月20日于喻家山










(向上滑动启阅)

目录:


文科生的编程自白
第1章 引言 1
1.1 Python语言与语料库数据处理 1
1.2 安装Python 3
1.3 Python代码的编写和运行 5
1.4 PyCharm的安装和使用 6
1.5 “Hello world!” 8
1.6 本书结构 10
第2章 数值和字符串 13
2.1 数值 13
2.2 常用数值运算符 14
2.3 常用数值函数 16
2.4 数值计算示例 20
2.5 数值计算练习 24
2.6 字符串 25
2.7 字符串运算 28
2.8 字符串与数值的互换 29
2.9 常用字符串函数 29
2.10 练习 32
第3章 条件与循环 33
3.1 条件判断 33
3.2 while循环 39
3.3 for...in循环 39
3.4 读写单个文本 41
3.5 练习 44
第4章 列表和元组 46
4.1 列表 46
4.2 列表与字符串的相互转换 47
4.3 常用列表函数 49
4.4 列表相关文本处理实例 56
4.5 元组 59
4.6 练习 60
第5章 正则表达式 62
5.1 正则表达式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零个或多个字符 66
5.5 分组 72
5.6 元字符的转义 74
5.7 换行符、回车符、制表符 77
5.8 正则表达式相关实例 77
5.9 练习 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函数 92
6.3 字典排序 95
6.4 字典相关实例 97
6.5 练习 102
第7章 语料库数据处理个案实例 103
7.1 分句和分词 103
7.2 词性赋码 107
7.3 词形还原 111
7.4 抽取词块 112
7.5 计算搭配强度 114
7.6 删除词表中的停用词 119
7.7 语料检索的KWIC实现 120
7.8 句子检索相关个案 122
7.9 实现Range软件功能 123
7.10 读取多个文本文件 133
7.11 多个文本文件批量改名 137
7.12 使用Stanford CoreNLP进行文本处理 139
第8章 语料库Unicode数据处理个案实例 153
8.1 中文分词 153
8.2 中文词性赋码 157
8.3 检索中文文本 160
8.4 英汉双语语料文本的合并与分割 162
附录A Python及命令行文本处理相关参考书籍 167
附录B 宾夕法尼亚大学树库词性赋码集 168









推荐一门网课:Python编程与数据分析可视化

主讲人:董付国

扫码关注语言学通讯


推荐阅读

推荐阅读:
重磅福利!近期50场语言类学术讲座精彩回放大集合
重磅!2020大学“一流学科”排行榜发布:涵盖516所高校90个学科
合辑 | 双语版《你好,中国》( Hello, China ):1-100集视频(完结)
中国外文局审定450余条中国时政术语标准英译(附电子版下载)| 双语资源
应用语言学研究必备实用工具
预告 | 高端!前沿!线上!“治学之道与研究方法大家谈”系列讲座(6月22日)
会讯 | 第五届全国生态语言学研讨会(一号通知)
前沿!高端!线上!“新世纪外国文学趋势发展研究”高层论坛直播预告
张辉教授讲座:母语与二语神经认知的个体差异及其影响因素 | 双语认知与发展系列讲座 1
会讯 | 国际韩礼德语言学研究会2020年会暨第12届中国社会语言学国际学术研讨会
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
会讯︱2020国际英语教育中国大会报名及发言征集通知
会讯︱国际应用语言学前沿问题研究高端论坛(二号通知)
外语教学类高被引论文排行榜TOP 10(附:文秋芳《构建“产出导向法”理论体系》全文
蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
查明建 | 知否知否,英语专业不是学英语的专业,掌握英语技能只是最低要求
系列讲座直播 | 2020中国二语习得跨学科研究国际论坛,中国海洋大学外院主办
语言文学类线上公益讲座集锦(6月14日-19日)
近期10余场语言文学类线上讲座预告,总有一场适合你!
招生 | 上外语言研究院2020年优秀大学生夏令营招生简章
中英文学科、专业名称对照
多位著名专家学者分享英语学习方法
语言学巨擘乔姆斯基:三个讲座,国内少见
视频 | 史蒂芬·平克:语言学—理解大脑的窗口
人类认知的边界在哪里?——乔姆斯基的回答
专访视频 | 乔姆斯基谈语言、认知、深度学习和人工智能
纪念Lyons | 莱昂斯论乔姆斯基和生成语法理论
Lakoff《不要想大象!》| 重建框架,就是变革社会
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻 by Lakoff & Johnson)
语言学家 Lakoff & Duran:特朗普正在将言语变成武器,对民众进行洗脑!
重磅访谈|乔姆斯基:新自由主义瘟疫使新冠疫情恶化(完整版视频+中文实录)
视频双语 | 希拉里竞选时狂喷特朗普半小时,现在看来句句戳中要害
《抗击新冠肺炎疫情的中国行动》白皮书 (中英全文)
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
许家金:基于语料库的历时语言研究述评(上)|《外语教学与研究》2020(2)
许家金:基于语料库的历时语言研究述评(下)|《外语教学与研究》2020(2)
《国际认知语言学经典论丛》4种 | 外教社海外原创学术丛书之二
重磅资源丨第四批发布!外文局审定新冠疫情相关词汇英文表达(1-4批大合集)
第五批来了!外文局审定新冠疫情相关词汇英文表达(第五批)
2019年中国语言文字工作“靓”点 + 中国语言生活总体状况介绍
多模态话语分析:以“疫情防控外语通”为例
世界语言谱系及语种全览 | 语言学微课堂
苗兴伟:什么是话语分析?| 语言学微课堂
吴岩:我们再也不可能、也不应该退回到疫情之前的教与学状态
热议 | 已发表的中文论文,翻译成英文后,还能再次发表吗?
如何利用政府工作报告学好翻译?| 经验分享+资源好帖
总理记者会妙喻连连,“翻译女神”张璐逐个击破,真稳!| 侃英语
视频双语 | 总理记者会精彩语录+双语全文,张璐翻译传神到位!
重磅资源 | 外语教学论文写作与发表(免费下载论文写作资料大礼包)
资源推荐丨汉语学习实用APP/小程序/网站大搜罗
学习资源 | 几乎所有中国美食的英文翻译及相关知识, 一定要收藏备用!
这120个中国传统文化名词如何用英文表达?
教育部:推荐使用的外语词规范中文译名(第 1-9 批合集)
牛津社会语言学丛书 | 9种精选,一次看个够(可试读)
推荐!“剑桥语言测试研究丛书”6册出版
LingPress | 语言学中外文重要期刊目录一站式阅览
书讯 | 2019年商务印书馆学术中心全年书单
《爱丽丝》是个语言(学)宝藏
讲座视频 | 乔姆斯基: 语言学的基本问题 (上) Fundamental Issues in Lingui. (at MIT)
讲座视频 | 乔姆斯基: 语言学的基本问题 (下) Fundamental Issues in Ling. (at MIT)
复旦教授蔡基刚:AI 时代,高校翻译专业必然走向消亡
热议 | 高校翻译专业将走向消亡,不仅仅是因为AI



赠人玫瑰,手有余香

目前已有1.37万语言文学、国别区域研习者关注↑↑本公号,

欢迎加入我们,学习交流,快乐分享!


大家都在看,就差你啦~

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存