查看原文
其他

文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》

欢迎点击上方关注我们,欢迎转发此文

本文来源:翻译学通讯微信公众号

推荐语


文科生可以学会的Python

本书以语料库语言学研究实践为导向,介绍Python编程基础知识。第1章为Python语言简介,第2章至第6章由易到难、循序渐进介绍Python语言的基本数据类型和语法。第7章和第8章提供文本处理的个案实例。全书内容涵盖语料库语言学研究中常用的文本处理模式,读者可以通过学习本书掌握语料库语言学研究中的Python编程技巧,以便更深入地进行研究。另外,本书提供大量语料库语言学文本处理所需的Python代码,读者可以直接将这些代码(或将这些代码稍加改动)用于自己的研究中。

书名:基于Python的语料库数据处理

作者 :雷蕾

出版社:科学出版社

出版时间:2020年6月

定价:68元

优惠限时价:52元

 

作者简介:

雷蕾,华中科技大学外国语学院教授、博士生导师。研究兴趣涉及语料库语言学、学术英语、二语习得、计量语言学、语言研究方法等领域。

出版专著5部,在Applied Linguistics、Lingua、International Journal of Corpus Linguistics、System等SSCI期刊发表研究性论文20余篇,在SSCI期刊发表书评10余篇,在CSSCI期刊发表论文或书评10余篇,两篇论文入选ESI高被引论文。主持国家社科基金项目等科研项目多项。担任20余家国内外期刊匿名审稿人。


文科生的编程自白

在书稿即将完成之际,我非常乐意与读者诸君分享我学习语料库语言学、特别是学习语料库数据处理技术的经历,以与大家共勉。

如果从2002年开始硕士求学算起,我接触和学习语料库语言学已有近二十年时间,而学习语料库数据处理技术大致经历了如下三个阶段,即从完全依赖软件工具处理数据的初始阶段,到兼用软件工具和编程处理数据的中间阶段,再到最近几年基本通过编程处理数据。

初始阶段:依赖软件工具

在学习语料库语言学的初始阶段,我主要依赖WordSmith、AntConc等软件工具来处理语料数据。使用软件工具处理数据的一个显著优点是学习成本低、操作简单。但随之而来的问题是,数据处理受限于软件功能,即数据处理局限于WordSmith、AntConc等软件所提供的制作词表、提取关键词等少数几个简单功能,而当需要用其它方法处理数据以解决稍微复杂的研究问题时,往往囿于数据处理能力限制而无法开展更深入研究。

中间阶段:软件工具与编程并行

2010年春在提交了博士论文外审后,我开始摸索学习编程。记得最开始学习的是Perl语言,后来又学过一点儿Linux系统的命令行语言。刚开始学习最痛苦,纯文科出身没有任何编程基础,加上又是自学,走了不少弯路;当然,痛苦摸索的过程也锻炼了自学能力,特别是网络查找资料和解决方案的技能得到了提升。后来Python越来越来火,大约2014年我开始学习Python编程。由于有Perl基础,学习Python似乎轻松顺利了许多。2014年4月第一次到美国阿拉巴马大学英语系访学,在租住的小屋里,磕磕绊绊终于写好了从某大报自动爬取中英文新闻报道并双语对齐的代码,看着代码成功运行、不一会儿数千对齐文本自动生成,喜不自禁,感觉拥有了整个世界!2015年,再次到阿拉巴马访学,又零星学了一阵R语言,但还是写Python居多。这一阶段,主要运用软件工具做语料基本处理(如用AntConc做检索、Linux命令行下调用Stanford CoreNLP做词性赋码或句法分析),然后写Python代码对初始处理过的数据进行深加工。因此,这一阶段软件工具和编程兼用,相互协作,而通过Python写代码处理语料也已比较熟练。

现阶段:编程为主

转眼到了2017年秋季,我到美国内布拉斯加大学林肯分校英语系访学。由于合作导师Matthew Jockers教授主要使用R语言,而我主要写Python,我们开始合作处理数据时不太顺畅。比如,我把Python代码发给Matthew,他需要将我的代码“翻译”成R代码,反之亦然,我需要将Matthew的R代码“翻译”成Python,此种低效促使我开始认真学习R语言。当然由于有编程基础,学习过程也颇顺利,在内布拉斯加半年访学结束,R语言也用得比较顺手了。自此以后,逐渐熟悉了在Python或R中调用其他工具包,也渐渐很少再用软件工具,过渡到绝大部分数据处理工作通过编程来完成的阶段。

啰啰嗦嗦这么多,既是对过去近二十年学习的小结,也是向读者诸君“现身说法”——文科生也可以自学编程。当然,我们颇业余的编程水平与理工生或专业程序员不可同日而语,我们写的代码可能非常简陋甚至低效,但我们在笨拙挣扎后能写出可以运行的代码,能解决绝大部分我们想要解决的研究问题,就够了。

本书是我学习Python编程的心得,也是我多年科研工作中累积的Python代码的部分集合。本书在介绍Python基本数据类型和语法的基础上,提供了大量语料库数据处理个案实例。从较为简单的文本分句、分词、词性赋码、词形还原,到较为复杂的搭配提取、句法分析、双语文本对齐,个案实例涵盖了语料库数据处理所需的大部分研究场景。相信读者诸君在阅读和学习本书内容后,能掌握Python语料数据处理的基本技能,从而在此基础上不断扩大研究边界、提升研究实力和研究质量。

本书的撰写和出版,需要感谢太多人。感谢导师王同顺教授的培养和关心,感谢合作导师Dilin Liu教授、Matthew Jockers教授的指导和提携,感谢北京航空航天大学卫乃兴教授、梁茂成教授、以及华中科技大学外国语学院领导和同事的鼓励和支持。感谢我的博士生施雅倩、文举帮忙校对书稿、测试代码。感谢科学出版社张宁女士和其他编辑老师的帮助和默默付出。最后,感谢太太和女儿的爱,我要将此书献给她们。

本书受2019年华中科技大学文科双一流建设基金资助,为“大数据语言信息处理一流团队建设”项目阶段性成果,特此致谢。

雷  蕾

2020年02月20日于喻家山










(向上滑动启阅)

目录:


文科生的编程自白
第1章 引言 1
1.1 Python语言与语料库数据处理 1
1.2 安装Python 3
1.3 Python代码的编写和运行 5
1.4 PyCharm的安装和使用 6
1.5 “Hello world!” 8
1.6 本书结构 10
第2章 数值和字符串 13
2.1 数值 13
2.2 常用数值运算符 14
2.3 常用数值函数 16
2.4 数值计算示例 20
2.5 数值计算练习 24
2.6 字符串 25
2.7 字符串运算 28
2.8 字符串与数值的互换 29
2.9 常用字符串函数 29
2.10 练习 32
第3章 条件与循环 33
3.1 条件判断 33
3.2 while循环 39
3.3 for...in循环 39
3.4 读写单个文本 41
3.5 练习 44
第4章 列表和元组 46
4.1 列表 46
4.2 列表与字符串的相互转换 47
4.3 常用列表函数 49
4.4 列表相关文本处理实例 56
4.5 元组 59
4.6 练习 60
第5章 正则表达式 62
5.1 正则表达式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零个或多个字符 66
5.5 分组 72
5.6 元字符的转义 74
5.7 换行符、回车符、制表符 77
5.8 正则表达式相关实例 77
5.9 练习 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函数 92
6.3 字典排序 95
6.4 字典相关实例 97
6.5 练习 102
第7章 语料库数据处理个案实例 103
7.1 分句和分词 103
7.2 词性赋码 107
7.3 词形还原 111
7.4 抽取词块 112
7.5 计算搭配强度 114
7.6 删除词表中的停用词 119
7.7 语料检索的KWIC实现 120
7.8 句子检索相关个案 122
7.9 实现Range软件功能 123
7.10 读取多个文本文件 133
7.11 多个文本文件批量改名 137
7.12 使用Stanford CoreNLP进行文本处理 139
第8章 语料库Unicode数据处理个案实例 153
8.1 中文分词 153
8.2 中文词性赋码 157
8.3 检索中文文本 160
8.4 英汉双语语料文本的合并与分割 162
附录A Python及命令行文本处理相关参考书籍 167
附录B 宾夕法尼亚大学树库词性赋码集 168










相关文献延伸阅读(爱书人指南)

敬告:本公号友情提供相关书讯或书目索引链接,

以便爱书人前往第三方平台自行选购

语言学图书精选推荐

推荐阅读:
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉……)
《全球视野下的孔子学院研究》书系约稿啦!
【收藏】2021年国家社科基金申请书撰写参考模板
聚焦 | 2020年度中国十大学术热点画像!
教育部:全球有70个国家将中文纳入国民教育体系
近五年国家社科基金年度项目 语言学立项名单一览
近四年国家社科青年项目“语言学”类立项名单一览
译词 | 64个跨文化核心词(含中英释义)
乔姆斯基:语言学的“当时”和“现在”
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
吴应辉:汉语国际教育面临的若干理论与实践问题
图说孔子学院新机制 新模式 | 2020孔子学院合作论坛主旨发言
孔子学院:践行《世界文化多样性宣言》的东方典范
心理语言学系列论坛预告(1月13-3月24日)
视频+全文| 马斯克专访,远见令人震撼!语言是人类最伟大的发明
语言学领域有哪些令人“毛骨悚然”的理论?
刘英凯:归化——翻译的歧路
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
第五届全国高等学校外语教育改革与发展高端论坛(一号通知)
推荐 | 第二语言教学法主要流派全收录(值得收藏)
重磅!《大学英语教学指南(2020版)》正式出版!
《新时代的中国国际发展合作》白皮书(全文)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
专访 | 乔姆斯基:知识分子沉默不语是一种罪恶
沈家煊:“能简则简”和“分清主次”——语言研究方法论谈
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
学者聚焦 | 潘文国:徜徉在中外古今之间
学者聚焦 | 文秋芳:对外语专业学生思辨能力培养的四点建议
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
重磅 | 全国高校拟新增语言类专业硕博学位点名单(语言服务最新整理版)
新书 | 王军:《衔接的认知语用研究》 商务印书馆
【高端笔谈】外国语言文学学科高质量发展的路径
邢向东:论语言研究中的问题导向
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
以深度教学促进外语课程思政 |《中国外语》2020(5)
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
教育部高教司司长吴岩:新文科学科没做好,高等教育不能说好
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
冯志伟:我的2020年总结
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
圣杯就在眼前:“现代语言学之父”乔姆斯基的批判与期望
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
马会娟:中国翻译理论研究回顾与展望
会讯 | 国际中国语言学学会第28届年会第一号征文通知
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
王学典:何谓“新文科”?
新文科建设|新文科建设宣言。
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
语言专业师生必看的10部电影(附观看链接)
蔡基刚:应急语言服务与应急语言教学探索
王春辉:孔子学院三思 |《国际教育交流》2020年10月(总第126期)
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
中国外语院校本科教学质量报告(2019)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
向明友:顺应新形势,推动大学英语课程体系建设—《大学英语教学指南》课程设置评注
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
南开大学外国语学院教职工招聘与人才引进公告(2021版)
重磅 | 2020软科中国最好学科排名出炉(中国语言文学 & 外国语言文学)
书讯 | 利奇《语用学原则》中译本出版
Fodor《心理语义学》:在心灵与语言之间
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
麦蒂森论翻译 | 系统功能语言学与翻译研究
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
戴炜华  吴国玢:论语言学的跨学科研究
大师课程 | 乔姆斯基等:语言,思维和大脑
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来
程琪龙:语言研究的超学科意识 |《外国语》2020(2)
视频 | TED Ed:语言进化编年史
李建波 李霄垅 | 外国文学和国别与区域的交叉研究:国情研究专家的视角
陈坚林:试论人工智能技术在外语教学上的体现与应用
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
郭英剑:对英语专业的不当批评,可以休矣
蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
多位著名专家学者分享英语学习方法
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有2.14万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存