查看原文
其他

【学术助力】管新潮:语料库与Python应用(留言有赠书)

交大外语 2021-03-17


点击蓝字关注我们

本书以如何在语料库的教与学及其应用、语料库科研中习得Python能力的逻辑关系为线索,描述了Python的价值、意义和作用,并将内容组合成可有效助力于Python能力习得的三个层次。第一层次是掌握与语料库相关的基础性代码;第二层次是活学活用这些基础性代码;第三层次是以创新方式运用这些代码去解决与语料库相关的较为复杂的问题。Python是语料文本处理的利器,需要在一定的理念指导下方可充分理解其在特定领域内所呈现的特征,而本书的首要目标就是帮助读者去运用这一“语言+技术”理念,其次才是Python技术本身。本书的适用读者是那些设想从语料库中挖掘出更多信息的文科生、文科教师或相关的研究人员。

语料库与Python应用


扫描二维码

进入购买页面

在学界,语料库的发展的确让人看到了诸多的希望和机会,在业界也是同样的道理和境遇。记得有一位国外学者在一次国际会议上曾说:“Corpus data can go only so far on their own, but corpus techniques will continue to play a vital role in combination with a range of other approaches and methods.” 细看来,本书也是一次尝试,尝试着拓展相关的机会,尝试着让文科生在面对纯技术思维的业者时拥有更加笃定的话语表达权。故此设定本书的适用对象为文科生,而且还将Python所要研究或处理的对象限定为语料库,意在增强文科生对Python的好感,感受其为语料库研究和应用所能带来的利好。

 

本书作者曾在《语料库与翻译》一书中提出了若干问题,如语料库检索和分析工具欠缺、软件编码格式不一致、术语提取准确性不足、技术工具融合应用问题等。这一次写作本书,在一定程度上为这些问题给出了初步的答案。如相关工具欠缺问题,这为Python施展其功用带来了机会,因为既有语料库工具的功能随着工具的定型成为“有限”,而Python编程所能开发的功能却是无限的;又如术语提取问题,其所适用的是用于提取多连词的工具包,书中的案例为此提供了一个较好的解决方案;再如技术工具融合问题,这一点已准确反映在Python的使用理念之中,即增强人们的逻辑思维能力。

 

因此,本书的特色有三:

● 一是聚焦于语料库。所有的代码、代码段或代码块均围绕语料库这一主题展开,所处理的对象是语料库研究过程需要面对的各种相关问题。

● 二是语言+技术+法律三位一体。这意味着案例的解释都包含了三方面的要素,而非从纯粹的技术角度出发。所选择的语料也多是法律文本,目的是为了呈现法律文本的语篇特征,即以法律文本通过技术研究获取其语言学方面的特征信息。

● 三是深入浅出,易学易用。本书强调“编程”并非是工科专业的“专利”,文科生同样可以学会编程,而且能够编写出更为细腻、更利于语言学处理的代码。再者,阅读本书至少可习得一种能力即读懂代码的能力,就像学会一门自然语言一样。

 

本书的写作过程其实就是一个教与学的过程。所编写的程序均以语料库语言学和翻译学领域的问题为处理对象,这种问题导向的思路可以更加贴近学生的所思所想。在实施过程中,先确定需要解决的语言学问题,明确之后再展开编程工作。而在完成代码编写后,又将代码直接交由学生进行测试,去检验相关问题,即相关案例的语言学意义是否真实,解决了什么样的语料库语言学和翻译学问题,相关代码可否进一步实施优化,等等。

 

依据这一过程,我们将本书内容编排为三个层次,这是本书的知识组合架构,也是学生学习Python编程的三个阶段(对应本书的上中下三篇):

● 第一阶段是熟悉Python应用于语料库的基础性代码,试看Python能够解决哪些与语料库相关的基础性问题。这一阶段出现的代码就像是一些基本公式,而且是以人们所熟知的语言形式来表述的。记住: 理解这些代码的含义和作用,而无需死记硬背。

● 第二阶段是以第一阶段所熟知的代码去解决真实的语料库问题,如语篇词汇特征、现有语料库工具所能解决的问题等。这一阶段旨在牢固掌握基础性代码的编程运用。

● 第三阶段是借用与创新并存,讲求代码的创造性应用,也就是说如何去解决语料库语言学和翻译学领域中未知的或需要优化解决的问题。相关案例均源于语料库研究和应用实践: 有的是为了获取更为可靠的数据而设置,有的则是在阅读相关论文后设置的,目的在于使案例更具语言学意义,等等。

 

中篇和下篇的案例所涉代码已经能够解决语料库研究和应用中的实际问题,但这也绝不意味着相关代码已没有需要继续优化的可能。这或许正是Python的魅力之所在,我们会努力发现能够更为有效解决问题的新工具包,使之前费力编写的代码可瞬间替换为一两行代码。Python的魅力还在于其应用对象不仅仅是语言学本体,还在于通过编程可以揭示诸如Alzheimer症所能体现出的语言学规律性问题。后者的意义已经远超语料库研究本身。

 

作为一次尝试,每当编写完成一段可有效执行的代码之时,那完全就是一次可喜的体验,极具成就感。但多数情况下,还是需要测试再测试,才能完成既定任务。所以,不足之处在所难免,还敬请学界业界同仁不吝赐教,可以使本书所涵盖的知识能够得到进一步的升华。


目录


第1章  绪论

1.1  语料库与Python

1.1.1  语料库的若干维度

1.1.2  语料库的技术实现

1.2  本书概要

 

上篇  语料文本的基础性代码

第2章  语料文本的读取及其运行结果的输出

2.1  概述

2.2  语料文本的读取

2.2.1  读取NLTK固有语料库

2.2.2  读取自制语料库

2.2.3  读取非独立存储的语料文本

2.2.4  读取docx格式的语料文本

2.2.5  读取xlsx格式的语料文本

2.3  语料文本运行结果的输出

2.3.1  操作界面直接输出结果

2.3.2  输出txt文件格式

2.3.3  输出xlsx文件格式

2.4  中文语料文本的读取和结果输出

2.4.1  自制语料库

2.4.2  非独立存储的语料文本


第3章  语料库应用的基础性代码

3.1  概述

3.2  停用词的使用

3.2.1  不同语种的停用词

3.2.2  自有停用词的设置

3.3  文本降噪代码

3.3.1  具体代码的功用

3.3.2  组合使用代码的功用

3.3.3  降噪与文本计数

3.4  语料文本的语言学处理代码

3.4.1  字母大小写转换

3.4.2  词形还原

3.4.3  文本分句或分词

3.4.4  词性标注

3.5  语料库词频排序

3.5.1  简单词频排序

3.5.2  降噪处理后词频排序

3.5.3  清除停用词后排序

3.6  语料库检索与统计 

3.6.1  上下文关键词检索

3.6.2  类符形符比

3.6.3  N连词提取

3.6.4  指定词检索与统计

3.7  中文语料文本的处理方法

3.7.1  上下文关键词检索

3.7.2  中文停用词


第4章  数据可视化

4.1  概述

4.2  表格绘制

4.3  图形绘制

4.3.1  词频图形绘制

4.3.2  柱状图和点状图绘制

4.4  词云图绘制

4.4.1  英文文本词云图

4.4.2  中文文本词云图


第5章  代码运行错误分析

5.1  概述

5.2  错误分析案例

5.2.1  输入输出错误(IOError)

5.2.2  对象属性错误(AttributeError)

5.2.3  数据类型错误(TypeError)

5.2.4  变量名称错误(NameError)

5.2.5  索引错误(IndexError)

5.2.6  缩进错误(IndentationError)

5.2.7  参数类型错误(ValueError)

5.2.8  语法错误(SyntaxError)

5.2.9  Unicode解码错误(UnicodeDecodeError)

5.2.10  关键字错误(KeyError)

 

中篇  基础性代码的组合使用

第6章  算法、代码与编程

6.1  篇章结构

6.2  算法和代码

6.2.1  算法

6.2.2  代码

6.3  选择不同代码的影响

6.3.1  分词处理方式对后续文本分析的影响

6.3.2  不同的降噪效果

6.3.3  链表、字符串、元组和字典对比

6.3.4  停用词的功用

6.4  Python与既有语料库工具的关系


第7章  基础性代码的语料库组合应用

7.1  以Excel文件格式输出术语(类符)

7.1.1  简单输出术语

7.1.2  按词频输出术语

7.2  以Excel文件格式输出表格

7.3  语篇词汇密度的计算

7.4  语篇词汇复杂性的计算

7.5  语篇词长分布的计算

7.6  NLTK固有语料库

7.6.1  总统就职演说语料库

7.6.2  华尔街杂志语料库

7.6.3  其他相关语料库介绍

 

下篇  Python探索路径

第8章  Python的语料库拓展应用

8.1  概述

8.2  单语语料导入Excel工作簿

8.3  KWIC检索功能的拓展

8.4  语篇词形还原

8.5  术语提取效果的改进

8.6  语篇段落对齐

8.7  应用语言学文献计量研究的数据提取

8.8  专业通用词的提取路径探索


附录1  与本书相关的加载模块与函数命令对应表 

附录2  Python2 和Python3部分代码对比 

附录3  部分NLTK固有语料库 

附录4  汉英对照术语表 

索引


作者简介


管新潮,职业译者,长期从事德英汉翻译实践,至今已累计翻译和审校德英汉字数达3000万(包括审校);主要翻译领域涉及海洋工程与船舶制造(英语)、医学(英语)、法律(德语+英语)、机电(德语)等;建有各类相关语料库,如英汉医学平行语料、英汉海洋工程平行语料库、英汉法律平行语料库、德汉合同文本平行语料库、马克思《资本论》德汉平行语料库(百年)、德语法院判决书语料库等。曾经或正在为国际知名企业提供语言服务解决方案,如德国劳氏船级社、挪威船级社、艾斯维尔出版社、施普林格出版社、华为技术公司、毕马威咨询公司等。主要研究方向:语料库翻译学、翻译管理与技术、法律翻译、语料数据分析(Python)。现任上海交通大学外国语学院MTI导师。主持国家级项目3个,发表论文15篇,出版专著2部、译著10部,拥有专利2项、软件著作权2项。

 

本书责编:金英爱

021-61675263


扫描二维码联系出版

《语言学博士文库》与《当代外语研究论丛》作为交大出版社外语学术出版重要阵地,是开放性创新性的学术平台,旨在探索当代外语研究的最新领域,多角度展示研究成果。论丛在为当代语言学、外国文学、外语教学法、翻译学以及跨文化比较研究和发展提供学者间交流机会的同时,继续学科通融、兼收并蓄的编辑理念,崇尚原创作品,力推新人新作,并一直致力于将国内优秀研究成果推向国际学术舞台。

互动赠书

欢迎关注本微信公众号,给本文留言(请一定要先关注哦)说明希望获得的图书和获得赠书的理由,留言获得点赞数量最多的3位读者将获得我们提供的赠书(包邮哦)。点赞截止日期2018年8月30日。

欢迎关注本书作者其他相关著作

本书秉持“以问题为导向、以决策为引导、以客户为终端”的写作原则,介绍了语料库的起源和不同类型及其创建方法和应用工具,指出语料库创建和应用的关键在于其质量,而质量则表现为多维性,因用途而异。不同的语料库可运用不同的方法进行分析,以获得不同的应用结果。语料库在计算机辅助翻译实践中则转化为记忆库,以此助力于翻译实践的专业化并提升效率。与翻译相关的语料库学术研究主要表现在翻译文体、翻译共性、翻译规范、词语搭配等方面,而翻译实践同样也需要进行相关的研究。语料库在翻译教学中的应用已拓展了相关的教学途径和方法。伴随着语料库而出现的“语料库语言学”和“语料库翻译学”为语料库的发展提供了理论指导。


本书旨在帮助读者了解并习得语料库的相关知识、方法、技术和工具以及语料库与翻译的关系,既可作为感兴趣者的参考用书,亦可作为教材使用。


相关阅读

 

【学术助力】李景娜:语音感知视角下的英语外国口音研究

【学术助力】杨唐峰:英语短语动词的认知研究(英文版)

【学术助力】陈建平:商务语言学

【学术助力】龚晓睿:威•休•奥登诗歌中的绘画艺术研究(英文版)

【学术助力】冷冰冰:科普杂志翻译规范研究

【学术助力】杨小虎:非语言因素对外语语音学习的影响研究

【学术助力】杨志霞:修辞问句与关联理论——基于语料库的修辞问句在独白式文本中的语用研究

【学术助力】徐迎春:丰子恺译日本古典文学翻译研究(日文版)

【学术助力】苗丽霞:词汇知识、工作记忆与二语阅读理解的关联性研究(英文版)

【学术助力】李先瑞:日本现代文学研究(日文版)

【学术助力】陈帅:认知语言学视角下日语拟声拟态词的语义分析研究(日文版)

【学术助力】赵凌梅:日语中歧视语的概念及其变迁研究(日文版)

【学术助力】胡开宝:《语料库翻译学》

【学术助力】常乐:元认知策略研究——二语听力理解与附带词汇习得(英文版)

【学术助力】祁小雯:最简方案框架下英语小句中名词合法性研究(英文版)

【学术助力】刑事庭审语篇中的态度韵律研究

【学术助力】赵宏杰《关于请求谈话的中日对照研究(日文版)》

【学术助力】吴越《EFL综合性写作测试任务受试策略运用研究(英文版)》

【学术助力】初相娟《中国学习者日语动词谓语句的习得(日文版)》

【学术助力】郭鸿杰《基于语料库的加拿大英语和英国英语强化词变异比较研究》

【学术助力】鲍晓英《莫言小说译介研究》

【学术助力】张曼《老舍翻译文学研究》

【学术助力】孙会军《葛浩文和他的中国文学译介》

【学术助力】查明建《中国文学译介研究丛书》序

【学术助力】英语修辞复合词释义的结构基础

【学术助力】基于语料库的中国英语学习者搭配学习横向性研究

【学术助力】关于委婉语的全景图,全面深入回答了委婉语“是什么”“为什么”“怎么样的问题”

【学术助力】奥德森语言测试文集(英文版)

【学术助力】希拉里•曼特尔小说研究

【学术助力】基于语料库的中国学习者英语口语中语用标记语研究

【学术助力】曹迎春《文化翻译视域下的译者风格研究---<牡丹亭>英译个案研究》

【学术助力】《基于历时语料的翻译与现代汉语互动研究》

【学术助力】中国学习者语料库中的动品组合研究·认知语言学视角

点击“阅读原文”购买更多外语图书

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存