查看原文
其他

翻译技术|代码分享——删除停用词

吴志雄 翻译圈
2024-09-09

代码分享

删除停用词

代码及解析
import nltk from nltk.corpus import stopwords stopwords_list = stopwords.words('english') print(stopwords_list) string = '''My father's family name being pirrip, and my Christian name Philip, my infant tongue could make of both names nothing longer or more explicit than Pip. So,I called myself Pip, and came to be called pip.''' wordlist = nltk.word_tokenize(string.lower()) for word in wordlist: if word not in stopwords_list:       print(word)
这段代码的含义如下:
1. `import nltk`:这行代码导入了Python的自然语言处理工具包nltk。
2. `from nltk.corpus import stopwords`:这行代码从nltk的corpus模块中导入了stopwords语料库。
3. `stopwords_list = stopwords.words('english')`:这行代码使用stopwords语料库中的英文停用词列表,将其赋值给名为stopwords_list的变量。
4. `print(stopwords_list)`:这行代码打印输出停用词列表。
5. `string = '''xxx'''`:这行代码定义了一个名为string的多行字符串变量,存储了一段文本。
6. `wordlist = nltk.word_tokenize(string.lower())`:这行代码将字符串string转换为小写,并使用nltk的word_tokenize函数对其进行分词,将分词结果存储到名为wordlist的变量中。
7. `for word in wordlist: if word not in stopwords_list: print(word)`:这是一个for循环,遍历wordlist中的每个单词,对于不在停用词列表中的单词,打印输出。
总结:该代码使用nltk的stopwords语料库过滤给定文本中的停用词。首先导入了nltk和stopwords库,然后打印输出英文停用词列表。接着定义了一个多行字符串变量,存储了一段文本。然后将文本转换为小写并进行分词,遍历分词结果,如果单词不在停用词列表中,则打印输出。
请注意,你需要确保在运行代码之前已经安装了nltk库,并且已经下载了所需的数据集(如punkt分词器和stopwords语料库)。你可以使用nltk.download()函数来下载所需的数据集。
部分运行结果如下:
father
's
family
name
pirrip
,

每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!



参考书藉:基于Python的语料库数据处理 雷蕾 著

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:吴志雄

推文编辑:吴志雄

指导老师:朱华

审核:吴志雄、刘一葶

项目统筹:吴志雄


资讯推荐


译文评价




▶精品课程

精品课程 | 如何轻松上手语料库建设及数据处理与分析?十一研修班带你一网打尽!

精品课程|从进阶到精通:基于Python的语言数据分析实战

精品课程|从入门到进阶:语料库建设与统计分析实务

精品课程|刘世界:6节语料库专题课,从入门到精通

精品课程|六节课让你从搜索小白进阶搜索达人
精品课程|CATTI考前实战冲刺班,考前三周实战提升,扫除备考盲点

▶资源宝库

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|ChatGPT+Excel应用结合探索:(一)酷表ChatExcel

翻译技术|代码分享——用ngrams(text,n)提取二连词
翻译技术|代码分享——将文本直接转换为段落列表

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

翻译技术|代码分享——先分段再分句的两个办法

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|Win11正式成为“AI操作系统”了,Copilot助手加持,画图截图一键换背景,马斯克赶来围观

资源宝库|1.7亿篇科技文献 PubScholar公益学术平台向社会开放

▶翻译百科

翻译百科|《中国大百科全书》中的“语言资本”

翻译百科|《中国大百科全书》中的“语言经济”

翻译百科|《中国大百科全书》中的“语言市场”

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

翻译百科|《中国大百科全书》中的“翻译工具”

▶译界动态

译界动态|2023“理解当代中国”多语种国际翻译大赛

译界动态|第二十次全国民族语文翻译学术研讨会成功召开

译界动态|2023国际译联(FIT)北美年会译界动态|第二十届全国科技翻译研讨会(2号通知)

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存