其他
翻译技术|代码分享——删除停用词
删除停用词
代码及解析
import nltk
from nltk.corpus import stopwords
stopwords_list = stopwords.words('english')
print(stopwords_list)
string = '''My father's family name being pirrip, and my
Christian name Philip, my infant tongue could make of both
names nothing longer or more explicit than Pip. So,I
called myself Pip, and came to be called pip.'''
wordlist = nltk.word_tokenize(string.lower())
for word in wordlist:
if word not in stopwords_list:
print(word)
每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!
往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!
参考书藉:基于Python的语料库数据处理 雷蕾 著
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!
原文作者:吴志雄
推文编辑:吴志雄
指导老师:朱华
审核:吴志雄、刘一葶
项目统筹:吴志雄
资讯推荐
▶精品课程
精品课程 | 如何轻松上手语料库建设及数据处理与分析?十一研修班带你一网打尽!
精品课程|六节课让你从搜索小白进阶搜索达人
精品课程|CATTI考前实战冲刺班,考前三周实战提升,扫除备考盲点
▶资源宝库
翻译技术|以Sketch Engine为船遨游语料海洋(二)
翻译技术|The Free Dictionary-多语在线词典搜索引擎
翻译技术|ChatGPT+Excel应用结合探索:(一)酷表ChatExcel
翻译技术|代码分享——用ngrams(text,n)提取二连词
翻译技术|代码分享——将文本直接转换为段落列表
资源宝库|Win11正式成为“AI操作系统”了,Copilot助手加持,画图截图一键换背景,马斯克赶来围观
资源宝库|1.7亿篇科技文献 PubScholar公益学术平台向社会开放
▶翻译百科
▶译界动态
CATTI和MTI资讯
语言服务就业信息
翻译名师真知灼见
翻译学习精品课程