翻译技术｜代码分享——去除中文停用词

Original 吴志雄翻译圈

2024-09-09

代码分享

去除中文停用词

代码及解析

import jieba

# 定义中文停用词stop_words = {}.fromkeys(['的', '包括', '等', '是', '和', '与', '以', '为', '。', ',', '、'])

# 待分词的文本

text = """著作权人和与著作权有关的权利人可以授权著作权集体管理组织行使著作权或者与著作权有关的权利。著作权集体管理组织被授权后，可以以自己的名义为著作权人和

与著作权有关的人主张权利，并可以作为当事人进行涉及著作权或者与著作权有关的权利的诉讼、仲裁活动。"""

# 使用jieba进行分词 cut_all=False就是禁止全拆分模式，使用精确模式进行分词，以获得更准确和有意义的分词结果

seg_text = jieba.cut(text, cut_all=False)

# 初始化最终结果字符串final = ""

# 遍历分词结果并过滤停用词for i in seg_text: if i not in stop_words: final += i + " "

print(final)

运行结果如下：

著作权人著作权有关权利人可以授权著作权集体管理组织行使著作权或者著作权有关权利著作权集体管理组织被授权后，可以自己名义著作权人

著作权有关人主张权利，并可以作为当事人进行涉及著作权或者著作权有关权利诉讼仲裁活动

每日啃一段代码，日积月累，我们可以跨越这条鸿沟，若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门！

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取，粉丝群还有其它资源哦！

参考书藉：Python语言数据分析管新潮著

特别说明：本文仅供学习交流，如有不妥欢迎后台联系小编。

- END -

翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见，CATTI考试和MTI入学考试信息，翻译等语言服务就业资讯，以及口笔译学习资源和知识，希望在翻译之路上，为大家助上一臂之力。欢迎大家积极留言，为我们提供建设性意见，我们共同进步！

原文作者：吴志雄

推文编辑：吴志雄

指导老师：朱华

审核：吴志雄、刘一葶

项目统筹：吴志雄

资讯推荐

翻译技术的分类与工具

▶精品课程

精品课程｜(今晚开课)从入门到进阶：语料库建设与统计分析实务

精品课程｜从入门到进阶：语料库建设与统计分析实务

新课来袭 | 开启倒计时！AI时代掀起影视字幕翻译的智能革命

▶资源宝库

翻译技术｜提升 ChatGPT 翻译质量的简单 prompt

翻译技术｜以Sketch Engine为船遨游语料海洋（二）

翻译技术｜The Free Dictionary-多语在线词典搜索引擎

翻译技术｜字幕翻译配音恐失业，Ai翻译配音超逼真

资源宝库｜小鹤音形输入法——打字，你还能更快！

资源宝库｜经济学人等160多家外刊免费看！

资源宝库｜哈利波特1~8季大放送

▶翻译百科

翻译百科｜《中国大百科全书》中的“翻译学”

翻译百科｜《中国大百科全书》中的“神经网络机器翻译”

翻译百科｜《中国大百科全书》中的“翻译层次”

翻译百科｜《中国大百科全书》中的“范化”

翻译百科｜《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术｜代码分享——textblob情感分析

▶文献精读

文献精读｜Explicitation in Neural Machine Translation

文献精读｜Vanmassenhove：机器翻译中语言丰富性缺失

▶译界动态

译界动态｜翻译公司—日本Honyaku Center简介

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态｜2023“理解当代中国”多语种国际翻译大赛

译界动态｜美国文学翻译协会（ ALTA ）简介

译届动态｜公益沙龙之ChatGPT时代译者的搜商体系构建之道

关注我们了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程

继续滑动看下一个

翻译圈

向上滑动看下一个

直播回放｜柳刀传志冲上云霄——百年医学教育的三次改革（中日精益医疗专项基金系列讲座第十一期)

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

劝人买股票，“股市神棍” 上海爷叔出门被揍了

独家|渣男副县长包养情妇的钱从哪里来的？

原来男生内裤这么舒服！新疆长绒棉打造，软得像奶皮、滑得像真丝！比不穿还

翻译技术｜代码分享——去除中文停用词

您可能也对以下帖子感兴趣

直播回放｜柳刀传志 冲上云霄——百年医学教育的三次改革（中日精益医疗专项基金系列讲座 第十一期)

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

劝人买股票，“股市神棍” 上海爷叔出门被揍了

独家|渣男副县长包养情妇的钱从哪里来的？

原来男生内裤这么舒服！新疆长绒棉打造，软得像奶皮、滑得像真丝！比不穿还

生成图片，分享到微信朋友圈

翻译技术｜代码分享——去除中文停用词

您可能也对以下帖子感兴趣

直播回放｜柳刀传志冲上云霄——百年医学教育的三次改革（中日精益医疗专项基金系列讲座第十一期)