查看原文
其他

翻译技术|代码分享——去除中文停用词

吴志雄 翻译圈
2024-09-09

代码分享

去除中文停用词

代码及解析
import jieba
# 定义中文停用词stop_words = {}.fromkeys(['的', '包括', '等', '是', '和', '与', '以', '为', '。', ',', '、'])
# 待分词的文本text = """著作权人和与著作权有关的权利人可以授权著作权集体管理组织行使著作权或者与著作权有关的权利。著作权集体管理组织被授权后,可以以自己的名义为著作权人和与著作权有关的人主张权利,并可以作为当事人进行涉及著作权或者与著作权有关的权利的诉讼、仲裁活动。"""
# 使用jieba进行分词 cut_all=False就是禁止全拆分模式,使用精确模式进行分词,以获得更准确和有意义的分词结果seg_text = jieba.cut(text, cut_all=False)
# 初始化最终结果字符串final = ""
# 遍历分词结果并过滤停用词for i in seg_text: if i not in stop_words: final += i + " "
print(final)

运行结果如下:
著作权人 著作权 有关 权利 人 可以 授权 著作权 集体 管理 组织 行使 著作权 或者 著作权 有关 权利 著作权 集体 管理 组织 被 授权 后 , 可以 自己 名义 著作权人
著作权 有关 人 主张 权利 , 并 可以 作为 当事人 进行 涉及 著作权 或者 著作权 有关 权利 诉讼 仲裁 活动

每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!


参考书藉:Python语言数据分析 管新潮 著

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:吴志雄

推文编辑:吴志雄

指导老师:朱华

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


翻译技术的分类与工具

▶精品课程

精品课程|(今晚开课)从入门到进阶:语料库建设与统计分析实务

精品课程|从入门到进阶:语料库建设与统计分析实务

新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命

▶资源宝库

翻译技术|提升 ChatGPT 翻译质量的简单 prompt

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|经济学人等160多家外刊免费看!

资源宝库|哈利波特1~8季大放送

▶翻译百科

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术|代码分享——textblob情感分析

翻译技术|代码分享-提取三连词

翻译技术|代码分享——中文词云生成

翻译技术|代码分享——标准类符形符比

翻译技术|代码分享——清除符号

▶文献精读

文献精读|Explicitation in Neural Machine Translation

文献精读|Vanmassenhove:机器翻译中语言丰富性缺失

▶译界动态

译界动态|翻译公司—日本Honyaku Center简介

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态|2023“理解当代中国”多语种国际翻译大赛

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存