其他
翻译技术|代码分享——去除中文停用词
去除中文停用词
代码及解析
import jieba
# 定义中文停用词
stop_words = {}.fromkeys(['的', '包括', '等', '是', '和', '与', '以', '为', '。', ',', '、'])
# 待分词的文本
text = """著作权人和与著作权有关的权利人可以授权著作权集体管理组织行使著作权或者与著作权有关的权利。著作权集体管理组织被授权后,可以以自己的名义为著作权人和
与著作权有关的人主张权利,并可以作为当事人进行涉及著作权或者与著作权有关的权利的诉讼、仲裁活动。"""
# 使用jieba进行分词 cut_all=False就是禁止全拆分模式,使用精确模式进行分词,以获得更准确和有意义的分词结果
seg_text = jieba.cut(text, cut_all=False)
# 初始化最终结果字符串
final = ""
# 遍历分词结果并过滤停用词
for i in seg_text:
if i not in stop_words:
final += i + " "
print(final)
每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!
往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!
参考书藉:Python语言数据分析 管新潮 著
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!
原文作者:吴志雄
推文编辑:吴志雄
指导老师:朱华
审核:吴志雄、刘一葶
项目统筹:吴志雄
资讯推荐
▶精品课程
精品课程|(今晚开课)从入门到进阶:语料库建设与统计分析实务
新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命
▶资源宝库
翻译技术|提升 ChatGPT 翻译质量的简单 prompt
翻译技术|以Sketch Engine为船遨游语料海洋(二)
翻译技术|The Free Dictionary-多语在线词典搜索引擎
▶翻译百科
▶代码分享
▶文献精读
文献精读|Explicitation in Neural Machine Translation
文献精读|Vanmassenhove:机器翻译中语言丰富性缺失
▶译界动态
CATTI和MTI资讯
语言服务就业信息
翻译名师真知灼见
翻译学习精品课程