查看原文
其他

翻译技术|代码分享——中文词云生成

吴志雄 翻译圈
2024-09-09

代码分享

中文词云生成


代码及解析
import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt text = open('D:\\python test\\1\\中文文本.txt', encoding='utf8').read() word_list = [w for w in jieba.cut(text)] wordcloud = WordCloud(font_path=r'D:\python test\1\simsun.ttf', background_color='white').generate(' '.join(word_list)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show()

段代码的含义如下:

1. `import jieba`:导入jieba库,用于中文文本的分词。

2. `from wordcloud import WordCloud`:从wordcloud库中导入WordCloud类,用于生成词云。

3. `import matplotlib.pyplot as plt`:导入matplotlib.pyplot模块,并将其重命名为plt,用于绘制图表。

4. `text = open('D:\\python test\\1\\中文文本.txt', encoding='utf8').read()`:使用open()函数打开指定路径的文本文件,以utf8编码读取文件内容,并将其赋值给变量text。

5. `word_list = [w for w in jieba.cut(text)]`:使用jieba库的cut()函数对文本进行分词,将分词结果保存在名为word_list的列表中。列表推导式的语法用于快速生成列表。

6. `wordcloud = WordCloud(font_path=r'D:\python test\1\simsun.ttf', background_color='white').generate(' '.join(word_list))`:创建一个WordCloud对象,并使用generate()方法生成词云。generate()方法接受一个字符串作为输入,这里使用空格将分词结果的列表转换为字符串。font_path参数指定了字体文件的路径,background_color参数指定了词云的背景颜色。

7. `plt.imshow(wordcloud, interpolation='bilinear')`:使用imshow()函数绘制词云图像。imshow()函数接受一个图像对象作为输入,这里传入了wordcloud对象。interpolation='bilinear'参数指定了图像的插值方法。

8. `plt.axis('off')`:调用axis()函数,将图表的坐标轴关闭,不显示坐标轴。

9. `plt.show()`:显示绘制的图表窗口。

总结:该代码使用jieba库对中文文本进行分词,然后使用wordcloud库生成中文词云图,并使用matplotlib.pyplot库显示生成的词云图。同时,通过设置字体文件路径和背景颜色,可以定制词云的样式。

运行结果如下:

每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!


参考书藉:Python语言数据分析 管新潮 著

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:吴志雄

推文编辑:张子明

指导老师:朱华

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


大模型和机器翻译

▶精品课程

精品课程|从进阶到精通:基于Python的语言数据分析实战

精品课程|从入门到进阶:语料库建设与统计分析实务

新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命

▶资源宝库

翻译技术|提升 ChatGPT 翻译质量的简单 prompt

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|集合Ai、多语种翻译等上百种功能的超强输入法

资源宝库|1.7亿篇科技文献 PubScholar公益学术平台向社会开放

▶翻译百科

翻译百科|《中国大百科全书》中的“消歧”

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术|代码分享——KWIC

翻译技术|代码分享——删除文本中的空段落

翻译技术|代码分享——删除停用词

翻译技术|代码分享:合并多个文本文件

翻译技术|代码分享——清除符号

▶文献精读

精读报告|Ralph Krüger:对机器翻译质量评估方法的建议

文献精读|口译、第二语言和第一语言的句法复杂性:受限语言视角

▶译界动态

译界动态|专业揭秘:申请横向课题全面指南系列(二)

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态|2023“理解当代中国”多语种国际翻译大赛

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存