查看原文
其他

multistop ~ 多语言停用词库

大邓 大邓和他的Python 2022-07-09

一、cnstopwords

停用词表, 同时支持中英德等15种语言。   https://github.com/thunderhit/multistop


二、安装

pip3 install multistop

三、使用

初始化停用词类

from multistop import Stopwords
#默认选取的中文lang='chinese'
sw = Stopwords()

查看支持的语言

sw.languages()

Run

dict_keys(['dutch''german''hungarian''turkish''russian''italian''english''norwegian''portuguese''finnish''danish''french''swedish''spanish''chinese'])


选择某种语言的停用词表

sw.setlang(lang='chinese')

Run

set language to chinese

词表长度

sw.size()

Run

778

查看停用词表是否含有某词

sw.contains('的')

Run

True

添加新停用词

sw.add('6啊')sw.size()

Run

779

将现在的中文停用词表下载到chinese.txt文件

sw.download('chinese.txt')

扫码免费领1万代理IP,高并发不限制,稳定速度快,快去薅羊毛吧!

精选文章

系列视频|Python网络爬虫与文本数据分析
语法最简单的微博通用爬虫weibo_crawler
hiResearch 定义自己的科研首页
Jaal 库 轻松绘制动态社交网络关系图
来自kaggle最佳数据分析实践
B站视频 | Python自动化办公
SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站
bsite库 | 采集B站视频信息、评论数据
texthero包 | 支持dataframe的文本分析包
爬虫实战 | 采集&可视化知乎问题的回答
reticulate包 | 在Rmarkdown中调用Python代码
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述  
综述:文本分析在市场营销研究中的应用
plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G  

    分享”和“在看”是更好的支持

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存