其他
multistop ~ 多语言停用词库
一、cnstopwords
停用词表, 同时支持中英德等15种语言。 https://github.com/thunderhit/multistop
二、安装
pip3 install multistop
三、使用
初始化停用词类
from multistop import Stopwords
#默认选取的中文lang='chinese'
sw = Stopwords()
查看支持的语言
sw.languages()
Run
dict_keys(['dutch', 'german', 'hungarian', 'turkish', 'russian', 'italian', 'english', 'norwegian', 'portuguese', 'finnish', 'danish', 'french', 'swedish', 'spanish', 'chinese'])
选择某种语言的停用词表
sw.setlang(lang='chinese')
Run
set language to chinese
词表长度
sw.size()
Run
778
查看停用词表是否含有某词
sw.contains('的')
Run
True
添加新停用词
sw.add('6啊')sw.size()
Run
779
将现在的中文停用词表下载到chinese.txt文件
sw.download('chinese.txt')
扫码免费领1万代理IP,高并发不限制,稳定速度快,快去薅羊毛吧!