北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型
车栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
“土地,快告诉俺老孙,俺的金箍棒在哪?” “大圣,您的金箍,棒就棒在特别适合您的发型。”
准确度对比
食用方法
预训练模型
一是用MSRA (新闻语料) 训练出的模型:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA二是用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA三是在微博 (网络文本语料) 上训练的模型:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
△ 微博语料举栗
代码示例
1代码示例1 使用默认模型及默认词典分词
2import pkuseg
3seg = pkuseg.pkuseg() #以默认配置加载模型
4text = seg.cut('我爱北京天安门') #进行分词
5print(text)
1代码示例2 设置用户自定义词典
2import pkuseg
3lexicon = ['北京大学', '北京天安门'] #希望分词时用户词典中的词固定不分开
4seg = pkuseg.pkuseg(user_dict=lexicon) #加载模型,给定用户词典
5text = seg.cut('我爱北京天安门') #进行分词
6print(text)
1代码示例3
2import pkuseg
3seg = pkuseg.pkuseg(model_name='./ctb8') #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
4text = seg.cut('我爱北京天安门') #进行分词
5print(text)
1代码示例5
2import pkuseg
3pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
快去试一下
https://github.com/lancopku/PKUSeg-python
http://www.aclweb.org/anthology/P12-1027
http://aclweb.org/anthology/P16-2092
如果喜欢本篇文章,欢迎转发、点赞。关注订阅号「Python数据科学」,回复「进群」即可进入无广告技术交流。
赠送三本深度学习新书
Tensorflow+PyTorch深度学习从算法到实战
👆扫描上方二维码购买
内容介绍:《TensorFlow+PyTorch深度学习从算法到实战》详尽介绍深度学习相关的基本原理与使用TensorFlow、PyTorch两大主流框架的开发基础知识和基本技术,并且展示了在图像识别与文本生成实际问题中的应用方法。同时考虑到程序员擅长JavaScript 的人员比熟悉Python 的人员更多的情况,特别增加了对于TensorFlow.js 的介绍。初学者面对深度学习望而却步的主要原因是认为入门门槛太高,需要较多的算法基础训练。针对此问题,本书原创了5-4-6 学习模型提纲挈领地降低学习曲线,并通过将知识点和难点分散到代码中的方式让读者以熟悉的方式迅速入门,并且为进一步学习打下坚实的基础。同时,本书也介绍了AutoML和深度强化学习等新技术,帮助读者开阔眼界。
赠送方式
关注下方公众号,回复:抽奖
1、Python 官网宣布,正式发布 Python 3.8.0!
2、中文自动转SQL,准确率高达92%,这位Kaggle大师刷新世界纪录丨GitHub
3、我要这金牌有何用:Kaggle 竞赛成绩真能「保送」谷歌、FB 吗?
4、微软也爱 Python!VS Code Python 全新发布!Jupyter Notebook 原生支持终于来了!
5、Github中文项目排行榜,你永远想不到开发者都用它干了什么