其他
Jiagu:中文深度学习自然语言处理工具
推荐一个新的开源中文深度学习自然语言处理工具:Jiagu, 包括中文分词、词性标注、命名实体识别、情感分析、新词发现、关键词、文本摘要等。贡献者包括 Yener、zengbin93、dirtdust,感兴趣的同学可以试用,Github地址,点击文末阅读原文可直达:
https://github.com/ownthink/Jiagu
Jiagu自然语言处理工具
Jiagu以BiLSTM等模型为基础,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。
目录
安装方式
使用方式
评价标准
附录说明
提供的功能有:
中文分词
词性标注
命名实体识别
情感分析 todo
关键词提取
文本摘要
新词发现
等等。。。。
安装方式
pip安装
pip install jiagu源码安装
git clone https://github.com/ownthink/Jiagucd Jiagu python3 setup.py install使用方式
快速上手:分词、词性标注、命名实体识别
中文分词
分词各种模式使用方式
import jiagu text = '汉服和服装'words = jiagu.seg(text) # 默认分词print(words) words = jiagu.seg([text, text, text], input='batch') # 批量分词,加快速度。print(words) words = jiagu.seg(text, model='mmseg') # 使用mmseg算法进行分词print(words)自定义分词模型(将单独提供msr、pku、cnc等分词标准)
import jiagu# 独立标准模型路径# msr:test/extra_data/model/msr.model# pku:test/extra_data/model/pku.model# cnc:test/extra_data/model/cnc.modeljiagu.load_model('test/extra_data/model/cnc.model') # 使用国家语委分词标准words = jiagu.seg('结婚的和尚未结婚的')print(words)关键词提取
文本摘要
新词发现
评价标准
msr测试结果
附录
词性标注说明
n 普通名词
nt 时间名词
nd 方位名词
nl 处所名词
nh 人名
nhf 姓
nhs 名
ns 地名
nn 族名
ni 机构名
nz 其他专名
v 动词
vd 趋向动词
vl 联系动词
vu 能愿动词
a 形容词
f 区别词
m 数词
q 量词
d 副词
r 代词
p 介词
c 连词
u 助词
e 叹词
o 拟声词
i 习用语
j 缩略语
h 前接成分
k 后接成分
g 语素字
x 非语素字
w 标点符号
ws 非汉字字符串
wu 其他未知的符号
命名实体说明(采用BIO标记方式)
B-PER、I-PER 人名
B-LOC、I-LOC 地名
B-ORG、I-ORG 机构名