其他
标签会说话?揭秘58本地服务标签挖掘实践
导语
本文主要介绍了标签挖掘过程中的实践方法,包含基于模型的挖掘和基于统计规则的挖掘方式及其适用的场景。希望对大家有所帮助和启发。
背景
中文分词
4种分词工具分词效果对比表1
分词系统 | Precision | Recall | F-Measure | ErrorRate |
HanLP | 0.803 | 0.803 | 0.803 | 0.197 |
IK | 0.739 | 0.741 | 0.740 | 0.262 |
Ansj(crf) | 0.927 | 0.929 | 0.928 | 0.074 |
jieba | 0.803 | 0.804 | 0.803 | 0.198 |
数据源:SIGHAN,数据量498KB
4种分词工具包分词效果对比表2
分词工具 | Precision | Recall | F-measure | ErrorRate |
HanLP | 0.838 | 0.856 | 0.847 | 0.165 |
IK | 0.717 | 0.753 | 0.735 | 0.297 |
Ansj(crf) | 0.727 | 0.803 | 0.763 | 0.301 |
jieba | 0.758 | 0.802 | 0.779 | 0.256 |
数据源:人民日报2014数据,数据量10.7M
标签挖掘演进
标签优化
总结
END