中文语义常用词典 | ChineseSemanticKB

Original 刘焕勇大邓和他的Python 2022-07-09

收录于合集

#自然语言处理 19 个

#Python 15 个

#Python文本数据分析 123 个

#数据挖掘 50 个

作者信息

If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作，可联系我：

刘焕勇，中国科学院软件研究所，lhy_in_blcu@126.com
github主页：https://github.com/liuhuanyong

ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等，可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

项目介绍

语义知识库是自然语言处理中十分重要的一个基础资源，与学术界追求算法模型不同，工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高，具体体现在：
1、具有落地场景的自然语言处理任务都是业务高度相关，一个业务需求刚进去，需要解决的是业务的词汇问题，无基础词库，无项目冷启动；
2、规则和正则启动下的工业级应用，规则的扩展、泛化都需要底层的词汇网络做支撑；
3、目前包括搜索、问答、舆情监控、事件分析等应用，与标签体系的运作关系密切，而这与先验的底层词汇库依赖性很强；
4、自然语言场景越来越关注推理层面，即所谓的“认知”层面，认知背后的各种逻辑关系库，是驱动这一决策的根本途径；
5、当前，面向中文开源词库的工作存在少量、分散的状态，无论从规模，还是质量，都需要进一步聚合；
因此，我从过往的开源工作中进一步抽离和整理，形成了中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等，用于相关下游任务。

项目放于dict当中，可直接下载，不建议二次建库共享，尊重开源。

词库的类别

词库类型	词库规模	词库举例	词库应用
抽象关系库	346,048	座椅,抽象,家具	事件抽象与泛化，人民币贬值到货币贬值，再到美元贬值，可支持查询扩展、推荐等任务
反义关系库	34,380	开心@苦恼	可用于句子改写，开心改苦恼，支持数据增强，句子生成
同义关系库	424,826	开心@高兴	可用于查询扩展、数据增强，也可结合抽象关系库完成推荐等任务
简称关系库	136,081	北京大学@北大	可用于句子标准化、句子改写、实体消歧等任务
程度副词	222	极其,2.0	可用于情感强度计算，带情感色彩的句子生成
否定词	586	不,无,没有	可用于情感计算等任务
节日时间词	54	春节、五四节	可用于时间词识别等任务
量比词	7	占比、环比、同比	可用于金融领域指标类数据提取任务
数量介词	24	大约、达到、超过	可用于金融事件抽象或主干化的搭配词处理任务
停用词	3,861	？、的、着	常规的文本特征提取等任务
修饰副词	222	所、有所	可结合程度副词完成情感强度计算等任务
情态词	77	肯定、应该、大概	可用于句子主观性计算、舆情与可信度计算

总结

1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库，总规模数目一百余万；
2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库，在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;
3、中文常用语义常用词典，均来源于公开文本+人工整理+机器抽取形成，其中若有质量不高之处，可积极批评指正;
4、中文开源事业还是要坚持做下去，尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。

插广告-为何要学Python？

在科学研究中，数据的获取及分析是最重要的也是最棘手的两个环节！

在前大数据时代，一般使用实验法、调查问卷、访谈或者二手数据等方式，将数据整理为结构化的表格数据，之后再使用各种计量分析方法，对这些表格数据进行分析。但大数据时代，网络数据成为各方学者亟待挖掘的潜在宝藏，大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言，通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题：

网络爬虫技术 解决如何从网络世界中高效地 采集数据？
文本分析技术 解决如何从杂乱的文本数据中抽取文本信息(变量)？

视频专栏课 | Python网络爬虫与文本分析
如何在DataFrame中使用If-Else条件语句创建新列
BERTopic 主题建模库 | 建议收藏
KeyBERT库 | 自动挖掘文本中的关键词
SmartScraper | 简单、自动、快捷的Python网络爬虫
SHAP | 机器学习模型解释库
ashares库 | A股市场历史行情数据
Backtrader库 | 均线买入卖出策略实现
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述
综述:文本分析在市场营销研究中的应用
在会计研究中使用Python进行文本分析
文本分析方法在《管理世界》（2021.5）中的应用
hiResearch 定义自己的科研首页
SciencePlots | 科研样式绘图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

中文语义常用词典 | ChineseSemanticKB

作者信息

ChineseSemanticKB

项目介绍

词库的类别

总结

插广告-为何要学Python？

近期文章

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

中文语义常用词典 | ChineseSemanticKB

作者信息

ChineseSemanticKB

项目介绍

词库的类别

总结

插广告-为何要学Python？

近期文章

您可能也对以下帖子感兴趣