中文词向量资源汇总 & 使用方法

Embedding 大邓和他的Python

2024-09-09

项目地址

https://github.com/Embedding/Chinese-Word-Vectors

Chinese-Word-Vectors项目提供超过100种中文词向量，其中包括不同的表示方式（稠密SGNS和稀疏PPMI）、不同的上下文特征（词、N元组、字等等）、以及不同的训练语料。获取预训练词向量非常方便，下载后即可用于下游任务。

参考文献

如果使用了本项目的词向量和CA8数据集请进行如下引用：

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.

不同领域

下列词向量基于不同的表示方式、不同的上下文特征以及不同领域的语料训练而成。

Word2vec / Skip-Gram with Negative Sampling (SGNS)
语料	上下文特征
词	词 + N元组	词 + 字	词 + 字 + N元组
Baidu Encyclopedia 百度百科	300d	300d	300d	300d / PWD: 5555
Wikipedia_zh 中文维基百科	300d	300d	300d	300d
People's Daily News 人民日报	300d	300d	300d	300d
Sogou News 搜狗新闻	300d	300d	300d	300d
Financial News 金融新闻	300d	300d	300d	300d
Zhihu_QA 知乎问答	300d	300d	300d	300d
Weibo 微博	300d	300d	300d	300d
Literature 文学作品	300d	300d / PWD: z5b4	300d	300d / PWD: yenb
Complete Library in Four Sections 四库全书^*	300d	300d	NAN	NAN
Mixed-large 综合 Baidu Netdisk / Google Drive	300d 300d	300d 300d	300d 300d	300d 300d

Positive Pointwise Mutual Information (PPMI)
语料	上下文特征
词	词 + N元组	词 + 字	词 + 字 + N元组
Baidu Encyclopedia 百度百科	Sparse	Sparse	Sparse	Sparse
Wikipedia_zh 中文维基百科	Sparse	Sparse	Sparse	Sparse
People's Daily News 人民日报	Sparse	Sparse	Sparse	Sparse
Sogou News 搜狗新闻	Sparse	Sparse	Sparse	Sparse
Financial News 金融新闻	Sparse	Sparse	Sparse	Sparse
Zhihu_QA 知乎问答	Sparse	Sparse	Sparse	Sparse
Weibo 微博	Sparse	Sparse	Sparse	Sparse
Literature 文学作品	Sparse	Sparse	Sparse	Sparse
Complete Library in Four Sections 四库全书^*	Sparse	Sparse	NAN	NAN
Mixed-large 综合	Sparse	Sparse	Sparse	Sparse

^*由于古汉语中绝大部份词均为单字词，因此只需字向量。

语料

项目花费了大量精力来收集了来自多个领域的语料。所有的文本数据均移除了html和xml标记，仅保留了纯文本。之后采用了HanLP(v_1.5.3)对文本进行了分词。此外，我们将繁体中文用Open Chinese Convert (OpenCC)转换为了简体中文。更详细的语料信息如下所示：

语料	大小	词数量	词汇量	详情
Baidu Encyclopedia 百度百科	4.1G	745M	5422K	中文百科 https://baike.baidu.com/
Wikipedia_zh 中文维基百科	1.3G	223M	2129K	中文维基百科 https://dumps.wikimedia.org/
People's Daily News 人民日报	3.9G	668M	1664K	人民日报新闻数据(1946-2017) http://data.people.com.cn/
Sogou News 搜狗新闻	3.7G	649M	1226K	Sogou labs的新闻数据 http://www.sogou.com/labs/
Financial News 金融新闻	6.2G	1055M	2785K	从多个网站收集到的金融新闻
Zhihu_QA 知乎问答	2.1G	384M	1117K	中文问答数据 https://www.zhihu.com/
Weibo 微博	0.73G	136M	850K	NLPIR Lab提供的微博数据 http://www.nlpir.org/wordpress/download/weibo.7z
Literature 文学作品	0.93G	177M	702K	8599篇现代文学作品
Mixed-large 综合	22.6G	4037M	10653K	上述所有数据的汇总
Complete Library in Four Sections 四库全书	1.5G	714M	21.8K	目前最大的古代文献汇总

上述统计结果中，所有词都被计算在内，包括低频词。

导入模型(代码)

例如我下载了多个词模型，下载得到bz2结尾的文件名，例如sgns.financial.bigram.bz2。

使用方式

from gensim.models.keyedvectors import KeyedVectors

#以金融sgns.financial.bigram.bz2为例
model = KeyedVectors.load_word2vec_format('embeddings/sgns.financial.bigram.bz2', 
                                          binary=False, 
                                          unicode_errors='ignore')


model

Run

<gensim.models.keyedvectors.KeyedVectors at 0x7fe7fad79d60>

model.similar_by_key('投资')

Run

[('长期投资', 0.5135656595230103),
 ('投资规模', 0.5089880228042603),
 ('智百扬', 0.49565914273262024),
 ('投资总额', 0.4955061078071594),
 ('洛辉', 0.489188551902771),
 ('337409', 0.48917514085769653),
 ('洛盛', 0.4819018244743347),
 ('洛腾', 0.4728960692882538),
 ('394150', 0.4704836308956146),
 ('投资额', 0.4685181975364685)]

model.similar_by_key('风险')

Run

[('提示', 0.6549968123435974),
 ('经营风险', 0.6316577792167664),
 ('景气衰退', 0.544153094291687),
 ('风险分析', 0.5439289212226868),
 ('遇宏观', 0.5435716509819031),
 ('信用风险', 0.5345730185508728),
 ('承受能力', 0.5291797518730164),
 ('防范', 0.5271924138069153),
 ('系统性', 0.5178108811378479),
 ('不确定性', 0.5173759460449219)]

向量运行效果还行，感兴趣的同学也可以根据自己的数据训练word2vec模型，训练及使用的办法参照文章

豆瓣影评 | 探索词向量妙处

代码地址

https://hidadeng.github.io/blog/embeddings_resource_usage_method/

推荐 | 社科(经管)文本分析快速指南
视频课 | Python网络爬虫文本分析
读完本文你就了解什么是文本分析
综述:文本分析在市场营销研究中的应用
视频 | Python文本分析与会计
大数据时代下社会科学研究方法的拓展—基于词嵌入技术的文本分析的应用
五一开班 | “结构模型、DSGE、Stata实证前沿、空间计量、Python数据挖掘”工作坊
影评实战 | 探索词向量妙处

继续滑动看下一个

大邓和他的Python

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

中文词向量资源汇总 & 使用方法

项目地址

参考文献

不同领域

语料

导入模型(代码)

代码地址

近期文章

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

中文词向量资源汇总 & 使用方法

项目地址

参考文献

不同领域

语料

导入模型(代码)

代码地址

近期文章

您可能也对以下帖子感兴趣