查看原文
其他

中文词向量资源汇总 & 使用方法

Embedding 大邓和他的Python
2024-09-09


项目地址

https://github.com/Embedding/Chinese-Word-Vectors

Chinese-Word-Vectors项目提供超过100种中文词向量,其中包括不同的表示方式(稠密SGNS和稀疏PPMI)、不同的上下文特征(词、N元组、字等等)、以及不同的训练语料。获取预训练词向量非常方便,下载后即可用于下游任务。


参考文献

如果使用了本项目的词向量和CA8数据集请进行如下引用:

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.


不同领域

下列词向量基于不同的表示方式、不同的上下文特征以及不同领域的语料训练而成。

Word2vec / Skip-Gram with Negative Sampling (SGNS)
语料上下文特征
词 + N元组词 + 字词 + 字 + N元组
Baidu Encyclopedia 百度百科300d300d300d300d / PWD: 5555
Wikipedia_zh 中文维基百科300d300d300d300d
People's Daily News 人民日报300d300d300d300d
Sogou News 搜狗新闻300d300d300d300d
Financial News 金融新闻300d300d300d300d
Zhihu_QA 知乎问答300d300d300d300d
Weibo 微博300d300d300d300d
Literature 文学作品300d300d / PWD: z5b4300d300d / PWD: yenb
Complete Library in Four Sections
四库全书*
300d300dNANNAN
Mixed-large 综合
Baidu Netdisk / Google Drive
300d
       300d      
300d
       300d      
300d
       300d      
300d
       300d      
Positive Pointwise Mutual Information (PPMI)
语料上下文特征
词 + N元组词 + 字词 + 字 + N元组
Baidu Encyclopedia 百度百科SparseSparseSparseSparse
Wikipedia_zh 中文维基百科SparseSparseSparseSparse
People's Daily News 人民日报SparseSparseSparseSparse
Sogou News 搜狗新闻SparseSparseSparseSparse
Financial News 金融新闻SparseSparseSparseSparse
Zhihu_QA 知乎问答SparseSparseSparseSparse
Weibo 微博SparseSparseSparseSparse
Literature 文学作品SparseSparseSparseSparse
Complete Library in Four Sections
四库全书*
SparseSparseNANNAN
Mixed-large 综合SparseSparseSparseSparse

*由于古汉语中绝大部份词均为单字词,因此只需字向量。


语料

项目花费了大量精力来收集了来自多个领域的语料。所有的文本数据均移除了html和xml标记,仅保留了纯文本。之后采用了HanLP(v_1.5.3)对文本进行了分词。此外,我们将繁体中文用Open Chinese Convert (OpenCC)转换为了简体中文。更详细的语料信息如下所示:

语料 大小 词数量 词汇量 详情
Baidu Encyclopedia
百度百科
4.1G 745M 5422K 中文百科
https://baike.baidu.com/
Wikipedia_zh
中文维基百科
1.3G 223M 2129K 中文维基百科
https://dumps.wikimedia.org/
People's Daily News
人民日报
3.9G 668M 1664K 人民日报新闻数据(1946-2017)
http://data.people.com.cn/
Sogou News
搜狗新闻
3.7G 649M 1226K Sogou labs的新闻数据
http://www.sogou.com/labs/
Financial News
金融新闻
6.2G1055M2785K从多个网站收集到的金融新闻
Zhihu_QA
知乎问答
2.1G 384M 1117K 中文问答数据
https://www.zhihu.com/
Weibo
微博
0.73G 136M 850K NLPIR Lab提供的微博数据
http://www.nlpir.org/wordpress/download/weibo.7z
Literature
文学作品
0.93G 177M 702K 8599篇现代文学作品
Mixed-large
综合
22.6G4037M10653K 上述所有数据的汇总
Complete Library in Four Sections
四库全书
1.5G714M21.8K目前最大的古代文献汇总

上述统计结果中,所有词都被计算在内,包括低频词。


导入模型(代码)

例如我下载了多个词模型,下载得到bz2结尾的文件名,例如sgns.financial.bigram.bz2

使用方式

from gensim.models.keyedvectors import KeyedVectors

#以金融sgns.financial.bigram.bz2为例
model = KeyedVectors.load_word2vec_format('embeddings/sgns.financial.bigram.bz2'
                                          binary=False
                                          unicode_errors='ignore')


model

Run

<gensim.models.keyedvectors.KeyedVectors at 0x7fe7fad79d60>

model.similar_by_key('投资')

Run

[('长期投资', 0.5135656595230103),
 ('投资规模', 0.5089880228042603),
 ('智百扬', 0.49565914273262024),
 ('投资总额', 0.4955061078071594),
 ('洛辉', 0.489188551902771),
 ('337409', 0.48917514085769653),
 ('洛盛', 0.4819018244743347),
 ('洛腾', 0.4728960692882538),
 ('394150', 0.4704836308956146),
 ('投资额', 0.4685181975364685)]

model.similar_by_key('风险')

Run

[('提示', 0.6549968123435974),
 ('经营风险', 0.6316577792167664),
 ('景气衰退', 0.544153094291687),
 ('风险分析', 0.5439289212226868),
 ('遇宏观', 0.5435716509819031),
 ('信用风险', 0.5345730185508728),
 ('承受能力', 0.5291797518730164),
 ('防范', 0.5271924138069153),
 ('系统性', 0.5178108811378479),
 ('不确定性', 0.5173759460449219)]

向量运行效果还行,感兴趣的同学也可以根据自己的数据训练word2vec模型,训练及使用的办法参照文章

豆瓣影评 | 探索词向量妙处

代码地址

https://hidadeng.github.io/blog/embeddings_resource_usage_method/

近期文章

推荐 | 社科(经管)文本分析快速指南

视频课 | Python网络爬虫文本分析

读完本文你就了解什么是文本分析

综述:文本分析在市场营销研究中的应用

视频 | Python文本分析与会计

大数据时代下社会科学研究方法的拓展—基于词嵌入技术的文本分析的应用

五一开班 | “结构模型、DSGE、Stata实证前沿、空间计量、Python数据挖掘”工作坊

影评实战 | 探索词向量妙处

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存