中文词向量资源汇总 & 使用方法
项目地址
https://github.com/Embedding/Chinese-Word-Vectors
Chinese-Word-Vectors项目提供超过100种中文词向量,其中包括不同的表示方式(稠密SGNS和稀疏PPMI)、不同的上下文特征(词、N元组、字等等)、以及不同的训练语料。获取预训练词向量非常方便,下载后即可用于下游任务。
参考文献
如果使用了本项目的词向量和CA8数据集请进行如下引用:
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.
不同领域
下列词向量基于不同的表示方式、不同的上下文特征以及不同领域的语料训练而成。
Word2vec / Skip-Gram with Negative Sampling (SGNS) | ||||
语料 | 上下文特征 | |||
词 | 词 + N元组 | 词 + 字 | 词 + 字 + N元组 | |
Baidu Encyclopedia 百度百科 | 300d | 300d | 300d | 300d / PWD: 5555 |
Wikipedia_zh 中文维基百科 | 300d | 300d | 300d | 300d |
People's Daily News 人民日报 | 300d | 300d | 300d | 300d |
Sogou News 搜狗新闻 | 300d | 300d | 300d | 300d |
Financial News 金融新闻 | 300d | 300d | 300d | 300d |
Zhihu_QA 知乎问答 | 300d | 300d | 300d | 300d |
Weibo 微博 | 300d | 300d | 300d | 300d |
Literature 文学作品 | 300d | 300d / PWD: z5b4 | 300d | 300d / PWD: yenb |
Complete Library in Four Sections 四库全书* | 300d | 300d | NAN | NAN |
Mixed-large 综合 Baidu Netdisk / Google Drive | 300d 300d | 300d 300d | 300d 300d | 300d 300d |
Positive Pointwise Mutual Information (PPMI) | ||||
语料 | 上下文特征 | |||
词 | 词 + N元组 | 词 + 字 | 词 + 字 + N元组 | |
Baidu Encyclopedia 百度百科 | Sparse | Sparse | Sparse | Sparse |
Wikipedia_zh 中文维基百科 | Sparse | Sparse | Sparse | Sparse |
People's Daily News 人民日报 | Sparse | Sparse | Sparse | Sparse |
Sogou News 搜狗新闻 | Sparse | Sparse | Sparse | Sparse |
Financial News 金融新闻 | Sparse | Sparse | Sparse | Sparse |
Zhihu_QA 知乎问答 | Sparse | Sparse | Sparse | Sparse |
Weibo 微博 | Sparse | Sparse | Sparse | Sparse |
Literature 文学作品 | Sparse | Sparse | Sparse | Sparse |
Complete Library in Four Sections 四库全书* | Sparse | Sparse | NAN | NAN |
Mixed-large 综合 | Sparse | Sparse | Sparse | Sparse |
*由于古汉语中绝大部份词均为单字词,因此只需字向量。
语料
项目花费了大量精力来收集了来自多个领域的语料。所有的文本数据均移除了html和xml标记,仅保留了纯文本。之后采用了HanLP(v_1.5.3)对文本进行了分词。此外,我们将繁体中文用Open Chinese Convert (OpenCC)转换为了简体中文。更详细的语料信息如下所示:
语料 | 大小 | 词数量 | 词汇量 | 详情 |
Baidu Encyclopedia 百度百科 |
4.1G | 745M | 5422K | 中文百科 https://baike.baidu.com/ |
Wikipedia_zh 中文维基百科 |
1.3G | 223M | 2129K | 中文维基百科 https://dumps.wikimedia.org/ |
People's Daily News 人民日报 |
3.9G | 668M | 1664K | 人民日报新闻数据(1946-2017) http://data.people.com.cn/ |
Sogou News 搜狗新闻 |
3.7G | 649M | 1226K | Sogou labs的新闻数据 http://www.sogou.com/labs/ |
Financial News 金融新闻 | 6.2G | 1055M | 2785K | 从多个网站收集到的金融新闻 |
Zhihu_QA 知乎问答 |
2.1G | 384M | 1117K | 中文问答数据 https://www.zhihu.com/ |
Weibo 微博 |
0.73G | 136M | 850K | NLPIR Lab提供的微博数据 http://www.nlpir.org/wordpress/download/weibo.7z |
Literature 文学作品 |
0.93G | 177M | 702K | 8599篇现代文学作品 |
Mixed-large 综合 |
22.6G | 4037M | 10653K | 上述所有数据的汇总 |
Complete Library in Four Sections 四库全书 | 1.5G | 714M | 21.8K | 目前最大的古代文献汇总 |
上述统计结果中,所有词都被计算在内,包括低频词。
导入模型(代码)
例如我下载了多个词模型,下载得到bz2结尾的文件名,例如sgns.financial.bigram.bz2
。
使用方式
from gensim.models.keyedvectors import KeyedVectors
#以金融sgns.financial.bigram.bz2为例
model = KeyedVectors.load_word2vec_format('embeddings/sgns.financial.bigram.bz2',
binary=False,
unicode_errors='ignore')
model
Run
<gensim.models.keyedvectors.KeyedVectors at 0x7fe7fad79d60>
model.similar_by_key('投资')
Run
[('长期投资', 0.5135656595230103),
('投资规模', 0.5089880228042603),
('智百扬', 0.49565914273262024),
('投资总额', 0.4955061078071594),
('洛辉', 0.489188551902771),
('337409', 0.48917514085769653),
('洛盛', 0.4819018244743347),
('洛腾', 0.4728960692882538),
('394150', 0.4704836308956146),
('投资额', 0.4685181975364685)]
model.similar_by_key('风险')
Run
[('提示', 0.6549968123435974),
('经营风险', 0.6316577792167664),
('景气衰退', 0.544153094291687),
('风险分析', 0.5439289212226868),
('遇宏观', 0.5435716509819031),
('信用风险', 0.5345730185508728),
('承受能力', 0.5291797518730164),
('防范', 0.5271924138069153),
('系统性', 0.5178108811378479),
('不确定性', 0.5173759460449219)]
向量运行效果还行,感兴趣的同学也可以根据自己的数据训练word2vec模型,训练及使用的办法参照文章
代码地址
https://hidadeng.github.io/blog/embeddings_resource_usage_method/
近期文章
大数据时代下社会科学研究方法的拓展—基于词嵌入技术的文本分析的应用