查看原文
其他

NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源

The following article is from 老刘说NLP Author 刘焕勇

在前面的文章中,我们介绍了关于词向量的一些基础理论和训练方法,本文主要开放汽车、房产、教育、社会、娱乐、体育、金融、科技、游戏等9大领域预训练词向量,以及字符、依存、拼音与词性4类预训练向量地址,供大家一起使用


一、汽车、房产等9大领域预训练词向量

通过收集多文本分类语料库,对汽车、房产、教育、社会、娱乐、体育、金融、科技、游戏等多个领域文本进行词向量训练,得到了如下预训练词向量的结果:

领域类型模型类型关键词集合词的规模
汽车word_vector_auto.model.bin117,510200
房产word_vector_house.model.bin145,287200
教育word_vector_edu.model.bin242,874200
社会word_vector_society.model.bin221,395200
娱乐word_vector_ent.model.bin230,665200
体育word_vector_sports.model.bin95724200
金融word_vector_finance.model.bin284035200
科技word_vector_tech.model.bin108188200
游戏word_vector_games.model.bin100821200

开放地址:

https://pan.baidu.com/s/1jEHFoAmVXlB67Q28-CeTvw 密码: 1pa6

二、预训练字符、依存、拼音与词性向量

通过对字符、依存、拼音与词性进行切分,使用同样的方式,可以得到相应的预训练词向量。

向量名称向量含义词数维度例子
de_vec_10依存关系向量1310SBV, ATT
pinyin_vec_300汉语拼音向量146242300ni, hao
postag_vec_30汉语词性向量59300n,v,a,d
token_vec_300汉语字向量20029300刘,焕,勇
word_vec_300汉语词向量673266300刘焕勇

开放地址:

https://github.com/liuhuanyong/ChineseEmbedding

向量效果:


    ***********************字符向量************************
    token:刘
    ('李', 0.7306396961212158),('陈', 0.7201231122016907)
    ('赵', 0.6974461674690247),('杨', 0.6972213983535767)
    ('吴', 0.6851627230644226),('徐', 0.6516467332839966)
    ('郭', 0.6499480605125427),('蔡', 0.6175302267074585)
    ('郑', 0.6092196106910706),('孙', 0.5950524210929871)
    token:丑
    ('卯', 0.6074919700622559),('酉', 0.5910211801528931)
    ('巳', 0.5581363439559937),('戌', 0.43932047486305237)
    ('戊', 0.41449615359306335),('壬', 0.40456631779670715)
    ('謤', 0.367109090089798),('绯', 0.3643313944339752),
    ('寅', 0.36351141333580017),('旽', 0.3549465537071228)

    ***********************依存向量************************
    dependency rel:ATT
    ('COO', 0.14239487051963806),('ADV', -0.16987691819667816)
    ('RAD', -0.2357601821422577),('HED', -0.2401314228773117)
    ('SBV', -0.25625932216644287),('WP', -0.27165737748146057)
    ('LAD', -0.2902592420578003),('POB', -0.2990782558917999)
    ('VOB', -0.37553706765174866),('IOB', -0.6669262647628784)
    dependency rel:POB
    ('IOB', 0.16698899865150452),('DBL', 0.16678886115550995)
    ('FOB', 0.1657436639070511),('CMP', 0.14784857630729675)
    ('VOB', 0.1461176574230194),('SBV', 0.08011472970247269)
    ('LAD', -0.022307466715574265),('WP', -0.022942926734685898)
    ('HED', -0.037264980375766754),('RAD', -0.042251598089933395)

    ***********************拼音向量************************
    pinyin:wo
    ('shei', 0.6129732131958008)('ta', 0.6081706285476685)
    ('nin', 0.5819231867790222),('!', 0.5435523986816406)
    ('……', 0.48428624868392944),('ai', 0.47832390666007996)
    ('o', 0.4761071801185608),('。』', 0.4598163366317749)
    ('...', 0.45207729935646057),('ni', 0.44975683093070984)
    pinyin:guo
    ('dang', 0.3908974528312683),('yuan', 0.378823846578598)
    ('zu', 0.35387369990348816),('hua', 0.3405681848526001)
    ('zheng', 0.3355437219142914),('yi', 0.3333034813404083)
    ('ren', 0.3194104731082916),('jun', 0.3187354505062103)
    ('hui', 0.31342023611068726),('xin', 0.3096797466278076)

    ***********************词性向量************************
    word postag:a
    ('d', 0.7203904986381531),('c', 0.6124969720840454)
    ('v', 0.4963228106498718),('an', 0.4531499147415161)
    ('uz', 0.4459834396839142),('ud', 0.42059916257858276)
    ('r', 0.4090540111064911),('uj', 0.4061364233493805)
    ('i', 0.38707998394966125),('l', 0.3551557660102844)
    word postag:n
    ('b', 0.7030695676803589),('vn', 0.490166038274765)
    ('p', 0.4858315885066986),('v', 0.4499088227748871)
    ('nt', 0.44155171513557434),('f', 0.26609259843826294)
    ('s', 0.2639649212360382),('l', 0.24365971982479095)
    ('ns', 0.2278469204902649),('m', 0.202927365899086)
    ***********************词向量************************
    word:爱情
    ('爱恋', 0.6931096315383911),('真爱', 0.6897798776626587)
    ('婚姻', 0.6540514826774597),('浪漫爱情', 0.6535360813140869)
    ('情感', 0.6501022577285767),('感情', 0.6403399705886841)
    ('纯爱', 0.6394841074943542),('爱情故事', 0.6282097101211548)
    ('校园爱情', 0.6078493595123291),('情爱', 0.5976818799972534)
    word:创新
    ('技术创新', 0.7648976445198059),('不断创新', 0.7172579765319824)
    ('创新型', 0.6573833227157593),('创新能力', 0.6533682942390442)
    ('创新性', 0.6160774827003479),('革新', 0.6159394383430481)
    ('人才培养', 0.6093565821647644),('开拓创新', 0.6015594601631165)
    ('探索', 0.5987343788146973),('技术革新', 0.5949685573577881)

关于作者

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。




精选文章

从符号到嵌入:计算社会科学的两种文本表示

推荐 | 社科(经管)文本分析快速指南

使用cntext训练Glove词嵌入模型

认知的测量 | 向量距离vs语义投影

Wordify | 发现和区分消费者词汇的工具

karateclub库 | 计算社交网络中节点的向量

视频专栏课 | Python网络爬虫与文本分析

PNAS | 文本网络分析&文化桥梁Python代码实现

Wordify | 发现和区分消费者词汇的工具

BERTopic库 | 使用预训练模型做话题建模

tomotopy | 速度最快的LDA主题模型

文本分析方法在《管理世界》(2021.5)中的应用

Wow~70G上市公司定期报告数据集

doccano|为机器学习建模做数据标注

使用WeasyPrint自动生成pdf报告文件

100min视频 | Python文本分析与会计



继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存