查看原文
其他

词向量 | 使用1亿B站用户签名训练word2vec词向量

大邓 大邓和他的Python
2024-09-09

一、用户签名

1亿B站用户群体十分庞大,文本中蕴含着这个群体的认知信息(如兴趣、身份、座右铭等),如果能用签名训练word2vec词向量模型,说不定就有利用这个模型,对每个用户签名进行量化,  对用户进行分类。本文要解决

  • 构建语料训练出模型
  • 简单看看模型训练效果



二、准备语料

Kaggle网有1亿B站用户数据集,下载地址

https://www.kaggle.com/datasets/beats0/bilibili-user

之前分享过 数据集 | 哔哩哔哩 1 亿用户数据 , 阅读此文可以熟悉pandas的一些基本操作,如数据读取、文本操作等。

#从kaggle下载B站1亿用户数据
import pandas as pd

df = pd.read_csv('User.csv')

#签名非空的记录
df2 = df.dropna(subset=['sign'])

print('数据集用户数量: ', len(df))
df2

Run

数据集用户数量: 100000000


将9093092个非空签名汇总到 B站用户签名语料.txt

with open('B站用户签名语料.txt''w', encoding='utf-8'as f:
    f.write(''.join(df2.sign.tolist()))

代码运行后,得到 302M B站用户签名语料.txt



三、训练Word2Vec

我使用的自己 未公开 的cntext 2.0.0版本, Bug频出,等调整好了再公开。

3.1 安装cntext

cntext-2.0.0-py3-none-any.whl 放置于桌面,打开 cmd  (苹果电脑打开terminal), 输入cd desktop

cd desktop

之后在 cmd  (苹果电脑打开terminal) 中使用pip3 安装

pip3 install cntext-2.0.0-py3-none-any.whl

文末有cntext-2.0.0-py3-none-any.whl获取方式


3.2 训练word2vec

cntext训练时候Word2Vec模型参数

  • window = 6
  • vector_size = 100
#cntext2.0.0未公开,获取2.0.0请阅读文末获取方式
import cntext as ct

model = ct.W2VModel(corpus_file='B站用户签名语料.txt')
model.train(window = 6, vector_size = 100)

Run

Starting Processing Corpus ...
Start Training! This may take a while. Please be patient...
Traning word2vec model took 1329 seconds
Note: The Word2Vec model has been saved to output/Word2Vec

耗时1329s, 模型训练完成!得到的模型文件,如下截图


四、使用word2vec

4.1 读取模型

使用gensim录入模型 “B站用户签名语料.100.6.bin” ,

from gensim.models import KeyedVectors

w2v = KeyedVectors.load('output/Word2Vec/B站用户签名语料.100.6.bin')
print('模型词汇量: ', len(w2v.wv))

Run

模型词汇量:  343650

4.2 查询某词的词向量

w2v.wv['高冷']

Run

array([-1.1872591e+00, -1.2438694e+00, -9.4200081e-01, -4.0355644e+00,
        3.3588424e-01, -4.2525402e-01, -4.1175735e-01,  1.8802526e+00,
       -3.5992053e-01,  2.8361969e+00, -1.1437206e+00,  4.4662678e-01,
        1.2098696e+00,  7.2761238e-02,  3.0633178e-01,  6.7496544e-01,
       -3.0175522e-01, -1.1573459e+00, -7.4999934e-01,  1.6484009e+00,
        1.3102854e+00,  1.0134944e+00,  1.0711597e+00, -1.2194906e+00,
        2.1523576e+00, -4.4606316e-01,  1.0664939e+00,  5.3640699e-01,
        1.1061722e+00, -2.7679250e-01,  8.6652651e-02,  1.6876321e-02,
        6.3120401e-01, -1.6914845e-02,  9.6446878e-01,  1.7046971e+00,
       -1.7395537e+00,  1.7914917e+00, -1.3069035e+00,  6.6770411e-01,
       -3.4902021e-01, -1.3345592e-02, -4.3595994e-01, -5.1443088e-01,
        1.0884547e+00, -3.3695351e-02, -5.7088321e-01,  1.4533000e+00,
        8.0498764e-03,  9.2341286e-01, -1.6219637e-01, -2.5400406e-01,
       -1.4215972e-01,  7.1577376e-01, -1.2812414e+00, -1.7630520e-01,
       -1.7600318e+00, -1.4759690e+00, -2.3313001e-01, -8.8995326e-01,
        4.5749718e-01,  2.1950055e-02,  2.5749078e-01, -7.6623499e-01,
        3.1834408e-03,  7.2732526e-01, -2.5459883e+00, -1.5240467e+00,
        2.4574394e+00,  7.3715413e-01,  2.2769032e+00,  1.7492032e+00,
       -4.1084039e-01,  6.4300962e-02,  6.2454116e-01, -4.0486854e-02,
        7.7100635e-01, -1.9729427e+00, -8.4130460e-01, -3.0110097e-01,
       -1.0786959e+00, -1.9136167e+00, -1.7037696e-01, -7.3208618e-03,
        4.8502678e-01, -1.0348318e+00,  3.1141058e-01,  2.9913974e-01,
       -2.1714316e-01, -3.1645024e+00,  7.0972210e-03,  7.8701675e-01,
       -2.2510442e-01, -9.8428482e-01,  1.0685140e+00,  2.1938827e+00,
       -9.1963351e-01,  6.3011467e-01, -1.1531134e+00, -9.2123538e-02],
      dtype=float32)

4.3 查看近义词

通过给定词语,查看其近义词,可以了解模型训练的好坏。语义捕捉的合理,说明语料合理,模型训练的好。

#列表中可以传入任意多个词,这里大邓偷懒,都只传入了一两个词
w2v.wv.most_similar(['高冷'], topn=20)

Run

[('腹黑', 0.8282514810562134),
 ('呆萌', 0.8148132562637329),
 ('傲娇', 0.7791209816932678),
 ('逗比', 0.7720615863800049),
 ('闷骚', 0.7617782354354858),
 ('精分', 0.7545589208602905),
 ('文静', 0.7545390725135803),
 ('慢热', 0.7387350797653198),
 ('自恋', 0.7299264669418335),
 ('淑女', 0.7261008620262146),
 ('耿直', 0.7238353490829468),
 ('帅气', 0.7233086824417114),
 ('暖男', 0.720333456993103),
 ('内向', 0.7159033417701721),
 ('蠢', 0.7157402038574219),
 ('逗逼', 0.7091616988182068),
 ('神经质', 0.7085140347480774),
 ('女汉子', 0.707956850528717),
 ('毒舌', 0.7058071494102478),
 ('逗', 0.7048983573913574)]

w2v.wv.most_similar(['女汉子'], topn=20)

Run

[('女汉纸', 0.8832258582115173),
 ('汉子', 0.8506060838699341),
 ('萌妹子', 0.8475067615509033),
 ('暖男', 0.8445340394973755),
 ('女神经', 0.838117241859436),
 ('萌妹纸', 0.8303463459014893),
 ('闷骚', 0.8296418786048889),
 ('妹纸', 0.8289912343025208),
 ('软妹子', 0.8211091756820679),
 ('腹黑', 0.8019399046897888),
 ('汉纸', 0.7941007614135742),
 ('糙汉子', 0.7915611267089844),
 ('孩纸', 0.783301055431366),
 ('处女座', 0.7807960510253906),
 ('腐女', 0.779699444770813),
 ('宅女', 0.7794589400291443),
 ('软妹', 0.7725212574005127),
 ('小萝莉', 0.7603519558906555),
 ('摩羯座', 0.7602179646492004),
 ('呆萌', 0.7555979490280151)]

w2v.wv.most_similar(['流氓'], topn=20)

Run

[('风骚', 0.7411526441574097),
 ('气质', 0.7314842343330383),
 ('霸道', 0.7147162556648254),
 ('伪装成', 0.7128302454948425),
 ('天生', 0.7044478058815002),
 ('十足', 0.6987764835357666),
 ('斯文', 0.6978859901428223),
 ('禽兽', 0.6960264444351196),
 ('病态', 0.6890178322792053),
 ('才华', 0.6817525029182434),
 ('正派', 0.6785053610801697),
 ('文静', 0.6763062477111816),
 ('聪慧', 0.6758238077163696),
 ('自恋', 0.6680983901023865),
 ('凡夫俗子', 0.6680223345756531),
 ('冷血', 0.6673165559768677),
 ('白痴', 0.666796863079071),
 ('清纯', 0.6666175127029419),
 ('愤青', 0.6663431525230408),
 ('颇具', 0.6648291945457458)]

w2v.wv.most_similar(['内向'], topn=20)

Run

[('外向', 0.8674373030662537),
 ('腼腆', 0.8610992431640625),
 ('开朗', 0.8451307415962219),
 ('神经质', 0.8253246545791626),
 ('孤僻', 0.8227512836456299),
 ('胆小', 0.7949897050857544),
 ('慢热', 0.7939849495887756),
 ('大大咧咧', 0.7869692444801331),
 ('古怪', 0.7838969230651855),
 ('情绪化', 0.7805034518241882),
 ('幽默', 0.7713088989257812),
 ('不爱说话', 0.76982182264328),
 ('活泼', 0.7689502239227295),
 ('闷骚', 0.766051173210144),
 ('记仇', 0.7653043270111084),
 ('极度', 0.7642502784729004),
 ('敏感', 0.7624457478523254),
 ('自卑', 0.7609980702400208),
 ('很宅', 0.7600659132003784),
 ('矫情', 0.7573622465133667)]

w2v.wv.most_similar(['牛''牛B'], topn=10)

Run

[('牛皮', 0.7266886830329895),
 ('叼', 0.7169520258903503),
 ('吊', 0.7075901627540588),
 ('流弊', 0.6949068307876587),
 ('张嘴', 0.6911835074424744),
 ('逼人', 0.6845391988754272),
 ('欠揍', 0.6771396994590759),
 ('这块', 0.6755802035331726),
 ('他妈', 0.672274112701416),
 ('像不像', 0.6720238924026489),
 ('长帅', 0.669898509979248),
 ('跟个', 0.6674190163612366),
 ('仁波切', 0.6618945002555847),
 ('隔壁老王', 0.6596662998199463),
 ('捞', 0.6594889760017395),
 ('能装', 0.658306896686554),
 ('盗号狗', 0.6573488116264343),
 ('竟敢', 0.654305636882782),
 ('牛掰', 0.6534903049468994),
 ('老实', 0.6533665657043457)]

w2v.wv.most_similar(['色'], topn=20)

Run

[('不遇倾城', 0.7234371304512024),
 ('柔', 0.6971151232719421),
 ('温', 0.696250855922699),
 ('浮', 0.6961503028869629),
 ('牡丹', 0.6916242241859436),
 ('薄', 0.6892343759536743),
 ('飘逸', 0.687305212020874),
 ('丝', 0.6816737651824951),
 ('彩', 0.6801170110702515),
 ('骨', 0.6786245703697205),
 ('细', 0.6709766387939453),
 ('春', 0.6705066561698914),
 ('羽', 0.6662278771400452),
 ('沁', 0.6659229397773743),
 ('华', 0.6649417281150818),
 ('唇', 0.6640968322753906),
 ('露', 0.6638047695159912),
 ('墨', 0.663625180721283),
 ('阳', 0.6616363525390625),
 ('碧', 0.6599227786064148)]


五、获取资源

内容整理不易, 本文内容分免费和付费部分。免费部分可以直接下载数据、构建语料、使用word2vec模型。付费部分主要是cntext,用于训练word2vec模型。如果对本文感兴趣,可加微信 372335839, 备注「姓名-学校-专业」

  • 免费获取

    • 1亿用户数据集 https://www.kaggle.com/datasets/beats0/bilibili-user
    • B站用户签名语料.100.6.bin    链接: https://pan.baidu.com/s/1SM6fWZ3Jt7VFaZ2dedt5CA 提取码: bzmp
  • 100元获得 cntext-2.0.0-py3-none-any.whl

精选内容

93G数据集 | 中国裁判文书网(2010-2021)

96G数据集 | 2亿条中国大陆企业工商注册信息

数据集 | 3571万条专利申请数据集(1985-2022年)

预训练模型 | 使用1000w专利摘要训练word2vec模型,可用于开发词典

使用中文MD&A数据集训练word2vec预训练模型, 可扩展或新建会计金融等领域的情感词典

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

CAR2023 | 文本分析在会计中的应用

MS | 使用网络算法识别创新的颠覆性与否

管理世界 | 使用文本分析词构建并测量 短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息

管理科学学报 | 使用LDA算法计算政策扩散速度与扩散程度

心理科学进展 | 语义距离与创造性思维关系的元分析

JMR | 测量消费者的「语言确定性

金融研究 | 使用Python构建「关键审计事项信息含量」

案例代码 | 使用正则表达式判别微博用户mbti类型

可视化 | 99-21年地方政府报告关键词变化趋势

使用 Word2Vec 和 TF-IDF 计算五类企业文化

数据集 | 2006年-2022年企业社会责任报告

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

数据集 | 07-21年上市公司「委托贷款公告」

数据集 | 200w政府采购合同公告明细数据(1996.6-2022.12)

数据集 | 84w条业绩说明会问答数据(2005-2023)

单个csv文件体积大于电脑内存,怎么办?

csv转xslx 可节约存储空间

修改于
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存