查看原文
其他

实验 | 互联网黑话与MD&A

大邓 大邓和他的Python
2024-09-09

最近大邓意外发现,使用mda预训练语言模型扩展互联网黑近义词,模型返回的有鼻子有眼的,这意味着上市公司高管在md&a中可能频繁使用了互联网黑话。



一、互联网黑话

二字动词

复盘,赋能,沉淀,倒逼,落地,串联,协同,反晡,兼容,包装,重组,履约,晌应,量化,发力,布局,联动,细分,梳理,输出,加速,共建,支撑,融合,聚合,集成,对齐,对标,对焦,拆解,拉通,抽象,摸索,提炼,打通,打透,吃透,迁移,分发,分层,分装,穿梭,辐射,围绕,复用,渗透,扩展,开拓。

二字名词

漏斗,中台,闭环,打法,拉通,纽带,矩阵,刺激,规模,场景,聚焦,维度,格局,形态,生态,话术,体系,抓手,赛道,认知,玩法,体感,感知,调性,心智,战役,合力,心力。

三字名词

颗粒度,感知度,方法论,组合拳,引爆点,点线面,精细化,差异化,平台化,结构化,影响力,耦合性,易用性,一致性,端到端,短平快。

四字名词

生命周期,价值转化,强化认知,资源倾斜,完善逻辑,抽离透传,复用打法,商业模式,快速响应,定性定量,关键路径,去中心化,结果导向,垂直领域,如何收口,归因分析,体验度量,信息屏障。



二、模型近义词

之前分享过一个中文金融领域的word2vec预训练语言模型,这里就不详细介绍模型参数。

使用中文MD&A数据集训练word2vec预训练模型, 可扩展或新建会计金融等领域的情感词典


文本分析最常用的方法是词典法(例如,LIWC),而词向量模型可以帮助我们扩展或者构建概念情感词典。

现在给大家演示只给一个词,返回topn个语义最相关的词。

# 与 seedwords 最相关的前topn个词
# wv是预训练语言模型
expand_dictionary(wv=wv, 
                  seedwords=['复盘'],
                  topn=10)

Run

['复盘',
 '检视',
 '检讨',
 'KPI',
 '考核评估',
 '量化考核',
 '跟踪考核',
 '纠偏',
 '过程跟踪',
 '分析总结',
 'KPI指标']


expand_dictionary(wv=wv, 
                  seedwords=['赋能'],
                  topn=10)

Run

['赋能',
 '技术赋能',
 '全面赋能',
 '平台赋能',
 '科技赋能',
 '助力',
 '数字化赋能',
 '数据赋能',
 '数智化',
 '数据驱动',
 '生态构建']


expand_dictionary(wv=wv, 
                  seedwords=['感知度'],
                  topn=10)

Run

['感知度',
 '体验度',
 '产品认知度',
 '知晓度',
 '购买率',
 '品牌黏性',
 '满意度忠诚度',
 '忠诚度美誉度',
 '消费者满意度',
 '体验满意度',
 '好感度']


expand_dictionary(wv=wv, 
                  seedwords=['倒逼'],
                  topn=10)

Run

['倒逼'
'倒逼企业'
'势在必行'
'迫使'
'大势所趋'
'促使'
'优胜劣汰'
'加速淘汰'
'势必'
'趋严'
'成为常态']

expand_dictionary(wv=wv, 
                  seedwords=['闭环'],
                  topn=10)

Run

['闭环',
'完整闭环'
'全链路'
'全链条'
'全流程'
'闭环式'
'端端'
'端到端'
'服务闭环'
'全周期'
'闭环管理']

expand_dictionary(wv=wv, 
                  seedwords=['端到端'],
                  topn=10)

Run

['端到端',
 '端端',
 '端到端的',
 '全链路',
 '端端的',
 '数字化运营',
 '全业务流程',
 '场景全',
 '全链条',
 '敏捷',
 '全价值链']


可以看到, 返回的近义词都是挺互联网范儿的。只有较为频繁使用, 语言模型才有可能捕捉到这种语义关系。这从侧面反映了近年来互联网高级黑话影响力之大。

三、获取模型

模型训练不易, 为付费资源。如需使用模型,可点击购买

使用中文MD&A数据集训练word2vec预训练模型, 可扩展或新建会计金融等领域的情感词典

精选内容

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学:揭示经济中的叙事

中文心理词典,含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 「问询函」

网络爬虫 | 使用Python采集B站弹幕和评论数据

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存