实验 | 互联网黑话与MD&A

Original 大邓大邓和他的Python

2024-09-09

最近大邓意外发现，使用mda预训练语言模型扩展互联网黑近义词，模型返回的有鼻子有眼的，这意味着上市公司高管在md&a中可能频繁使用了互联网黑话。

一、互联网黑话

二字动词

复盘，赋能，沉淀，倒逼，落地，串联，协同，反晡，兼容，包装，重组，履约，晌应，量化，发力，布局，联动，细分，梳理，输出，加速，共建，支撑，融合，聚合，集成，对齐，对标，对焦，拆解，拉通，抽象，摸索，提炼，打通，打透，吃透，迁移，分发，分层，分装，穿梭，辐射，围绕，复用，渗透，扩展，开拓。

二字名词

漏斗，中台，闭环，打法，拉通，纽带，矩阵，刺激，规模，场景，聚焦，维度，格局，形态，生态，话术，体系，抓手，赛道，认知，玩法，体感，感知，调性，心智，战役，合力，心力。

三字名词

颗粒度，感知度，方法论，组合拳，引爆点，点线面，精细化，差异化，平台化，结构化，影响力，耦合性，易用性，一致性，端到端，短平快。

四字名词

生命周期，价值转化，强化认知，资源倾斜，完善逻辑，抽离透传，复用打法，商业模式，快速响应，定性定量，关键路径，去中心化，结果导向，垂直领域，如何收口，归因分析，体验度量，信息屏障。

二、模型近义词

之前分享过一个中文金融领域的word2vec预训练语言模型，这里就不详细介绍模型参数。

使用中文MD&A数据集训练word2vec预训练模型，可扩展或新建会计金融等领域的情感词典

文本分析最常用的方法是词典法(例如，LIWC)，而词向量模型可以帮助我们扩展或者构建概念情感词典。

现在给大家演示只给一个词，返回topn个语义最相关的词。

# 与 seedwords 最相关的前topn个词
# wv是预训练语言模型
expand_dictionary(wv=wv, 
                  seedwords=['复盘'],
                  topn=10)

Run

['复盘',
 '检视',
 '检讨',
 'KPI',
 '考核评估',
 '量化考核',
 '跟踪考核',
 '纠偏',
 '过程跟踪',
 '分析总结',
 'KPI指标']

expand_dictionary(wv=wv, 
                  seedwords=['赋能'],
                  topn=10)

Run

['赋能',
 '技术赋能',
 '全面赋能',
 '平台赋能',
 '科技赋能',
 '助力',
 '数字化赋能',
 '数据赋能',
 '数智化',
 '数据驱动',
 '生态构建']

expand_dictionary(wv=wv, 
                  seedwords=['感知度'],
                  topn=10)

Run

['感知度',
 '体验度',
 '产品认知度',
 '知晓度',
 '购买率',
 '品牌黏性',
 '满意度忠诚度',
 '忠诚度美誉度',
 '消费者满意度',
 '体验满意度',
 '好感度']

expand_dictionary(wv=wv, 
                  seedwords=['倒逼'],
                  topn=10)

Run

['倒逼', 
'倒逼企业', 
'势在必行', 
'迫使', 
'大势所趋', 
'促使', 
'优胜劣汰', 
'加速淘汰', 
'势必', 
'趋严', 
'成为常态']

expand_dictionary(wv=wv, 
                  seedwords=['闭环'],
                  topn=10)

Run

['闭环',
'完整闭环', 
'全链路', 
'全链条', 
'全流程', 
'闭环式', 
'端端', 
'端到端', 
'服务闭环', 
'全周期', 
'闭环管理']

expand_dictionary(wv=wv, 
                  seedwords=['端到端'],
                  topn=10)

Run

['端到端',
 '端端',
 '端到端的',
 '全链路',
 '端端的',
 '数字化运营',
 '全业务流程',
 '场景全',
 '全链条',
 '敏捷',
 '全价值链']

可以看到，返回的近义词都是挺互联网范儿的。只有较为频繁使用，语言模型才有可能捕捉到这种语义关系。这从侧面反映了近年来互联网高级黑话影响力之大。

三、获取模型

模型训练不易，为付费资源。如需使用模型，可点击购买

使用中文MD&A数据集训练word2vec预训练模型，可扩展或新建会计金融等领域的情感词典

精选内容

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用经营讨论与分析测量企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算「企业融资约束指标」

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学：揭示经济中的叙事

中文心理词典，含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息（含代码）

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 「问询函」

网络爬虫 | 使用Python采集B站弹幕和评论数据

继续滑动看下一个

大邓和他的Python

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

实验 | 互联网黑话与MD&A

一、互联网黑话

二字动词

二字名词

三字名词

四字名词

二、模型近义词

三、获取模型

精选内容

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

实验 | 互联网黑话与MD&A

一、互联网黑话

二字动词

二字名词

三字名词

四字名词

二、模型近义词

三、获取模型

精选内容

您可能也对以下帖子感兴趣