查看原文
其他

文本分析方法在《管理世界》(2021.5)中的应用

大邓 大邓和他的Python 2022-07-09

开学特惠| Python网络爬虫与文本分析


案例文献

胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.


摘要:

在可持续发展战略导向下,秉持长远理念是企业抵御外部环境威胁和拥有可持续经营能力的基 石。然而,作为企业掌舵人的管理者并非都具有长远的目光。本文基于高层梯队理论和社会心理学中的时间导向理论,提出了管理者内在的短视主义特质与企业资本支出和研发支出的关系,并采用文本分析和机器学习技术构建出管理者短视主义指标从而对其进行实证检验。研究结果发现,年报 MD&A 中披露的“短期视域” 语言 能够反映管理者内在的短视主义特质,管理者短视会导致企业减少资本支出和研发支出。当公司治理水平、监督型机构投资者的持股比例以及分析师关注度越高时,管理者短视主义对这些长期投资的负向影响越 易受到抑制。最终,管理者短视主义导致的研发支出减少和资本投资效率降低会损害企业的未来绩效。本文拓宽了管理者短视主义的行为后果分析,对企业高层次管理人才的聘任以及企业和政府的监管具有重要的实践启示。同时,本文将文本分析和机器学习方法引入管理者短视主义的研究,为未来该领域的研究提供了参考和借鉴


关键词:

管理者短视 长期投资 文本分析 机器学习


变量测量论证

语言能够反映人的认知、偏好和个性(Webb et al.,1966),研究者可通过分析实验对象语言中使用的词语类型和词频来捕捉人的特质(Miller and Ross,1975;Pennebaker et al.,2003)。如一个人的语言中越强调“过去”、“ 曾经”等词汇,反映其越关注过去;一个人的语言中越强调“将来”、“ 可能”、“ 要去”等词汇,反映其越关注未来(Pennebaker et al.,2003)。基于此研究范式,本文结合已有的英文“短期视域”词集、MD&A 中文语料特点以及 Word2Vec 机器学习制定出能够反映管理者“短期视域”的中文词集,随后通过词典法构建出管理者的短视主义指标。

MD&A 是管理者对报告期内企业经营状况的回顾以及对下一年度经营计划以及企业未来发展所面临的机遇、挑战和各种风险的阐述。已有利用 MD&A 等文本刻画管理者特质的研究成果在一定程度上证实了其可靠性(Li,2012;蒋艳辉、冯楚建,2014)。如

  • Li(2012)利用美国上市公司 MD&A 文本来刻画管理者的 自我归因偏差
  • 蒋艳辉和冯楚建(2014)利用 MD&A 中“我们”、“ 我公司”、“ 我们公司”等词语出现的频率刻画管理者的自我指涉度,从而衡量管理层对公司的认知和努力程度。
  • 同时,国外文献表明 CEO 对企业的经营决策起着绝对的主导作用,能够直接影响企业未来的发展方向和命运(Chandler,1962;Finkelstein and Hambrick,1996)。CEO 的特质如自恋程度、学历和任期等都会极大影响公司的信息披露特点(Marquez Illescas et al.,2019;Lewis et al.,2019),因此年报披露的文本信息更多地反映了 CEO 的意思。而在我国,上市公司的董事长更像发达国家的 CEO(姜付秀等,2009;陈传明、孙俊华,2008;李健等,2012)。

因此,我们从 MD&A 中捕获的管理者短视主义特质更多反映的是董事长的短视主义特质,本文的管理者指的是企业的董事长。


指标构建过程

具体来讲**,管理者短视主义指标**的构建过程如下。

  1. 借鉴 Brochet 等(2015)的英文“短期视域”词集与 Li(2010)构建文本指标的思路,我们阅读了 500 份 MD&A 语料以获取中文文本信息的特点,制定出中文 MD&A 中有关“短期视域”的种子词集,包括直接和间接 两大类。直接短期视域大类包括:“ 天内”、“ 数月”、“ 年内”、“ 尽快”、“ 立刻”、“ 马上”;间接短期视域大类包括:“ 契机”、“ 之际”、 “压力”、“ 考验”。

  2. 针对同一概念或者事物,表达者往往使用多个语义相似的词汇进行描述,因此需要对种子词集进行相似词扩充。本文采用 Word2Vec 中的 CBOW 模型(Continuous Bag-of-words Model)对中文年度财务报告语料进行训练。 

  3. 我们通过邀请 3 名业界和学术界专家以及对比 MD&A 文本样例对指标词集进行核验,最终确定词集包含 43 个“短期视域”词汇(词集和语句示例详见《管理世界》网络发行版附录 2)。随后,本文基于词典法计算 “短期视域”词汇总词频占 MD&A 总词频的比例,乘以 100 后得到管理者短视主义指标。该指标值越大,表明管理者越短视。


技术分析

纯技术讨论,非论文内容

这篇管理世界的论文,主要难点有两个:

  1. 如何构建 短视主义词典(集)

  • 根据对研究和数据的了解,人工摘选一些 短视主义词典(集)种子词;人工,不需要python编程
  • 使用Word2Vec技术扩充 短视主义词典(集);需要python编程
  • 如何使用 短视主义词典(集)  计算   短视主义指标

    • 需要使用Python编程语言,根据 词典法 实现短视主义指标的计算。

    python学习与实现

    难点主要可在掌握  开学特惠| Python网络爬虫与文本分析   后,结合以下两个技能点实现

    • 扩充词集可以用到之前分享的wordexpansion库   https://github.com/hidadeng/wordexpansion
    • 计算短视主义指标,即词典法可以用到cnsenti库   https://github.com/hidadeng/cnsenti




    开学特惠| Python网络爬虫与文本分析


    近期文章

    腾讯课堂 | Python网络爬虫与文本分析
    中文金融情感词典发布啦 | 附代码
    B站视频 | Python自动化办公
    wordexpansion包 | 新增词向量法构建领域词典
    语法最简单的微博通用爬虫weibo_crawler
    hiResearch 定义自己的科研首页
    大邓github汇总, 觉得有用记得star
    whatlies包 | 简单玩转词向量可视化
    multistop ~ 多语言停用词库
    Jaal 库 轻松绘制动态社交网络关系图
    SciencePlots | 科研样式绘图库
    使用streamlit上线中文文本分析网站
    爬虫实战 | 采集&可视化知乎问题的回答
    Clumper | dplyr式的Python数据操作包
    Clumper库 | 常用的数据操作函数
    Clumper库 | Groupby具体案例用法
    Clumper库 | 其他数据分析
    plydata库 | 数据操作管道操作符>>
    plotnine: Python版的ggplot2作图库
    读完本文你就了解什么是文本分析
    文本分析在经管领域中的应用概述  
    综述:文本分析在市场营销研究中的应用
    plotnine: Python版的ggplot2作图库
    Wow~70G上市公司定期报告数据集
    漂亮~pandas可以无缝衔接Bokeh  
    YelpDaset: 酒店管理类数据集10+G


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存