查看原文
其他

研究分享 | 大数据时代社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

冉雅璇等 南开管理评论 2023-08-28


作者简介


冉雅璇,中南财经政法大学工商管理学院副教授、硕士生导师、博士,研究方向为消费者行为与大数据营销;

李志强(通讯作者),中南财经政法大学工商管理学院硕士研究生,研究方向为营销智能与文本分析;

刘佳妮,中南财经政法大学工商管理学院硕士研究生,研究方向为营销模型与因果推断;

张逸石,武汉理工大学管理学院教授、博士,研究方向为大数据营销与营销模型。


研究缘起

社会科学领域的实证研究是“数据驱动”的,以心理学、管理学为代表的学科研究在实验、问卷和其它二手数据基础上开展量化分析,并从这些由数字构成的结构化数据中提取信息。然而,对于文本这一类非结构化数据的处理仍主要采取主观理解和判断的质性研究范式,极大地局限了非结构化数据的研究价值和效度。尤其在大数据时代,互联网一方面赋予了大众借以表达观点、情感、态度的文本创作自由,超大规模的话语文本不仅高度可及,还因为其充分包含人的认知信息和反映事物的客观属性而具有研究价值。除了即时生成的内容,另一方面,诸如书籍、新闻、文件报告等历史悠久的文本资料也得以电子化的文本形式被网络载入,尤其对跨时段研究的素材、视角和话题十分有益。而在社会认知系统的视角下,文本内容所蕴含的信息是多层次、多样化的,能够表征内隐且抽象的认知信息,而这些复杂的心理活动信息在基于被试自我报告的传统方法下难以获得。毫无疑问,非结构化数据已经引起学界的广泛兴趣,但囿于传统研究方法的不足(见表1),文本信息未能得到充分、客观且有效地处理。近年来,计算社会科学的发展驱动了以机器学习(Machine Learning)为代表的大数据分析技术的实践应用,甚至建构起这一学科体系下的研究范式。在此机缘下,本研究力图探讨计算文本分析方法的研究价值,并聚焦自然语言处理(Natural Language Processing)下的新兴技术——“词嵌入(Word Embeddings)”,介绍其在构造难以直观量化的抽象的关系型变量上的有效性,以期为国内研究人员带来启示。


技术原理


“词”作为最小的文本语义单位,既是我们理解和描述一系列社会、文化、心理、行为特征或现象的基础信息单元,也是计算机展开文本分析的基础。词汇在文本中的分布模式揭示了特定的意义。例如,词汇的使用次数、位置和类型能够用以推断撰写人性格、话语风格、话题分布等内容特征。不同于以往的计算文本分析方法(如词频统计、主题模型)的是,词嵌入从全局文本信息的视角出发,摆脱了词汇之间彼此独立的传统假设,从而能够建构词与词之间的内在语义关联。依赖于分布式表征(Distributional Representation)的核心假设,词嵌入通过分析目标词与其上下文词汇之间的分布规律来学习和提取目标词的众多语义特征信息,因而“词”的文本分布越相似或有高度的共现频率,其对应的词向量也更相似,反映在高维向量空间中即为相近的“距离”(见图1)。因此,词向量之间的几何关系度量能够在很大程度上说明词与词之间、概念与概念之间的现实关系。

词嵌入分析方法遵循计算社会科学研究范式的一般信念——“数据驱动知识发现,让数据自己说话”,即在不严格预设理论假设的情况下,通过文本数据挖掘以探索性地发现一些基本模式,然后结合有关理论和事实证据进行解读和知识提炼;或者将词嵌入方法融入实证研究中,从当前的基本模式中进一步发掘新的研究问题和提取相关构念的变量。与传统的社会科学研究方法对比,基于词嵌入技术的方法优势在于:第一,可以高效且自动化地处理大规模文本数据;第二,依据文本内在的分布规律提取特征,减少对主观判断过程的依赖,因而结果更客观;第三,能够利用外部信息和领域知识改进算法,可拓展性和重复性强;第四,可以实现对跨时间、跨文化文本中深层次文化信息的挖掘。


图1 词嵌入技术表征文本词汇的示意图

           注:图形由作者绘制。


研究现状


词嵌入以其高效的词表征能力和强大的迁移学习能力在文本分析领域获得越来越多的关注。本文回顾并梳理相关文献(见表2),发现词嵌入技术在社会学、语言学、心理学和政治学等领域得到了广泛应用,并将现有研究总结为社会偏见、概念联想、语义演变、组织关系和个体判断机制五大主题。国内的社会科学领域对词嵌入方法的探讨有较大的发展空间,本文通过介绍国外社会科学领域对词嵌入的应用情况(包括探讨的主题和具体内容、采用模型、训练语料和时间跨度)应征该方法在描述抽象概念的关联和跨文化、跨时段上的优势,以期帮助国内社会科学研究者了解该技术独特的应用价值。

表2 词嵌入技术在社会科学领域的应用现状总结

注:表格由作者整理。


应用展望


鉴于词嵌入技术主要基于无监督的学习方式来挖掘文本词汇的语义信息,进而探索性地建构词汇之间的相似或相关的特征。同时,考虑到计算机分析路径固有的局限性,本文也认为该研究方法文本数据的预处理、文本表征效果方面有一定的条件限制,但大部分问题在众多学者的努力下已经得到了很大程度的改善,由词嵌入技术衍生出的一系列模型优化算法、辅助性分析技术、融入外部知识库等分析策略和研究范式也渐成体系,进一步保障了该方法在应用实践中的有效性和稳健性。基于词嵌入技术的强大适应能力,本文提出其对未来管理研究可能带来的独特贡献:第一,刻画品牌--消费者的市场关系,辅助企业的品牌管理。充分利用用户生成文本(User-Generated Content)和企业生成文本(Marketer-Generated Content),借此评估产品或品牌的市场表现和形象,探讨品牌依恋、品牌文化和品牌联想等话题;第二,通过挖掘组织内的文本(如会议记录、员工评述、领导讲演文本),揭示员工的内隐认知信息(如动机、信念、情绪),进一步探讨诸如领导力、员工创新力、员工的组织支持感和企业文化等话题;第三,利用词嵌入方法对中华古籍文本展开分析,挖掘诸如组织领导风格、组织文化、组织竞争力、管理者与下属间关系、人员激励政策等研究话题,进而探索中国本土的管理智慧和组织话题。此外,基于文本这一承载了主体多方面属性信息的特点,词嵌入技术还可应用于更广泛的表征范畴,从表征文本单位拓展至表征个人、组织等实体。例如,根据线上用户的特征来进行兴趣推荐或偏好预测;利用词嵌入的基本原理,未来研究可以考虑利用文本来刻画企业间的关系网络及其节点特征(如竞争、合作),进而更有效地描绘企业在网络中的嵌入式角色,进而辅助企业的合作策略。


原文引用


冉雅璇,李志强,刘佳妮,张逸石.大数据时代社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论,2022,24(2):47-56.


相关阅读


主编寄语丨白长虹——管理学科的窘境与制度突破

开放获取丨《南开管理评论》2022年第1期电子书

研究分享丨传统服务业企业如何实现平台创新?——一个探索性纵向案例研究

研究分享 | 木秀于林风必摧之?下属绩效影响领导授权行为的机制与边界条件

研究分享 | 末端时间标志对消费者风险决策的影响

研究分享丨经营杠杆影响企业创新吗

研究分享 | 纯文字还是加“表情”?道歉形式对消费者宽恕意愿的影响——移情的中介视角

研究分享 | 人工智能产品 “协助者”与“替代者”形象对消费者评价的影响

研究分享丨味觉感知与隐喻对于服务补救的影响研究

研究分享 | 边缘线索提高在线酒店预订意愿:天气和图片色调的匹配效应


编辑:周瀚一

审核:孙毅

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存