查看原文
其他

论文荐读 2020年第1期 | 面向企业舆情监测的事件画像与高危人群预测研究

吴林 安璐 孙冉 信息资源管理学报 2022-05-18

题图源于网络


专题 · 突发事件应急情报分析 


面向企业舆情监测的事件画像与高危人群预测研究


吴 林¹   安 璐²   孙 冉²

(1.武汉大学信息资源研究中心,武汉,430072; 

2.武汉大学信息管理学院,武汉,430072)


_____

 摘 

_

文章旨在构建完整有效的企业舆情监测和分析体系,降低负面舆情爆发的概率。基于事件信息结构表示理论,构建面向企业舆情监测场景的事件画像体系。通过追溯用户的历史行为数据,采用多种语义挖掘算法及逻辑回归预测模型刻画事件背后的高危人群特征。以新浪微博“小黄车退押金”事件为例,对构建的事件画像与高危人群预测模型的有效性与可行性进行验证,均得到较好的效果。其中,高危人群预测模型的KS值为0.7472,AUC值为0.9412,验证了模型有较好的区分度。提出的研究框架能够有效刻画企业舆情相关的事件特征以及推动事件进程的关键人群特征。

_

 关键词

_

用户预测, 事件画像, 舆情监测, 影响力预测, 企业舆情

_____


____

引言

____


企业舆情是公众借助社交媒体平台针对企业主体相关的问题、现象表达具有倾向性的态度[1],是社会舆情的构成。相比于其他类型的社会舆情,企业舆情有着鲜明的特点,譬如时效性更强、出现频率远高于其他类型的社会舆情,且传播源具有不可控性。因此,企业舆情的监控对于企业的生存与发展具有重要意义。随着时间推移,舆情信息的量级不断增长,由此产生了本文所研究的两个问题:①如何构建一套完整、高效的企业舆情监控和分析体系,从零散的微博等数据源中自动抽取舆情的若干关键特征,协助企业公关部门快速掌握舆情全貌和特征;②如何挖掘企业舆情事件中高危人群的特征并对其进行预测、识别,从而有效引导企业舆情走向。

本文提出了面向企业舆情监测的事件画像与高危人群预测研究框架,将画像方法用于企业舆情管理,基于事件信息结构表示理论,将每个舆情事件视为一个对象进行刻画,融入主题情感混合模型,实现具体舆情事件到特征标签的转化。在此基础之上,通过追溯用户历史行为数据,采用多种语义挖掘算法及逻辑回归模型刻画事件背后的人群特征,勾勒极易引发舆论风暴的高危人群轮廓,辅助舆情管控和智能决策,对企业网络舆情生态环境的构建、治理等方面具有重要的借鉴意义和应用价值。


____

相关研究

____

2.1  企业舆情监测

舆情监测主要是指通过一系列的技术手段对海量舆情信息进行抓取,实现舆情的监控与追踪[2],是舆情研究中的重要课题。国内外企业舆情监测分析的研究主要为以下三个方面:①基于舆情内容的挖掘,发现热点的本质是话题的聚类过程,利用自然语言处理技术提取舆情话题,如 LDA 模型就是很多学者识别主题的首选[3],其在一定程度上能够将海量语料中的核心观点提取出来,但在处理短文本时表现不佳,微博条目往往较短,导致高频的中心词覆盖了大部分话题,LaBellaA等[4]选择企业官方推特的评论文本,采取 SVM 进行文本分类来构建意见领袖风格模型,帮助企业在特定事件发生时,应该如何反应和管理他们的沟通,以及评估利益相关者的反应。②基于舆情情感的挖掘,除了关注话题特征,很多学者引入情感特征来识别话题的情感极性,以便同步监测网民的观点,描绘话题下的不同情感分布,其描述对象通常是企业提供的某种产品或服务,消费者将评论公开发布在网络上,因此情感分析是观点挖掘的重要组成部分,范炜昊等[5]基于情感分析,从用户关注程度和用户情感来构建产品用户痛点分析模型;情感分类任务包括无监督的情感分类与有监督的情感分类,李涵昱等[6]通过抽取产品属性和评价观点进行产品评价文本的情感极性分析。常用的方法有情感词典、机器学习等。③基于舆情发展模式的分析,通过选择不同层次、维度的指标量化模拟信息的传播过程[7],有些研究侧重于舆情的影响力指标设计和预测,但在指标选择上,仅考虑微博现有的数量指标;有些研究侧重舆情的传播过程,常用经典传染病模型SIR模型[8]、社会网络分析[9-10]、复杂网络分析、系统仿真法等方法来识别舆情的扩散过程和关键节点。

2.2  画像技术研究

画像技术是从特定的业务需求角度出发,对用户进行形式化、系统化研究的方法[11],也即用户信息的标签化表示方法。用户画像通过对用户的属性、行为进行勾勒,呈现更为清晰、直观的用户需求,被广泛应用于企业精准营销、犯罪预防、金融风险预测等多个领域。 

从生成流程上来看,画像的标签可以分为两大类:统计型画像标签和预测型画像标签。其中,统计型画像标签是客观存在的,例如,用户每天花较长时间浏览娱乐新闻,主动搜索娱乐相关新闻,基于这种行为,可以判断用户对娱乐类的内容感兴趣。这个行为是客观发生的,往往是显性反馈行为,因此,没有正确与否的判别。而预测型的画像标签则是在数据缺失、数据准确度较低的场景下进行标签推测,往往是隐性的行为反馈[12]。例如性别预测、年龄预测,或是基于基础数据去预测偏应用层的标签,例如用基础的用户消费数据去推测用户的内心态度,消费时是保守消费还是透支消费,用户购买的概率是多少,这类标签需要一系列的指标来评估准确率。 

画像体系的构建方法多种多样,包括但不限于基于本体的画像构建方法、基于机器学习的画像构建方法、基于统计分析或规则的用户画像构建方法等。基于本体的画像构建方法将本体的概念应用于画像构建中,本体中的类作为用户标签,旨在构建全面丰满的用户画像,标签与标签之间的关系更为清晰。基于机器学习的画像构建方法是基于机器学习算法提取用户特征,进行标签预测或用户群体特征识别。基于统计分析或规则的用户画像构建方法往往面向具体场景,是基于业务知识的实践,结合对业务、场景、问题的理解,提出基于场景的特征标签,以此搭建用户画像框架来解决具体问题。

2.3  高危人群预测研究

本文将通过微博发布负面言论而极易对企业声誉带来较大损失的人群定义为高危人群。在社交平台上,用户由于个人职业、兴趣、所处环境、自身立场的不同,信息传播和舆论引导的能力有所差异,仅少数的重要节点用户对负面舆论的制造及传播起到决定性的作用。高危人群具有煽动性强、影响力高、负面情绪 强等特点,预测、识别潜在的高危用户是核心任务。由于高危人群预测的研究较少,在此,借鉴用户影响力预测的相关研究对以上问题进行梳理回顾。 

某用户发布的微博,如果转发、评论、点赞等直观的互动数据量较高,则表明很多用户受到此条微博的影响,也从侧面验证了该用户当前在社交媒体上具有一定的影响力[13]。转发量、点赞量、评论量是用户影响力的常用评估指标,在不同的研究问题上,三个指标的权重有所差异,例如,在广告营销中,广告主希望产品被更多的消费者看到,因此更加看重博主的转发影响力。在高危人群识别这一应用场景中,转发、评论企业相关负面微博的行为相较于点赞有更强的危害性,是造成负面新闻爆炸式传播的主要手段[14],因此,将转发与评论行为作为用户信息传播能力强度的评估指标更加贴合场景。

高危人群的预测需要结合用户影响力预测和情感倾向分析方法,从而识别负面影响力较高的人群。对用户影响力预测的特征设计上,用户属性特征、用户行为特征、用户文本内容特征是常用特征。随着自然语言处理技术的成熟应用,越来越多的学者尝试进一步挖掘用户文本内容中的主题特征与情感特征,识别网民对博主所发微博的情感支持度、博主在特定话题下的影响力。例如,Yu等[15]提出了LeaderRank算法,通过评论用户的情感特征进行识别,推测出其对于文章作者是持正向、负向或中性的态度,将情感值作为用户链接的权重计算得到高影响力用户。熊建英等[16]通过计算微博情感极性程度值,结合微博社交网络互动关系,识别异常情绪节点。 

常用的影响力预测方法包括特征工程方法、时间序列分析方法和深度学习法。基于特征工程的方法主要集中在特征的设计上,相关工作中使用的特征在早期主要有用户属性、用户网络、文本内容及时间序列等,然后采用不同的机器学习模型来预测影响力[17-21]。基于时间序列分析的方法则是利用事件演化的早期特征进行推演。早期使用简单的线性函数来预测影响力[22],或者使用多元线性回归[23]、 ARMA模型[24]、Holt-Winters预测模型[25]等,这些方法假设未来的影响力与早期的影响力存在线性或非线性关系。近些年许多研究将影响力的传播建模视为随机过程[26],选择随机森林算法。此外,深度学习算法也开始逐渐应用于影响力预测中,例如RNN模型[27]、LSTM 模型[28]和GRU模型[29]。 

综上所述,当前企业舆情监测研究要么是基于内容来监测舆情主题与情感,仅仅关注舆情事件的内容,而忽视其传播特征;要么是基于舆情事件的数量特征生成舆情演化模型,度量其传播趋势,但忽视了事件内容本身的特征。这也映射出多数舆情监控领域的研究侧重单一的方向,而尝试融合多种方法的研究相对较少。对于舆情监测任务而言,忽略任何一类特征都会对舆情的判断与决策的准确性造成干扰。此外,企业舆情监控的应用价值极高,除了及时识别潜在危机,还能够为企业产品服务优化提供一手信息,挖掘更多的商业机会。因此,需要对微博上分散的企业舆情信息进行有效组织与沉淀,充分利用其价值,而画像技术的结合则可以巧妙解决这一问题。基于此,本文尝试将画像引入舆情分析,构建事件画像,结合舆情监控领域的知识将动态复杂的舆情信息抽象为适用于具体场景的事件标签,直观有效地刻画事件全貌。此外,结合用户画像技术预测舆情事件中的高风险人群,洞察舆情参与用户的特性,及时识别对舆情恶性发酵有潜在威胁的人群,为舆情治理提供新的视角。


____

3  面向企业舆情监测的事件画像与高危人群预测模型构建

____

本文建立的基于多特征融合的舆情画像构建框架如图1所示。该模型共包括三个模块,自下而上依次为数据中心模块、算法中心模块与应用层模块。其中,数据中心模块承担多渠道多类型数据采集的功能和简单的数据清洗;算法中心模块提供多种算法能力,覆盖多种算法策略,不同的数据和业务可以根据其特点配置最合适的策略;应用层是面向应用场景的功能展示。

图1  基于多特征融合的舆情画像框架


3.1  舆情数据采集与处理

数据中心模块承担多渠道多类型数据采集、数据清洗和存储功能。完整的舆情画像数据的采集应当包含用户在各个渠道的反馈数据,如微博、微信、头条新闻等社交媒体的反馈,也包括电话、产品上的反馈。数据来源越丰富,数据量越大,字段类型越多,用户画像的准确度越高。由于其他渠道的数据获取受限,本文主要采集与处理微博数据。 

采用爬虫程序抓取微博数据,结合数据类型和内容,主要抓取三种信息,即用户信息,包含26个字段,存储用户微博的页面上展示的个人属性数据,如基本信息、职业信息、学历信息、账户信息等;微博博文信息,包含14个字段,存储用户发帖信息,如博文内容定位数据、互动信息等;微博转发及评论等互动信息,包含12个字段,存储博文的互动数据,包括转发/评论人数据、转发/评论内容、数量等信息。

舆情数据预处理首先需要进行数据清洗,去掉抓取到的微博文本中的链接、@其他用户的信息、特殊符号及停用词等对于文本特征提取无帮助的数据。数据清洗结束后,采用Python编程调用中国科学院的 NLPIR分词代码对抓取到的微博内容进行分词,得到有意义的特征词汇的集合。

3.2  事件画像构建

特征设计工作是从具体的应用场景及问题出发,将从微博上采集到的原始数据转化为特征数据,提取与事件画像相关的特征。通过特征设计,我们将选择一系列特征,构建基础特征框架。本研究尝试将Van Dijk[30]的假设性话语结构图式和杨尔弘等[31]提出的主副线信息链概念进行融合并引入企业舆情监测任务中,指导特征设计工作,以便相关组织快速了解事件的全貌及趋势,如图2所示。

图2  企业舆情事件文本信息链

在微博上,舆情事件的爆发往往会引发一系列的话题讨论,本文统一以“事件”表征对应的舆论整体内容,“事件”下包含各种各样衍生的“话题”,每个话题对应相应的“主题”对话题内容做精炼概述。故企业舆情监测中的“主线信息链”即为舆情内容的核心部分,由多个话题主题也即“情节”构成,每个话题由于生命周期的不同,分散在“主线信息链”中不同时段的位置。相关话题也被分为“核心话题”“前核心话题”“次生话题”。其中,最早引发舆情爆发的事件为“前核心话题”,是核心话题爆发的因,即导火线,“核心话题”是舆情爆发时的主要话题,此后引发一系列的“次生话题”。“副线信息链”由舆论中的“评价信息”及“预测信息”构成,其中“评价信息”为网民对某一话题表达的情感类型和强度;“预测信息”为话题未来的走向、趋势。综上所述,主副线信息链能够罗列企业舆情中的主要话题序列及相关网民的观点、话题趋势等细节信息,具有简单、高效的特征。 

本文基于事件信息结构来设计事件画像,分为“主线信息链”和“副线信息链”,其中,“主线信息链”由基于事件演化的一系列话题主题构成,表征事件的情节,“副线信息链”包括各个话题下网民评价信息和事件传播特征,辅助相关组织对事件有更深刻的理解。

事件画像的特征选择是对采集的字段进行筛选与组织,留下对事件画像刻画有贡献的特征,主要包括三类特征:主线信息链上的事件话题主题(事件相关的系列话题主题);副线信息链上的评价信息(事件相关主题下的情感类型,选择情感指数这一指标对其情感类型和强度进行量化);副线信息链上的预测信息(事件相关主题下的微博传播影响力)。其中,话题主题特征主要通过短文本聚类技术提取话题主题标签。话题情感倾向特征则是利用基于深度学习技术的情感分析工具 NLPIR计算得到文本的情感分数及极性,从而得到话题情感倾向标签。事件相关主题下的微博传播影响力主要用来描述话题的传播效应,包括广度、速度等维度。传播速度是指24小时内信息被转发的次数,单个微博的传播速度是微博发布后24小时内该条微博被转发的次数;事件的传播广度是事件下相关话题在24小时内被转发的次数。

3.3  高危人群预测模型构建

本节以事件舆论参与者中发布负面言论的用户为研究对象,将其所发布的负面微博累计转发与评论量达到20次以上作为“高危”状态的评估指标,根据特征提取方法和实际情况,并借鉴舆情研究中用户影响力预测的指标体系[32-33],综合考虑人物基础属性、人物近期热度特征,并对人物参与事件进行追踪,例如用户在相应事件中的参与度、所持观点、言论倾向、煽动话题情感的能力以及发布微博的原创性等。完整的指标体系如表1所示。

表1  高危人群预测指标体系

(1)人物基础属性 

在人物基础属性维度,本文提出是否加V、是否机构账号、等级、粉丝量四个指标。在微博上,加“V”认证既是用户身份的象征,也是信誉的代表。这一认证需要多重条件,包括一定的活跃度、粉丝量、关注量、同是加“V”认证的好友等限制。加“V”用户在微博上相较于其他类型的用户往往更容易掌握话语权。大“V”用户拥有自己的认证信息,能够反映是机构账号或是个人账号,机构账号相比于个人账号,其言论往往更具权威性和真实度。微博给每位用户提供对应等级,微博等级定义为用户活跃和荣誉的见证,等级越高,用户在微博上的使用时间越长,活跃度越高,往往能够快速检索、了解话题内容,在微博上主动发言的概率更大。用户的粉丝量能够体现用户发布信息的直接受众人数,粉丝量越大,信息被传播扩散的范围越大[34]。 

(2)人物近期热度 

人物近期热度由用户近期的粉丝互动量决定,用户近期的粉丝互动量在此定义为近30天博主发布的所有微博的互动量之和,包括微博下的转发、评论、点赞等行为。时间限定在近30天内主要用来识别用户在短期内的热度,若用户在短期内热度较高,粉丝与其互动较多,则用户所发布微博的传播效率则较高。 

(3)人物参与事件追踪 

人物参与事件追踪是指通过对用户涉及事件相关的微博言论及互动数据进行语义挖掘,识别与事件相关的内容与情感特征,推算其引爆话题的可能性。由用户对事件的参与度、参与话题数量、表达的情感倾向、情感煽动性、创作积极性等系列指标构成。相比于其他指标,该部分提出的指标聚焦于具体事件,通过抽取事件本质特征,提升高危人群识别的准确率。以下将分别对这一概念下的相关指标定义进行介绍。 

事件参与度这类指标用来评估用户对事件的关注程度。通过用户对事件相关微博互动(包括转发、发布、评论行为)的微博数量、次数、天数等指标进行量化。数值越大,表明用户对事件的关注度越高。事件参与度为一级指标,由三个二级指标组成,在此给出以下具 体定义: 

定义1:事件参与度_互动条数。该指标是指用户以转发、发布、评论的形式对事件相关微博进行互动所涉及到的不同微博的总数量。若用户u 转发的事件相关微博集合为R,发布的事件相关微博集合为 P,评论的事件相关微博集合为C,设N (distinctA) 表示集合A 中不同元素的个数,则该用户的事件参与度_互动条数为: 

定义2:事件参与度_互动次数。该指标是指用户以转发、发布、评论的形式对事件相关微博进行互动的总次数。若用户u转发的事件相关微博集合为R,发布的事件相关微博集合为P,评论的事件相关微博集合为C,设 N (A)表示集合A 中元素的个数,则该用户的事件参与度_互动次数为: 

定义3:事件参与度_互动天数。该指标是指用户以转发、发布、评论的形式对事件相关微博进行互动的总天数。若用户u 转发的事件相关微博日期集合(具体到日,下同)为 Dr ,发布的事件相关微博日期集合为Dp,评论的事件相关微博日期集合为Dc ,设 N (distinct A)表示集合 A 中不同元素的个数,则该用户的事件参与度_互动天数为: 

参与话题数量指标用来评估用户参与事件的广度,通过对事件相关的语料聚类,得到事件下不同话题的种类分布,用户转发、发布或评论涉及到的类别话题越多,表明用户对事件了解的越全面。在此给出以下定义: 

定义4:参与话题数量。该指标是指用户以转发、发布、评论的形式参与互动,涉及到的不同类别话题的数量。若用户u 转发的事件相关微博主题集合为Tr ,发布的事件相关微博主题集合为 Tp ,评论的事件相关微博主题集合为Tc ,设 N (distinctA )表示集合A中不 同元素的个数,则该用户的参与话题数量为: 

用户情感倾向指标是指用户在微博中围绕特定事件所表达的情感类型,包含正面或负面情感类别及情感强度,负面情感强度越大,表明用户对事件表达不满的意识越强,代入感越强。在此给出以下定义: 

定义5:用户情感倾向。该指标是指用户在以转发、发布、评论的形式参与互动的过程中所表达的情感类别及其强度。设句子的情感极为E (sentence),取值为{-1,0,1}。若用户u转发的事件相关微博有r 条,每条转发句子标记为reposti;发布事件相关微博有p条,发布的句子标记为publishi; 评论事件相关微博有c 条,评论的句子标记为 commenti,则该用户对这一事件的情感倾向为:

用户情感煽动性表征用户的言论得到的支持率,需要注意的是,博主微博下往往有对应评论,评论的对象可能是针对博主的评价,也可能是针对博主所述内容中涉及主体的评价。例如,博主发布如下关于滴滴的负面内容:“滴滴将在2月25日起减少员工福利,真的落寞了”。微博下的评论 a:“博主少造谣了”,评论b:“企业走到裁员,真的是无路可走了”。可见博主对滴滴裁员事件表达了负面的情感倾向;评论a虽针对博主本人表示了负面情感倾向,但并不认可博主所述内容;评论 b则对该事件表达的情感与博主保持一致,因此该评论用户认可博主所述内容。因此需要对评价的具体对象进行识别,当评价对象为博主时,往往会用“你”“博主”进行指代,此时若评论为正向情感,则是对博主持支持态度,若评论为负向情感,则是对博主持否定态度;当评价对象为非博主时,也即未出现“你”“博主”的指代词,此时若评论的情感倾向与博主微博内容对应的情感倾向一致,则是对博主持支持态度,情感倾向不一致,则持否定态度。在此给出以下定义:

定义6:用户情感煽动性。该指标是指博主u 发布的事件相关微博被其他用户以直接在微博下评论或转发评论的形式进行评价的过程中,博主u 所受到的支持的言论占比。设句子的情感极性为E (sentence), 取值为 {-1,0,1}。若博主u发布的事件相关微博下所有的评论(含转发评论)的数量为 C ,其中,若评论对象为“博主”或“你”时,将正面情感倾向句子标识为comm_bloggeri,数量为b 。若评论对象为非“博主”或“你”时,将与博主微博情感类别一致的句子标识为 comm_eventi,数量为o。则用户(博主)的情感煽动性为:

用户创作积极性是对用户参与话题讨论的自主角度进行评估,微博由用户原创,而非直接转发。原创微博对话题下内容的丰富度有直接贡献,原创微博越多,用户参与话题的积极性越高[35]。此外,引入用户发布的原创微博的时间跨度、发布原创微博的天数、日均发布原创微博数量对用户创作积极性进行补充。用户创作积极性为一级指标,由四个二级指标组成,在此给出以下具体定义: 

定义7:用户创作积极性_原创微博数。该指标是指用户发布事件相关原创微博的数量。若用户u发布的事件相关原创微博集合为P_ori,设 N(A) 表示集合A 中元素的个数,则该用户的创作积极性_原创微博数为:

定义8:用户创作积极性_原创微博时间跨度。该指标是指用户首次发布事件相关原创微博到最近一次发布事件相关原创微博的时间间隔。若用户u 发布的事件相关原创微博最早的时间为 Dstart_p,最近一次发布事件相关微博的时间为Dend_p,设datediff(day,startdate, enddate)表示enddate(最近日期) 与 startdate(最早日期)以天为单位的时间间隔,则该用户的创作积极性_原创微博时间跨度为:

定义9:用户创作积极性_原创微博天数。该指标是指用户发布事件相关原创微博的天 数。若用户发布的事件相关原创微博日期集合为Dp_ori,设N (distinctA) 表示集合A 中不同元素的个数,则该用户的创作积极性_原创微博天数为:

定义10:用户创作积极性_日均发布原创微博数量。该指标是指用户平均每天发布的事件相关原创微博数量。若用户发布的事件相关原创微博的数量为UCRE1,用户发布原创微博的天数为UCRE3,则用户创作积极性_日均发布原创微博数量为:

本文所研究的企业舆情中高危人群预测问题,采用逻辑回归算法[36],输入变量为表1中的若干特征集合,提取若干微博样本作为建模数据集,按照3∶7的比例划分测试集和训练集,基于训练集训练模型,测试集测试模型效果。模型训练过程涉及指标筛选、模型训练 和模型评估三个部分,首先需要通过最优分箱算法计 算 各 变 量 的 证 据 权 重 (Weight of Evidence,WOE) 和 信 息 值 (Information Value,IV) 进行变量初筛,同时考虑到变量之间的相关性以及稳定性,控制变量进入模型的难易程度,然后利用逻辑回归模型进行训练,并在测试集上进行预测,最后通过 KS值和 ROC指标评估模型的分类效果和泛化能力,逐步迭代,直至模型结果最优化。


____

4  实验及结果分析

____

4.1  实验数据准备

微博具有实时性、社交性等特点,并且用户众多。当企业舆情事件发生时,用户在微博平台上的信息交流行为能反映出公众在企业舆情事件中的想法、情绪和行为倾向。共享单车是近几年新兴的环保共享经济形式,在其发展的过程中产生了诸多矛盾和冲突,如小黄车退押金事件,截至目前仍有 1600 万用户等待退押金[37],引发公众的广泛讨论和对共享单车运营的质疑。因此,本研究选择来自新浪微博的数据集,以ofo(又称小黄车)的企业舆情作为研究对象,选择“ofo 押金”“小黄车 押金”为主要关键词,检索“2018-06-01”至“2019-03-17”时段内关于小黄车押金事件的相关微博,去掉重复条目,去掉@其他用户的信息及停用词。清洗后得到共计10622条原创博文,对应的评论457956条,转发257581条。

4.2  结果分析

(1) 事件画像 

本文选择事件的原创博文做话题分析。原创博文能在一定程度上传递相对新鲜的话题信息,对话题内容有直接贡献。表2展示了对原创微博的聚类结果,“小黄车退押金”事件共包括6类话题。从话题内容来看,6类主题均围绕小黄车退押金这一事件展开,彼此有一定的关联性。不同话题出现的时间不同,在时间轴上表现出不同的分布,图3为不同时段的话题类型分布,根据不同时段的话题类型分布,得出“小黄车退押金”事件相关话题的演进关系图,如图4所示。整个事件最早出现在2018年6月,用户在微博上吐槽小黄车退押金套路多,困难重重(Topic3);2018 年 9 月开始有媒体曝光小黄车办公区人去楼空深陷欠款危机,多名用户现场排队退款(Topic5),这一话题的热度逐渐走高,直到2018年12月达到最高峰,超过所有话题的热度。Topic3和 Topic5两个话题均在事件的早期承前启后出现,此后 热度一路飙升,截至2018年12月已经成为小黄车退押金事件热度最高的两个话题。在 Topic3和Topic5两个话题出现后,事件还陆续衍生出其他话题,按照时间顺序依次围绕小黄车退押金周期长(Topic1)、退押金系统及现场排队人数众多(Topic2)、小黄车推出多种策略应付押金问题(Topic4、Topic6)等。小黄车推出押金新政策,如押金投资理财项目后可免押金(Topic4)这一话题在爆料之初就受到广泛关注,但由于负面反馈较多,项目很快便下线,在经历了2018年12月的高峰之后次月热度骤降。而另一押金新策略为小黄车推出折扣商城,押金兑换金币购物(Topic6)在2019年3月微博数量激增,超过当时所有话题的微博数量,引发大量关注。

表2  “小黄车退押金”事件画像(话题情节)

图3  各时段的话题分布

(注:方框中的数字代表话题编号)

图4  “小黄车退押金”事件演进关系图

“小黄车退押金”事件画像(话题情节)如表2所示。通过对事件相关原创博文的主题聚类,识别出6类相关主题。结合图3各话题热度随时间分布图来看,Topic3和 Topic5这两个话题出现时间最早且前期数量相对较高,结合对两个话题语料内容的理解,事件的导火线为用户抱怨小黄车退押金套路多,困难重重 (Topic3),后续被媒体爆出小黄车陷入财务危机,办公区人去楼空(Topic5),引发大量用户的焦虑,陆续引发一系列话题。因此确定Topic3 为主线的前核心话题,也即小黄车退押金事件的导火线,Topic5为核心话题,也即舆情爆发 时的主要话题,随后引发一系列次生话题 (Topic1、Topic2、Topic4、Topic6),例如退押金线上线下排队人数极多、退押金周期长速度慢、小黄车推出投资理财项目、折扣商城抵扣押金等应付策略。

本文选择话题评价信息、用以预测话题趋势的话题传播特征作为事件的副线信息链。话题评价信息通过对用户发布或评论转发话题相关内容进行情感类型的判断,例如采用正向、负向或者中立态度来评估大众对该话题所持态度及评价。其中,负面博文的数量和占比这两类数值需重点关注,负面博文数量越高,说明网上关于该话题的负面声音越多。若负面博文占话题下所有博文的比重较高,则意味着该话题受到大众声讨,开始出现“一边倒”的趋势,极端情绪的集聚往往会加速舆情的发酵,因此需重点跟进解决,及时进行公关干预。从表3及图5来看,Topic3、Topic1的负面博文占比已经接近半数;Topic4、Topic5的负面博文数量较高,表明用户对小黄车推出押金投资理财项目(Topic4)、小黄车办公区人去楼空(Topic5)这两个话题的负面评价已经达到较大规模,需重点关注。

表3  “小黄车退押金”事件画像(话题情感和传播)

图5  各个话题情感分布

话题传播特征包括话题当前的传播广度及传播速度,传播广度对应话题下相关微博截止到当前的总转发量,传播速度对应话题下相关微博近15天的日均转发次数,这两个指标分别用以刻画事件当前的影响范围和扩散速度。小黄车办公区人去楼空(Topic5)、小黄车推出押金投资理财项目后可免押金(Topic4)两个话题的影响范围相对更高,其中,前一话题转发量已经超过10万,该话题出现的时间在事件的早期,积累了较高的转发量,但当前传播速度维持在较低水平。从当前传播速度来看,小黄车推出折扣商城兑换金币购物 (Topic6)这一话题的传播速度最快,为411次/天,远高于其他话题,有进一步蔓延扩大的趋势,需及时采取措施响应。

(2) 高危人群预测 

高危人群预测实验的语料共包含8065名博主发布的共计10622条原创博文,对应评论457956条、转发257581条。在这些博主中,根据博主原始发布或转发博文的数量分布,设定若其所发布过的事件相关微博整体累计评论与转发数量超过20次,则视为高危用户。 

首先,通过分箱对变量做离散化处理,本文选择卡方分箱方法。分箱后,连续变量被划入对应取值区间,同时被赋予对应的证据权重WOE值,WOE是对原始自变量编码的一种方式。在后续逻辑回归建模过程中,自变量将以WOE值表示。分箱后,选择基于IV值(证据权重)进行筛选的方式对表1提出的特征进行选择。IV值表征每个指标对应的信息价值,IV值越高,自变量对目标的影响越大,一般需要保留IV值高于0.02的特征。通过筛选的特征如 表4所示。此外,表4还提供了通过筛选的各个特征的取值区间、各取值区间对应的WOE 值及代表性分析结果。训练集分组样本占比用来描绘训练样本落入各个取值区间的比例。训练集坏样本率用来刻画训练集中的坏样本(高危人群)落入各个取值区间的比例,用以评估坏样本在各个取值区间出现的概率。从8065名用户中随机抽取70%的用户数据作为 训练集,剩余30%的用户数据作为测试集。将表4中的特征作为训练模型的特征输入得到如表5所示的逻辑回归指标系数。根据表5中的逻辑回归指标系数,建立高危人群预测模型,如等式(11)所示。

表4  筛选后的特征汇总表

表5  逻辑回归对应系数表

本文选择 ROC曲线、AUC值、KS曲线作来衡量模型的预测性能。ROC 曲线及其对应的AUC系数常用来衡量模型的准确度。ROC曲线越靠近左上角,意味着模型对高危人群的区分度越高,同时 AUC 系数越趋近于1。图6显示ROC曲线靠近左上角,AUC面积为0.9412,表明模型对于高危人群预测能力突出。

图6  ROC曲线

KS曲线也是用来评估模型对高危人群的区分能力。横坐标为阈值,表示预测模型中返回的高危人群的概率。Good 曲线对应TPR值,Bad曲线对应 FPR值。两者差距最大时即为 KS值,KS值高于0.2即表明模型具有良好的区分效果,如图7所示,KS值为0.7472,表明模型的准确率较高。

图7  KS曲线

4.3  讨论分析

实验结果表明,是否加 V、人物近期热度、事件参与度(互动次数)、用户情感倾向、用户情感煽动性、用户创作积极性(原创微博的时间跨度)是“小黄车退押金”企业舆情事件中预测高危人群的关键特征。其中,从人物基础属性这一维度来看,加 V用户成为高危用户的概率更高;从人物近期热度这一维度来看,若用户近30日微博下的互动次数越多,成为高危用户的概率更高,这也意味着近期微博上热度较高的用户若发布与“小黄车退押金”事件的负面声音往往会带来更大的危机;从人物参与事件追踪这一维度来看,用户对“小黄车退押金”事件参与度越高,尤其是用户发布或评论事件的次数越高,成为高危用户的概率更高,这也从侧面验证了对事件关注度越高的用户越容易转化为高危用户。在“小黄车退押金”事件的参与过程中,对参与者情感特征的度量对高危人群的甄别有较大贡献。其中,更倾向于对“小黄车退押金”事件表达负面情绪的用户,成为高危用户的概率也更高。用户发布的微博下的情感煽动性越高,也即得到其他用户的声援、支持越多,成为高危用户的概率更高;从用户创作积极性这一维度来看,用户发布原创微博的时间跨度越长,成为高危用户的概率更高,这也意味着对“小黄车退押金”事件的参与周期越长,选择持续发声的用户更易转化为高危用户。 

社交网络环境下的企业舆情管理需要运用先进的技术方法来解决各类问题,企业舆情监测的目标是为了能够实时抓取企业舆情信息,有效引导企业舆情的发展脉络,建立正面的企业形象,降低企业舆情所带来的负面影响。通过“小黄车退押金”企业舆情事件的事前监测,可以为企业舆情的后续应对提供有效建议。


____

5  结语

____

企业舆情相比于其他类型的社会舆情,对问题解决的时效性和决策分析能力要求更高,企业舆情通常会在短时间内集中爆发,留给企业进行决策管控的时间有限,尤其是对于上市公司而言,舆情的影响会直接体现在股票价格上,造成巨大的经济损失,与此同时,舆情信息随着时间的推移,量级不断增长,如何构建一套完整、高效的舆情监控和分析体系,从日常零散的微博数据中自动抽取舆情的多个关键特征,清晰刻画某一话题下的事件特征以及推动事件进程的关键人物特征,协助企业公关部门快速掌握舆情全貌和特征,是本文主要的研究目标。 

基于此,本文提出了基于事件画像及高危人群预测的企业舆情监测方法,将画像概念引入企业舆情管理领域,选择事件信息结构表示这一新闻传播学经典理论作为基石,将每个舆情事件视为一个对象进行刻画,提出基于深度学习思想的事件特征提取模型,实现具体舆情事件到特征标签的转化。该方法能够对零散的舆情信息片段进行组织,效仿新闻报道中的叙事逻辑对企业舆情事件的主要话题序列及大众观点、话题传播趋势等细节信息进行整合,勾勒出动态的事件画像,有助于决策者把握事件全貌及前因后果,从而快速定位问题,提升决策效率。除了关注企业舆情事件本身,本文尝试从用户视角出发,深度洞察舆情事件背后参与用户的特性,重点是舆情事件中的高危人群,通过预测对舆情恶性发酵有潜在威胁的人群,尝试从源头降低舆情爆发的概率。通过挖掘用户在微博上的行为特征及用户历史数据,捕捉人物参与事件的足迹,采用多种语义挖掘算法及逻辑回归模型刻画事件背后的人物特征,勾勒极易引发舆论风暴的高危人群轮廓。从模型的检验结果来看,本文提出的预测模型能够有效识别企业舆情事件中的高危人群。 

本研究主要面向微博这一社交媒体平台,微博上的数据形态多样,且维度众多。由于有些具有较高信息价值的特征字段或是未对外开放,或是爬取时间成本较高,因此在设计特征之时,未将其纳入评估,画像的准确性可能因此受限。在后续的研究中,需设计更全面、稳健、高效的检索策略,寻找可替代的字段或是通过建模预测的实现路径进行补充。


____

致谢:感谢图书情报国家级实验教学示范中心为本研究提供的实验支持!

____


作者简介

吴林,硕士,研究方向为社交媒体分析。

安璐(通讯作者),教授,博士生导师,研究方向为网络数据分析、应急情报研究。

孙冉,博士研究生,研究方向为社交媒体分析。


参考文献

____



__

*原文载于《信息资源管理学报》2020年第1期15-28页,欢迎个人转发,公众号转载请联系后台。


*本文引用格式:

吴林,安璐,孙冉.面向企业舆情监测的事件画像与高危人群预测研究[J].信息资源管理学报,2020,10(1):15-28.


制版编辑 | 王小燕





 论文荐读 2020年第1期 | 数据开放获取使科学惠及更广——中国开放科学与科学数据开放获取的进展与前瞻

 论文荐读 2019年第4期 | 专题前言:学术评价研究的新视角 论文荐读 2019年第4期 | 被引数量、被引质量和被引离散度结合的学术期刊影响力评价研究 论文荐读 2019年第4期 | 个人相对引文率(ARCR):作者影响力评价新指标 论文荐读 2019年第4期 | 基于Gini系数的学术期刊关键词聚散度分析

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存