查看原文
其他

谢文:大数据如何推动网络舆情监测变革

谢文 一本政经 2019-07-17

编者按:日前举行的一次互联网行业讨论会上,不少参会专家和业者就互联网发展趋势及大数据应用、网络舆情科学研判等话题展开了交流。微信公众号《财富成都》根据原成都商报社常务副总编辑、互联网安全与信息化行业管理专业人士谢文在会上演讲的录音整理出不少干货。小编摘录如下,以飨读者。

各位专家、朋友们,大家好!我今天给大家分享的话题是“大数据与网络舆情”。

我们知道,随着大数据时代的到来,网络舆情在数据体量、复杂性和产生速度等方面,正发生着巨大变化。

网络舆论处理方法,已超出了传统常用的框架。用一句形象的话说,网络舆情正成为网络舆论分析和引导工作的基础和晴雨表,以大数据观念变革传统网络舆论引导思维,准确把握网络舆情的内在特征及其在演化过程中的潜在规律,对于新形势下做好网络舆论引导工作,维护网络社会安全,具有重要的理论意义和实践价值。

接下来,我想从4个维度来谈一谈大数据在网络舆情中的价值。

们知道,大数据是指无法在一定时间内用常规软件工具进行抓取、管理和处理的数据集合,必须通过深度挖掘、计算、分析才能创造价值的海量信息。大数据的价值不在信息本身,而在于通过分析数据关联性预测未来。网络舆论分析和引导的前提是网络舆情的预测,而大数据技术为网络舆情的预测提供了支撑和保证。

首先,我们来看一看大数据价值的核心:舆情预测

我们大家都知道,传统网络舆论引导工作的起点,是对已发生的网络舆情进行监测开始。然而这种方式的局限在于滞后性。这个问题,我们可以用大数据技术和方法来解决它。

大数据技术的应用,就是挖掘、分析网络舆情相关联的数据,将监测的目标时间点提前到敏感消息进行网络传播的初期,通过建立的模型,模拟仿真实际网络舆情演变过程,实现对网络突发舆情的预测。

第二个维度,我想谈一谈大数据价值实现的条件。

大数据技术要预测舆情,首要条件是对各种关联的全面数据进行分析计算。传统数据时代,分析网民观点或舆情走势时,只关注网民跟帖态度和情绪,忽视了网民心理的变化;只关注文本信息,而较少关注图像、视频、语音等内容;只观察舆论局部变化,忽视其他群体的舆论变化;只解读网民文字内容,而忽视复杂多变的社会关系网络。从舆情分析角度看,网民仅仅是信息海洋中的“孤独僵尸”。

大数据时代,突破了传统数据时代片面化、单一化、静态化的思维,开始立体化、全局化、动态化研究网络舆情数据,将看似无关紧要的舆情数据纳入分析计算的范围。

很显然,要实现大数据的价值,前提条件需要数据基础,全面的舆情信息。

第三个维度,我们来看一看大数据价值实现的基础。

前面我们谈过,大数据预测舆情的价值实现,必须建立在对已挖掘出的海量信息,利用数学模型进行科学计算分析的基础之上,其前提是各类相关数据的量化,即一切舆情信息皆可量化。舆情量化,是大数据价值实现的基础。但数据量化,不等同于简单的数字化,而是数据的可计算化。要在关注网民言论的同时,统计持此意见的人群数量;在解读网民言论文字内容的同时,计算网民互动的社会关系网络数量;对于网民情绪的变化,可通过量化的指标进行标识等。

第四个维度,我想谈一谈大数据价值实现的关键。

大数据技术预测舆情的价值实现,最关键的技术就是对舆情间的关系进行关联,将不再仅仅关注传统意义上的因果关系,更多关注数据间的相关关系。

大数据思维,每一个数据都是一个节点,可无限次地与其他关联数据形成舆情链上的乘法效应——类似微博裂变传播路径,数据裂变式的关联状态蕴含着无限可能性。

数据关联、舆情关联,这就是大数据价值的关键所在。找不到内在逻辑和关联,数据再多也没有多大价值。

接下来,我想谈一谈大数据推动网络舆情监测工作的四大转变。

当前,网络舆论引导工作正由舆情监测向舆情预测转型,由事发舆论引导向舆论引导前置转型,大数据技术为这种转型提供了可能和动力,新的网络舆情监测工作可概括为“四大转变”。

第一个转变是,网络舆论引导工作正由抽取舆情信息样本向掌握全部舆情数据转变。

按照大数据的概念,现有的传统舆情监测方式采集的舆情信息仅为样本信息。通过大数据技术,突破传统舆情监测技术瓶颈,深度挖掘目标舆情相关的所有看似不相干的数据信息,如兴趣爱好、学历水平、体貌特征、社会关系等尽可能全面的数据,为全面分析舆情走向提供基础。

第二个转变是,网络舆论引导工作正由追求舆情信息精确性向舆情信息混杂性转变。

大数据的一个重要特征是数据的混杂性,因此我们不仅要接受多样化的数据,还要善于利用多样化的数据,将不同领域数据关联起来进行分析。不再仅仅关注于网民在几点几分发表了什么言论,而要关注在某一时间范围,网民的关注人群、关注内容、关注方式的变化,以及他对周围其他人的影响等数据。

第三转变是,网络舆论引导工作正由推算舆情因果关系向计算舆情相关关系转变。

改变传统的“有罪推论”的舆情监测逻辑理念,不再单纯寻找舆情数据间的因果关系,如新浪微博有关某网络舆情的原因和后果,更多关注与此类言论相关联的电话、微信、QQ等通联手段信息等衍生数据,拓展舆情监测、处置视角,为预测舆情走向赢得时间和空间。

第四个转变是,网络舆论引导工作正由定性推算舆情信息向量化计算舆情信息转变。

量化舆情不等同于简单的数字化舆情。要将所有相关联的舆情信息,通过已建立的标准指标体系进行量化处理,将感性的网民评论、情绪变化、社会关系等信息,以量化的形式转化为可供计算分析的标准数据,通过数据模型进行计算预测舆情走向。

最后我分享的话题是:大数据挖掘与服务网络舆情的实现路径。

其实,关于这个话题,业内不少专家都有自己的思考。我印象比较深刻的是,最近在求是理论网上读的一篇文章,这篇文章应该是互联网安全与信息化专家翟云今年初发表在《学习时报》上,我觉得很多东西谈的比较深入。

结合我个人的认识和分析,我认为大数据挖掘与服务网络舆情的实现路径是有规律可循的。大数据技术的核心技术是数据挖掘技术。要使数据挖掘技术有效助力网络舆情监测与引导,首先应根据网络舆情演化规律,构建适用于网络舆情挖掘分析的相关模型和技术方法,使之满足网络等复杂系统中不同舆情对象间的复杂关系分析,从而为网络舆情挖掘线路与进程提供理论基础,实现一般数据挖掘模型和技术方法与网络舆情挖掘与分析的有机融合。

数据挖掘技术在网络舆情引导中的实际应用,我们可以从四个方面来进行探讨:

第一个方面,我们先来看一看网络舆情关联分析。

舆情关联关系是网络舆情数据库中存在的一类重要的、可被发现的知识,首先需要分析网络事件表征参数间关系,进而发现网络舆情中隐藏的舆情关联。为更准确表示网络舆情间的关联度,引入网络舆情支持度和网络舆情可信度来量化网络舆情关联规则的相关性,从而使挖掘结果更准确。如,基于网络舆情关联规则挖掘,分析新浪微博中活跃者间关联强度、坚定支持者人数以及坚定支持者成员的变化频度等三个时间序列间的关联规则,挖掘出新浪微博舆情的关联关系,进而为舆情分析提供重要依据。

第二个方面,我想谈一谈网络舆情级别划分。

网络舆情级别划分是根据网络舆情的特征,判断该舆情的严重程度。在对网络舆情进行级别划分时,首先需要构造网络舆情分类器,然后利用分类器给未知类别的网络舆情赋予类别。构造分类器的过程一般包括训练与测试两个阶段。在训练阶段,建立模型描述预定的网络舆情集的特征,集合中的每一条舆情信息都属于一个预先给定的类别,比如一般严重、严重、非常严重等。利用类标签属性来标识类别。用于创建模型的网络舆情集一般被称为训练集,可以用数学公式、分类规则、神经网络或判定树等模型来描述一个预先确定的舆情集合,即进行有监督的学习。在测试阶段,使用创建的模型在网络舆情测试集上进行预测,并将测试结果与实际值进行比较,利用测试集中被正确分类的舆情的百分比来估计模型的准确率。经过以上两个过程,便可以形成性能稳定、准确率较高的网络舆情分类模型。当新的未知类别的网络舆情出现后,便可以把该舆情的相关信息输入到分类模型中,然后由分类模型判断该舆情的严重程度。

第三个方面,我想谈一谈网络舆情聚类。

网络舆情聚类分析是指,事先不了解网络舆情集合中每一个网络舆情样本所属的程度级别,是根据网络舆情的主要特征,如舆情发生时间、评论数量、传播频度等,把相同或相近特征的网络舆情归为一类,从而实现舆情聚类。在舆情聚类过程中,分在同一个簇里的舆情对象具有很高的相似性,而不同簇中的舆情对象之间的相似性非常低。所形成的每个舆情簇都可以看作一个舆情类,由它可以导出规则。与级别划分不同,聚类只对舆情数据进行分析,由于最初并不知道如何开始,所以训练舆情数据一般不提供级别标记,但是随着聚类过程不断推进,可以自动给不同舆情簇分配对应的舆情级别标记。

最后,我想谈一谈网络舆情倾向性分析。

我们知道,网络舆情倾向性是指网民对客观事物或公共事件所蕴涵的感情、观点、态度和立场。网络舆情倾向性分析是指通过数据挖掘技术,自动将网络舆情所包含的褒贬因素挖掘出来,明确信息传播者的真正意图和倾向性。网络舆情倾向性分析主要包括基于语义的网络舆情倾向性分析与基于机器学习的网络舆情倾向性分析,目前在技术、方法与模型方面均有深入研究,主要包括序列模式挖掘方法、情感分析、主题分析等。通过这些技术方法,将网络舆情中丰富的情感倾向进行定性定量分析,及时掌握网络舆情变化趋势。

在此基础上,通过对随时间持续变化的舆情进行分析,可以较好地把握网络舆情的演化规律。

谈到这里,我的分享也就差不多了。我想再简单回顾一下今天和大家分享的三个话题:第一部分说的是大数据在网络舆情中的核心价值,第二部分谈的是大数据在推动网络语气监测服务工作中的四大转变,第三部分谈的是大数据挖掘和服务网络舆情的实现路径。谈了这么多,大家会不会觉得我谢文认为:利用大数据,就可以搞定一切网络舆情问题了?

其实,我个人并不这么认为。我们必须清晰的认识到,网络舆情的纷繁复杂性,需要我们运用大数据技术进行舆情预测。但是,大数据技术基于计算机的智能运算,只能作为智能化的手段。网络舆情大数据源于互联网的开放、共享,我们不能仅仅凭借技术构建的大数据平台去打捞那些可能代表一个群体或一定数量级的沉默的声音。因为如果他们与网络隔绝,或者由于沉默的螺旋心理效应,而不提供任何数据,那么我们所精心分析出的网络舆情实际上是不全面的,以此来指导社会管理是有偏差的。

所以说,面对越来越繁重的网络舆论服务工作,固守以往传统工作方式将愈来愈力不从心。但完全寄希望于大数据技术来当成网上舆论服务和引导的万能钥匙,解放人的辛苦劳动,无疑将是天方夜谭。

大数据技术是人发明的,它只是个手段,永远不能离不开人的把控和分析。


注:此文原载于微信公众号《财富成都》,点击阅读原文,可查看原文。

————————————————

“一本政经”重点关注中国传媒、政务传播的相关话题。欢迎点击右上角“…”图标与人分享,或推荐给更多朋友订阅此号yibenzhengjing2013)。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存