社交网络话题的发现与演化
━━━
在微博、朋友圈、脸谱网和推特等新型社交媒体的环绕下,人们已经习惯通过智能手机或个人电脑等电子设备将现实世界中发生的事件信息分享到网络虚拟世界中。我们的每一次发布、分享、关注、转发、评论、点赞,都会在社交网络中留下数据痕迹,最终形成大量的用户生成数据(UGC)。对这些具有海量、动态、多源特点的数据在话题或事件层级进行深入分析,能够帮助回答一个对个人用户和舆情监控、市场决策等都至关重要的问题:网上都在聊什么?
这其实相当于讨论如何发现话题并跟踪话题的演化情况。在回答这个问题前,我们首先需要确定什么是话题,明确话题发现与演化任务的处理对象是什么,有何特点,以及话题的表现形式又是什么。
话题作为一个比较抽象的概念,没有较为准确的定义,这里我们采纳方滨兴院士等著《在线社交网络分析》(2014)一书的定义:话题是指一个引起关注的事件或者活动,以及所有相关的事件和活动。其中,事件或者活动是指在一个特定的时间和地点发生的一些事情。由该定义可以看出,话题与事件的界限并不明晰,特别是在一些关于话题发现和演化的研究中,并未对话题与事件进行区分,有些文献直接指出可以将话题细化为一个事件,有些文献在表述中声明二者可以进行互换;同时,话题或事件的相关研究使用的模型与方法基本相同,因此,在讨论话题的发现与演化时,笔者在后文叙述中对两类概念亦不做区分。
承载用户表达内心观点、想法的载体主要是文字,因此,为了发现社交网络中用户在聊些什么,话题发现与演化任务处理的对象以文本数据为主,当然图片、视频、音频、各种元数据等其他数据类型也可以用于检测话题及其演化。作为新兴的网络媒体,社交网络不同于以往的媒介形式,其数据有其独有的一些特征,包括数据海量、种类多样、更新快速等。
━━━
发现话题,可以看成是对内容的一次概括,其作为语义层次的概念,并无具体的表现形式,因此,各类话题发现方法得到的话题表现形式各异,有以文档聚簇表示的,有以词语分布表示的,也有以时间、地点等要素描述的。我们将其按技术思路的差异进行分类,分为基于聚类的检测模型、基于隐含语义分析的检测模型、基于突发性的检测模型。
传统的文本挖掘研究认为,话题发现即对文档集进行归类,以形成不同话题的子集,在此场景下,聚类算法成为首选方法。使用聚类方法,则默认假设每篇文档只与一个话题相关,聚类的目标就是将不同的文档自动地按话题进行归类,形成一组有关话题的聚簇,每个聚簇包含若干篇文档,对应一个话题。在进行聚类时,按照对文档的不同表示形式,可将文档表示为向量形式或词语的共现图形式,然后对文档或词语集合进行归类,形成不同话题,此类方法基于聚类思想,因此可以分为基于向量空间的聚类与基于词项共现图的聚类。
基于向量空间模型的聚类模型将文档向量化,便于比较文档相似度,而文档表示方法还可以是其他形式,有学者使用了基于词项共现(Term Co-occurrence)图的话题检测模型,该模型使用词项共现分析技术,核心思想是以词项之间的共现程度反映其语义关系,在话题发现模型中,词项共现可以表示两个词项同属于一个话题的概率大小,如图 1所示。
话题作为一个抽象的概念,来自文档等内容承载的客体,但高于这些客观实物,是用户对于语义的一种简化表示。一般来说,用户可以将一个文档简单表示为几个话题,如人们阅读文献资料时,习惯于将内容总结为几个要点的形式,将此过程进行数学化表示,则可以将人们阅读文档后所获得话题视为具体文档的一种降维表示,文档由成千上万的词语特征表示转换为由数量较少的若干个话题特征表示。基于此思路,则可以导出基于隐含语义分析(Latent Semantic Analysis)的话题发现模型,话题在此即作为文档中的隐含语义。
根据该模型实现技术细节的区别,可以将基于隐含语义分析的模型分为代数方法与概率方法。发现话题相当于进行一次文档的降维表示,因此可以使用经典的降维技术,而在后续的研究中,得到较多应用的是基于非负矩阵分解(NMF)的方法。这两种代数方法仅从形式上与前述文档生成的过程加以对应,但无法给出合理的物理解释,因此有学者提出了概率化隐含语义分析(PLSA)模型,应用概率方法对文档生成过程进行建模。随后提出的隐含狄利克雷分布(LDA)模型将模型参数进一步概率化,形成了完善的分层贝叶斯图模型。LDA模型基于词袋模型思想,因此在该类模型中也认为文档中的词语具有可交换性(exchangeability),即每个词在文档中都是独立的,交换词语顺序不改变文档的语义,该模型没有考虑词语的顺序(上下文)信息,虽然丢失了部分信息,但简化的语言模型有助于计算机处理。LDA模型应用方便,易于扩展,可解释性强,相关研究人员基于LDA模型针对不同应用场景提出了大量的扩展与变型模型,类LDA模型已成为话题发现领域的主流方法。
另外,我们经常在日常生活中观察到这样一个现象:当某个话题或某件事情引起大众的广泛关注时,与公众相关的一些行为等特征会表现出异常性,如2003年的“非典”时期,由于谣传“食盐可以防治该疾病”,因此全国各地的食盐销量剧增。由此可知,某些特征的异常变化可以反映一个话题或事件的发生。在社交网络中,由话题或时间引起的特征突发性也很明显,例如,在一场足球比赛前后100小时内,关注社交网络的频率会剧烈上升。这便是基于突发性的话题检测模型的动机:以突发性实现对话题的间接发现。
为了对社交网络进行更为完善的话题建模,有必要综合使用各类信息进行话题挖掘,此时,社交网络就可以被视为一个传感网络,用户、话题标签、位置、博文、词语等均可作为一个传感器,感知周围环境的变化,如用户可以感知其本身的文本发布、转发、活跃粉丝、关注用户、@用户、回复等的变化,来判断是否有新的话题发生。用户、话题标签、位置、博文、词语等根据各自之间关系可以连接构成一个异构网络,异构网络(见图2)使用了较为完整的信息,能够更准确地定位话题的发生。
━━━
发现话题、对话题进行总结,以上都是在数据是静态的情况下进行的,而面对社交网络实时更新的特性,关注其上的动态性更有利于及时掌握用户的情况,为相关应用提供决策支持,因此,需要提出话题演化的模型与算法,跟踪社交网络中话题的变动情况。话题演化的核心在于,在静态话题分析的基础上引入时间维度,描述话题的变化情况,着重回答这些问题:话题所处的状态如何?(是刚兴起、处于高潮阶段还是走向灭亡?)话题从何而来?(当前话题是新兴话题还是从某个话题演变而来?)到哪里去?(又会引发那些新的话题?)其中,对于话题状态,可以通过分析话题的强度来反映话题处于哪个阶段;而对于话题的来龙去脉,则可以通过话题的内容演化来回答。
要判断话题中的内容演化情况,较为朴素的思路是衡量相关特征的变化,如衡量文档的前后差异,若差异过大,则可以判断有新话题发生。衡量差异性的方法很多,对于文本以词语分布的形式表示,可以利用Kullback-Leiber Divergence(KL散度)进行衡量,如果文档以关系图的形式表示,则可以使用图编辑距离衡量不同时间窗口内图的拓扑结构的差异。此外还可以利用社交网络等数据中共有的一些信息,构建话题随时间变化的演化信息,如使用文档直接共有的作者信息来建立不同话题之间的联系。
除此之外,还存在其他关联信息可供使用,如社交网络中存在的转发、点赞、评论关系,科研合作网中的引用关系等。例如,根据关注的时间窗口之间的关系,可以将话题演化模型分为3种(见图3):独立的演化模型,每个时间窗口单独进行话题发现;累积的演化模型,学习当前时间窗口及其以前的所有窗口的文档,用于发现当前时间窗口的话题;引用感知的演化模型,考虑当前时间窗口内文档引用以前时间窗口的文档,进行话题发现。
话题演化中还有一类现象值得关注,这就是话题的周期性,一个周期性话题是指以一定的时间间隔重复出现的话题。与周期话题并存的还有两类话题:一类是突发性话题,指仅存在一段时间的话题;还有一类是背景话题,即由噪声引起的话题,存在于任意时间段。话题之外的信息也可以用于弥补内容信息的内容不足,如存在某些话题,本身的文本内容信息不足或没有稳定的文本内容模式,此时,单独关注文本信息不足以发现有关话题,可以借助话题所在的上下文环境辅助进行话题发现,如利用用户信息,当用户对于某个话题关注度较为稳定时,此时,文本内容的变化不会影响对该话题的发现与跟踪。
━━━
话题内容上的变化告诉我们用户关注点的迁移,而关注话题的强度演化,可以得知话题所处的状态,例如是大众都关注的话题,正处于关注高峰,还是已经在网络上讨论了一段时间,关注的用户不是很多?话题强度可以帮助我们选择最重要的话题,提供更有价值的信息。
刻画强度演化一方面可以对历史数据进行分析,发现重要事件;另一方面可以对话题的走势进行预测,如对于处于萌芽阶段的话题,预测其是否会引起公众广泛关注,对于可能成为热门的话题,则应予以重点关注。
分析历史数据时,衡量一个话题强度的最朴素的思路是计算该话题下相关文档的数量,但文档数量可能包含非相关文档等噪声信息,因此,可以同时考虑多种类别信息,如用户的影响力、文档的质量(来源是否权威、内容本身是否严谨等)、内容的类别(不容内容用户关注度不同)、用户对于该话题的兴趣等因素。另外。科研引用网络或社交网络中文档之间或用户之间的关系也可以用来衡量话题的强度,例如一篇论文的被引次数越多,则说明该论文影响强度越强,也就越重要。强度演化预测时则可以基于历史数据使用线性回归模型或分类模型进行建模。
总的来说,随着社交网络的蓬勃发展,研究社交网络中话题的发现与演化有助于实现从无序数据到有用知识的跨越与升级,帮助我们了解社交网络上到底发生了什么,从而进一步了解用户的意见、倾向、情感等。这一方面能够方便用户自身选择感兴趣的内容,防止“信息荒漠”问题,另一方面也可以为舆情监控、商品推荐、市场决策等后续应用场景提供决策支持,具有重要的现实意义。
致谢:感谢国家重点研发计划项目“大数据知识工程基础理论及其应用研究”(项目编号:2016YFB1000901)和国家973计划课题“社交网络个体行为分析”(课题编号:2013CB329604)的支持。
吴信东:合肥工业大学和路易斯安娜大学教授。
汪萌:合肥工业大学计算机与信息学院教授。
李磊:合肥工业大学计算机与信息学院副教授。
介飞:合肥工业大学计算机与信息学院博士研究生。
>>>本文为原创,转载请回复。<<<
往期推荐