学术活动|讲座纪要 刘晓钟 数据/图挖掘:如何避免身处信息孤岛中?
供稿|司湘云
社交媒体数据是否提供了一个真实的现象?社交媒体大数据中是否存在抽样偏差?社交媒体上的信息孤岛是如何产生的?研究者在收集数据的过程中如何打破信息孤岛以获取较全面的数据?“面向图情档研究问题的研究方法系列讲座(第二期)”第一讲特邀印第安纳大学刘晓钟副教授进行题为“数据/图挖掘:如何避免身处信息孤岛中?”的报告。报告分为信息孤岛与抽样偏差、信息孤岛现象的产生、如何打破信息孤岛三部分。
01.
信息孤岛与抽样偏差
当网站算法基于用户信息(例如位置、点击记录、检索历史等)有选择性地猜测用户希望看到的信息时,用户就可能处于过滤气泡(filter bubbles)中。例如:用户持续使用某一新闻网站软件后,网站算法将基于用户历史记录获得用户偏好,并在信息推荐过程中加强(reinforce)用户的某一偏好,例如网站向用户推荐其支持的观点信息,而大概率地忽略其他观点信息,由此可能造成信息的假象,算法与用户之间形成了并不良性的互动,此时用户就陷入了气泡(bubbles)中,而由于缺乏对其他观点/信息的认识和理解,用户将会有更少的意愿离开该信息孤岛或者需要付出较多的努力(effort)才能离开。
信息孤岛现象造成信息获取的单一性,而非全面性,可能会影响人们的看法、判断与决策。特别地,多个数据源存在较大差异时,其可信度并不易判断,但确定的是这些数据源的抽样过程必存在抽样偏差。
在统计学中,抽样偏差(sampling bias)指抽样过程中部分人群被调查的概率低于或高于其他人群,即未等概率地选择用户或实例。科学研究中,若采集数据的过程中存在信息孤岛,那么数据将从bubble中进行抽样,而不是从整体中抽样,研究结果就可能存在偏差。
信息孤岛现象在社交媒体中普遍存在,不仅社交媒体内部存在若干信息孤岛,而且由于语言、政策、文化等因素社交媒体系统本身也可能处于信息孤岛中,例如Twitter和Facebook之间存在信息系统壁垒、Twitter和Weibo之间存在语言差异和政策干预,那么当研究者试图对世界层面的知识/看法/问题进行探讨时,基于单一社交媒体系统的社交网络或知识网络就不能完全代表全世界的人群,研究发现很可能存在偏差。
以美国2012年总统大选为例进行社交媒体网络分析,如下图所示,其中蓝色社团和红色社团分别支持不同的党派,若研究过程中仅对某一社团进行取样,那么研究结果就会存在偏差。
通常地,社会学者研究时可以采集小样本数据(small data)或者大数据(big data)。二者各有优缺点,小样本数据质量高、假设驱动但成本高,大数据成本低、数据驱动但噪音高,而且大数据也很可能存在抽样偏差,其产生很可能与信息孤岛现象相关。
02.
信息孤岛现象的产生
以新闻协同推荐情境为例阐述信息孤岛现象的产生:如下图矩阵,行代表用户,列代表新闻条目(item),矩阵中的数值代表用户对新闻的评分,可以是用户的直接评分,也可以是用户的交互行为、浏览记录等间接评分;使用用户表征item的特征,或使用item表征用户的特征,基于向量计算用户之间的相似度和item之间的相似度,便可向用户推荐其感兴趣的新闻。在此过程中,具有相似兴趣偏好的用户被聚类成团,虽然算法将在一定时间内重新计算用户相似度,然而用户积累的浏览记录等造成用户相似度很高,因此用户团体很大程度上是固定的,而且与目标用户越相似的用户,越能够决定新闻推荐序列。该过程循环往复,不断增强用户的某一信息偏好,用户便会陷入信息孤岛中,且跳出该信息孤岛的付出(effort)将会很高。
相似度计算公式如下图:
考虑用户评分偏好不同,例如用户u倾向于评价高分,用户v倾向于评价低分,修正后的相似度计算公式和推荐算法公式如下图。
03.
研究者如何打破过滤气泡(filter bubbles)?
信息孤岛的现象十分普遍,特别地,由于语言、文化、政策等因素,中英文社交媒体网站无法连接,每一个系统都会产生系统性信息孤岛。作为研究者,如何打破信息孤岛以获取更为全面的信息?如何连接社交媒体以进行跨语言、跨地域、跨文化的探索?
维基百科是使用多种语言编写的网络百科全书,为概念(concepts)提供多种语言形式的定义,可进行跨语言的分析;并且概念通过层级类别树(category tree)进行组织,概念间通过锚文本进行连通,知识间连通性高且结构良好;同时维基百科为口语化表述提供重定向功能(Redirected Links),适用于社交媒体数据。因此维基百科可作为连接不同社交媒体的研究工具。
因此,本研究以Twitter和新浪微博为例,选择维基百科(Wikipedia)知识库作为连接不同社交媒体的桥梁,将社交媒体数据中的知识投影于维基百科的知识树上,从而打破信息孤岛。基于此提出研究问题如下:
研究问题1:如何使用维基百科有效地连接不同社交媒体网站中的概念和主题?
研究问题2:基于研究问题1构建的框架,如何量化跨社交媒体平台的主题关注度与回应的相似性与不同,以探究主题、情感以及信息传播的发展演化?
本研究生成了虚拟的异质社交网络(Pseudo Global Social Media Network , PGSMN),如下图。本网络包括三层结构:Weibo层和Twitter层包括用户(user)和话题标签(hashtag)两类节点,Wikipedia桥接层包括维基百科页面(article)和类别(category)两类节点,其中页面节点通过页面超链接互联,类别节点依据类别树进行组织;网络中的关系类型如图所示。
下一步使用随机游走算法(random walk algorithm)计算Weibo层或Twitter层节点连接到另一社交媒体节点的概率,即可打破社交媒体间的信息孤岛。由于该网络是异构网络,节点可能具有多种随机游走路径,因此根据节点类型和关系类型定义了13种元路径(meta-path),如下图所示,其中元路径可以系统地捕获异构信息网络中对象之间的语义关系。
最终可使用机器学习算法进行应用研究。例如:使用随机游走算法计算节点间相似度概率以进行朋友/话题推荐,探究不同文化/语言情境下的社交媒体中话题流行度特征、动力学特征、情感分布、信息传播模式等的差异,挖掘不同背景的群体对于国际公共议题更细粒度的观点信息,基于信息孤岛中人群的某些特殊行为特征发现并探索新的研究问题等。
参与本次讲座的3000余名观众积极提问,问题主要包括:如何从用户的视角研究filter bubble,如何定义给定话题下的用户相似度,个人实践层面如何打破社交媒体平台构造的信息孤岛,过滤气泡(Filter Bubble)、回声室效应(Echo Chamber)和信息茧房(Information Cocoons)之间的区别和联系,社交网络分析(social network analysis)和图挖掘(graph mining)在方法操作和应用层面的特征比较,文本分类模型等。刘晓钟副教授一一详细解答,并对信息孤岛现象和条件概率下的用户相似性做进一步阐释。
【论文出处】 Liu, X., Xia, T., Yu, Y., Guo, C., & Sun, Y. (2016). Cross Social Media Recommendation. In Tenth International AAAI Conference on Web and Social Media. Cologne, Germany.
讲座回放入口:
讲座版权归主办方所有,仅供个人学习,严禁任何形式的录制、传播。一经发现将依法保留追究权。
制版编辑 姚志臻
END
学术活动 | 2020图书情报青年学者国际论坛(一)(9.17,线上参会)
学术活动 | 2020图书情报青年学者国际论坛(线上会议,9.17日起)
学术活动|吴江 社会网络计算: 在线社区关系、科研主导力如何形成和演化?