查看原文
其他

学术活动|讲座纪要 吴江 社会网络计算:在线社区关系、科研主导力如何形成和演化?

图书情报知识 图书情报知识 2022-06-09


供稿|吴逸姝 司湘云


社会网络用于表示节点之间相互连接的社会组织方式,在社会高度互联的数字时代,如何对社会网络进行研究,又如何运用社会网络分析方法进行研究?2020年8月24日晚,“面向图情档研究问题的研究方法系列讲座(第二期)”第7讲特邀武汉大学吴江教授进行题为“社会网络计算:在线社区关系、科研主导力如何形成和演化?”的报告。讲座主要从社会网络计算思维、社会网络计算理论和社会网络计算应用三个方面展开。



01

社会网络计算思维

随着数据技术和互联网的兴起,社会网络研究的著名学者科尔曼教授认为社会网络革命和移动革命、互联网革命并列为新时期影响人类社会的三大革命。虽然社会网络革命最先出现,目前在游戏、影音、电商、知识分享等领域也存在大量应用,但并没有受到人们的足够关注。高度互联的商业社会中,三大革命的成果在数字化时代交汇融合,那么应该如何对社会网络进行研究?如何使用社会网络分析方法?


(1)关联数据→网络

在当前高度互联的社会中存在着大量的有关联关系的数据,例如存在引用与被引关系的文献数据、专利数据等,众多文本数据和结构化数据经过自然语言处理、文本挖掘等操作后均可转换为关联数据。之后可以使用不同的技术方法对关联数据进行存储、融合、挖掘、分析,揭示数据中隐含的规律,从而辅助决策等(如下图)。其中,网络用于表示诸多对象及其相互联系,是表示关联数据的重要形式之一,因此可用来分析各种复杂多变的关联数据。例如:使用论文作者所在单位的地理位置信息,基于文献引用的关联数据构建知识贸易网络,以此研究科学知识的流动与影响力评价,见下图。


(2)网络→社会网络

网络,由节点和连边构成,用于表示诸多对象及其相互联系;而社会网络是表示各种行动者及其社会关系所构成的社会结构的网络,其中行动者(actors,即节点)可以是任何一个社会单位、社会实体或功能个体,行动者之间相互的关联即为关系纽带(Relational tie)。


社会网络分析思想萌芽于西方社会学研究,起源于学者Émile Durkheim的社会结构理论和Georg Simmel的社会互动理论,之后Alfred Radcliffe-Brown发展了结构功能论;20世纪60年代,学者 Harison White等利用图论和定量分析方法对网络结构进行有效的测量,并创建了“机会链”理论等;学者Granovetter创建了“弱连接优势”理论等;直至1978年国际网络分析网组织(INSNA) 成立,标志着社会网络分析范式的正式诞生。

社会网络思维指通过“事物+联系”的方式来理解社会网络,需要考虑三个方面,即“事物”表示什么、“联系”表示什么以及网络的拓扑结构。

图情领域中部分“网络”概念的提出详见下图。图情领域中,对于文献数据、专利数据和政策数据的研究居多,例如:文献包括题目、摘要、关键词、作者、正文等要素,学者常常基于文献数据构建论文引文网络,并且可以进一步地拓展为作者引用网络、机构引用网络、地区引用网络、学科引用网络、期刊引用网络等。在此过程中,事物(节点)发生了变化(从论文转变为作者、机构等),网络的意义也随之发生变化。如下图,部分网络为有向网络,部分网络为无向网络。网络的分析层次/层面包括节点及其连边、社区、拓扑结构、网络演化机制等。

社会网络具有众多应用场景,例如在电子商务场景中可以从消费者的购买数据中获取消费者与商品的关联数据,构建以消费者与商品为节点的二模网络,可进一步将该二模网络分解为以消费者为节点的社会网络和以商品为节点的商品网络,进而进行协同推荐等。


(3)社会网络→社会网络计算

如何对社会网络进行计算并发现相应规律?


社会网络计算的基础是计算社会科学和社会计算。学者谢宇(2006)在论述社会科学与自然科学的本质区别时提出:自然科学是以“发现”永恒的、抽象的、普遍的真理为最终目的,反映了自然界的同质性;社会科学则以“理解”暂时的、具体的、特定的社会现实为最终目的,反映了社会中的异质性。社会网络研究从传统社会科学开始,在大数据时代应该从静态到动态、从单个网络到混杂网络、从单层到多层网络扩展,而且越来越借助数据和建模,在社会科学本质的基础上,越来越像自然科学的计算社会科学研究。另一方面,人类进入后工业化时代,科学研究越来越复杂,社会计算的概念应运而生。该概念于1994年提出,指以软件为媒介进行社会群体协作和社交的应用和方法,可以是任何一种类型的计算应用;之后逐渐发展为一门交叉学科,指使用跨学科的工具,通过计算和分析,揭示社会发展规律,从而解决各种复杂性社会问题的方法论。其中包括社会网络分析、系统动力学、仿真等方法。


如何使用社会网络计算的思维来理解诸多复杂的社会现象?需要特别思考“事物+联系”的重要性、数据的重要性和计算的重要性(如下图)。例如:从多个维度了解某用户的相关部分(如他/她购买了哪些商品、有哪些朋友等)及其关联性以更好地理解该用户;根据链接的数量及链接结构的重要性等多方面洞察“联系”的重要性;定量计算模型指标后,更重要地,理解与解释指标背后的社会性含义。

社会网络计算的应用示例如下所示:



02

社会网络计算理论

社会网络研究领域有众多经典理论,例如结构洞理论、强/弱关系理论、小世界理论等,具体见下图。后文将对部分经典理论进行简单介绍。


(1)社会网络中的三元闭包

社会网络中的三元闭包原理指:如果两个互不相识的人有了一个共同的朋友,则他们俩将来因为某些因素(例如机会、信任、动机等)成为朋友的可能性会提高。该原理由学者Anatole Rapoport于1953年提出,用于揭示社会网络演化的基本结构性原因。三元闭包在一个节点上的凝聚力大小可用聚集系数进行测度,例如:节点A的聚集系数=A的任意两个朋友之间也是朋友的概率(即邻居间朋友对的个数除以总对数)。


(2)社会网络中的强弱关系

理解社会网络中的强弱关系有两种视角:关系视角和结构视角。


如何在同圈子中进行交流,并且如何跳出同圈子以发现异质性的信息?从关系视角,学者格兰诺维特提出弱关系理论。在下图示例中,A-B边是一个桥,是联系两个闭合朋友圈的唯一路径,若边A-B的端点没有共同的朋友,则A-B为一条捷径(Local bridge)。捷径更有可能是一个弱连接,通过弱连接更容易跳出同圈子中的同质信息,寻找到异质性信息。

从结构视角理解社交网络中的强弱关系,如下图所示。节点A与B具有相同的度,然而节点B与两条捷径(B-C/B-D)相连,若删除节点B,网络中就会出现一个“空地”,即结构洞(Structural Hole),因此节点B比节点A更重要,其优越性体现在:信息获取优势、创造性放大优势、社交把关(Gate-keeping)的权力等方面。


(3)社会网络中的同质性

社会网络中的同质性由三元闭包、社团闭包、会员闭包共同影响而产生作用,其背后的社会学原理是社会选择和社会影响。如下图所示,孙杨和吴凡都是李明的朋友,那他们俩有极大的可能性也成为朋友,这就是三元闭包;李明的朋友吴凡是空手道俱乐部的会员,那么李明也有可能加入空手道俱乐部,这是会员闭包;吴凡和张宁都是空手道俱乐部的成员,则他们两人大概率会成为朋友,这就是社团闭包。

那么社会选择和社会影响的作用孰先孰后?大量研究表明,两人认识之前,相似性的变化主要是社会选择的作用;两人认识之后,相似性的变化主要是社会影响的作用。在此过程中,社会选择和社会影响交错产生作用。


(4)社会网络中的正负平衡

在社会心理学视角下,三人组成的群体中可能存在多种关系,如敌人/朋友、支持/反对等。如下图所示,(+ + +)的关系是平衡的,(﹣﹣+)的关系也是平衡的,可以理解为敌人的敌人就是朋友。结构不平衡的网络中隐含一种改变的力量(趋势)。

在大规模网络中,可以通过宽度优先搜索算法进行遍历,从而判断其是否平衡。其中节点的符号取决于父节点的符号和连边的符号。如果遍历后存在一条边两个端点的符号相等,则该网络为非平衡网络。


(5)社会网络中的小世界

社会网络中存在很多小世界现象,其产生主要来自两种力量,一种是三元闭包和同质性,另一种是弱联系。是否能够构建一种模型,既可以体现这两种力量的作用,也便于人们分析其中是否有小世界现象?学者邓肯沃兹定义了一种网格图,如下所示,在网络中存在许多“三角形”和少数随机的“远程边”。

如何判断现实中的网络是否具有小世界性?小世界特性对应着一个有高度集群性的网络,特征是:网络中与某节点相连的节点相互之间也相连的可能性较高,即其平均聚类系数(Average Clustering Coefficient,简称CC) 较高;网络中的任意节点通过中间节点连接到另外一个节点的距离较短,也就是平均最短路径(Average Shortest Path Length,简称PL) 较短。因此,小世界网络具有较高的CC_ actual和较低的PL_ actual值,将二者与随机网络中的两个指标(CC_ random和PL_ random)进行比较,即计算CCr=CC_ actual / CC_random和PLr =PL_ actual/ PL_ random,如果CCr/PLr>> 1,那么实际网络就存在小世界特性,反之则不存在(Watts &Strogatz, 1998)。


(6)社会网络中的幂律

在自然科学与社会科学中,存在很多现象服从幂律分布。优势链接模型可用来解释幂律的成因,具体如下图。



03

社会网络计算应用

社会网络存在静态到动态的变化过程,其演化影响因素可分为结构效应(内生性)、属性效应(外生性)和速率函数三类。其中结构效应包括互惠性、传递三元组、三元环等,属性因素包括ego效应、alter效应、same效应、similarity效应和higher效应。我们不仅需要探究网络的各种指标随时间变化的趋势,例如宏观指标(节点数、图密度等)、微观指标(平均度、平均权重等)、小世界指标(平均聚类系数、平均路径长度等)等,更重要地,还应探索与发现网络的边形成与终止的内在机理。随机行动者模型和仿真模拟方法均可用于探究网络连边的变化原因。


案例一:

在线医疗社区中用户关系演化研究

在线医疗社区中产生了各种链接关系和内容。在社区中,用户链接是如何产生的,以及用户为何会成为朋友?即用户属性和网络结构是如何影响医疗社区用户关系的演化?本研究使用SIENA工具,基于社会网络的历史纵向数据来推测社会网络结构演化的因素。研究发现年龄、性别、会员类型、主题数、好友数、在线时长等属性因素影响显著,三元闭包等结构因素影响显著。


案例二:

人肉搜索模拟研究

如何设置合适的应对预案以应对网络突发下各种人肉搜索?由于无法在现实生活中实施实验,因此本研究采取模拟实验的方法,设置目标信息源和网民两类智能体,探索不同网络拓扑结构、目标信息源的分散度和网民搜索能力的异质性对于人肉搜索效率的影响。研究发现:随着网络随机性的增加,人肉搜索速度也相应加快;适度的网民搜索能力异质性能够提高人肉搜索速度等。


案例三:

科研合作中机构间科研主导力及邻近性机理

目前,科研合作已成为一种符合主流的发展趋势。科研论文的第一作者与通讯作者往往是整篇文章的主导者,对整个科学研究过程起到主导与推动作用。那么,如何量化科研合作中的主导关系以更深入地探究科研团队的合作?科研主导扩散又如何受邻近性因素的影响?


本研究提出了“科研主导力”的概念与测度,并以中国生物医学领域为例,全面系统地探究了不同邻近性对科研主导关系形成的影响。具体地,科研论文主导力测度和模型如下图,科研合作的邻近性包括地理邻近性、认知邻近性、制度邻近性和社会邻近性等。研究发现:在中国生物医学领域,科研主导力两极分化严重、科研主导力越来越互惠,地理距离显著阻碍科研主导力的扩散,认知邻近性、制度近邻性和社会近邻性对科研主导力的形成有显著的促进作用。

综上,社会网络计算用于分析高度互联社会中的问题,进而发现互联社会中的规律、验证互联社会的运作机制,最终理解复杂的社会现象,如下图。具体过程包括:通过数据调查、数据爬取和大数据抽样等方法获取数据;然后构建社会网络,其中应明晰网络中节点的属性、边的方向性与权重等;之后计算并解释社会网络的各项指标,可视化网络并进一步理解社会网络的结构以解释节点与连边的组成原理及背后的社会性含义,通过统计分析方法(回归分析、因果分析等)探究并解释网络结构与外部因素的联系;最终,揭示与发现互联社会的规律。

参与讲座直播活动的2600多名观众踊跃提问,问题包括:社会网络的演化及其解释、社会网络中权重的性质与特征、社会网络数据的采集方式、多模网络的构建与分析、空间位置的连接及其可视化等等。吴江教授一一详细解答。



讲座参考资料


讲座回放入口

讲座版权归主办方所有,仅供个人学习,严禁任何形式的录制、传播,一经发现将依法保留追究权。


制版编辑 | 卢慧质


--END--


学术活动|讲座纪要 闫慧 田野调查:手机素养会失灵吗?

学术活动|讲座纪要 孙永强 问卷调查与结构方程模型:信息差异会影响人的信息采纳决策吗?

学术活动|讲座纪要 史冬波 因果推断的反事实框架: 如何选择合适的方法?

学术活动|讲座纪要 李月琳 案例研究:战略规划人员如何搜寻信息?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存