融合机构与研究兴趣的统计学者合作者网络链路预测研究
宋熙卓然,中央财经大学统计与数学学院本科生,复旦大学管理学院硕士生。
今天跟大家分享的是合作者网络的链路预测研究,原论文:Song, X., Zhang, Y., Pan, R., and Wang, H. (2022), “Link prediction for statistical collaboration networks incorporating institutes and research interests,” IEEE ACCESS, 10, 104954—104965.
一、引言
学术合作具有节约成本和传播思想和见解的优点,建立新的合作关系是科学进步的驱动力之一。因此,对科学合作进行统计分析非常重要。合作者网络是一种分析和建模合作者之间关系的常用方法,合作关系通常是由共同作者身份进行定义。关于合作者网络的研究目前已经覆盖了多个学科领域,如生物学、物理学、数学、计算机科学和统计学等。通过网络分析,可以探究出网络的社区演变、研究模式以及趋势等。
随着研究者的数量增多,对于一个研究者而言,如何选择合作者是一个较难的问题。因此,给科研工作者推荐合适的合作者成为热门的研究主题。从合作者网络的视角来看,合作关系可以用合作者网络来刻画,其中,节点代表作者,连边代表两个作者至少共同发表过一篇论文。合作者的推荐问题可以视为链路预测问题。链路预测对两个不相连的节点在未来相连的可能性进行预测,这种预测通常基于网络结构属性和节点属性。Kumar等人将链路预测方法分为三类:基于相似性的方法、概率和极大似然方法以及降维方法。基于相似性的方法简单且使用广泛,它给每一对节点对计算相似性得分,得分最高的前𝑛个节点对被预测形成连边。这种方法可大致分为基于拓扑信息和基于节点信息的指标。基于拓扑信息的指标使用网络结构信息如共同邻居的数量等。基于节点的信息主要使用节点属性。例如,tuninetti等利用论文的引用关系和共同关键词预测新的合作关系。这两种指标从不同角度为链路预测提供了丰富的信息。因此,可以将这两种指标结合进行链路预测。
本文主要采用基于相似性指标的方法在合作者网络上进行链路预测。首先我们使用20个相似性指标和两个基于节点属性的指标,基于这些指标,本文为统计学者进行合作者推荐,并探究了以下问题:
从动态视角来看,统计学者的合作者网络有什么特点? 除了基于拓扑信息的指标,如何构造其他指标提高链路预测能力?本文提出了两个基于节点属性的指标,分别为“研究兴趣相似度”和“地理位置相似度”,结果表明这两个指标能够明显提升预测效果。 如何将多个自变量结合来进行预测?之前的研究通常是使用单一的相似性指标进行预测,本文使用机器学习的分类算法,将不同的指标结合,提高预测效果。
二、数据描述
(一)合作者网络
本文的论文发表数据来源于“web of science”网站(www.webofscience.com)。首先选取43个统计学著名期刊,包括Journal of the American Statistical Association (JASA) 、Journal of the Royal Statistical Society, Series B ( JRSSB) 、Annals of Statistics、Biometrica等。其次,收集从2001-2018年发表在这些期刊上的论文数据,对于每一篇论文,得到其论文题目、发表年份、关键词以及作者信息,如表2所示。本文得到的合作者网络具有47,546个节点,95,666条边,密度为,说明这一网络非常稀疏。令表示该网络的邻接矩阵,其中n是作者(节点)数量。如果作者和作者之间有合作关系,那么,否则为0。对于矩阵的对角线元素,令。此外,由于合作者网络是无向网络,因此邻接矩阵是对称矩阵,即。
表 2 论文发表数据示例在合作者网络中,节点的度的实际含义是一个学者拥有的合作者数量。图2展示了整个合作者网络节点度的直方图,可以看出,节点的度呈现严重的右偏分布。经过统计发现,网络中超过一半的学者仅有一到两个合作者;只有很少一部分学者有较多的合作者。度较高的学者往往被识别为网络中的重要节点。在本文的合作者网络中,度最高的学者是来自McMaster University的Narayanaswamy Balakrishnan教授,他在网络中有高达292个合作者。在2001-2018年间,他参与发表了385篇论文,研究兴趣包括可靠性理论,生存分析,定性数据分析和非参数统计等。这位教授在统计学领域的研究较为活跃,研究兴趣较为广泛,因此拥有较多的合作者。
图 2 合作者网络节点度分布直方图网络结构可以通过绘制网络结构图直观地展示,由于整个网络规模巨大,因此对于原始网络提取核心网络进行展示分析。本文选取6-核心网络进行分析,如图4所示。核心网络具有2,675个节点和13,322条边,网络密度为0.004。位于最中心,度数最高的节点是Raymond J Carroll教授,在核心网络中的度为109。核心网络中度最大的节点与整个网络中度最大节点并不相同,这是因为在提取核心网络的过程中,度较低的节点被逐个删去,因此剩余节点的度会减少。核心网络中节点度较高,则说明这一节点的邻居被保留下来的较多,即这一学者的合作者同样在统计学研究领域发挥着较大作用。
图 4 合作者网络的6-核心子图传递性是社交网络的重要性质。它反映了网络中经常存在的现象:若两个节点同时与第三个节点相连,那么这两个节点间往往也会产生连边。传递性较高的网络通常包含很多社区,社区的内部节点连接更为紧密。这种特性在图4中有体现。图4网络中存在很多研究团体,在研究团体内部的作者之间有较为紧密的合作关系,而团体之间则很少存在甚至不存在合作关系。传递性可以使用聚类系数(clustering coefficient)来定量刻画。聚类系数代表两个有着共同合作者的学者,他们之间产生合作关系的可能性。本文所研究的合作者网络的聚类系数为0.23。不同研究领域的合作模式不同,因此聚类系数不同。例如,生物学科的合作者网络聚类系数为0.066,低于本文的统计学合作者网络,而理论物理领域的合作者网络聚类系数为0.33~0.43之间,明显较统计学合作者网络更高。
为了探究合作模式的动态变化,本文构建2001-2017年逐年的合作者网络。图5(左)展示了每年合作者网络节点和连边数量的变化,两者都呈现出上升的趋势。网络中的研究者数量从2,811增加至8,466人,合作关系从2,844上升至12,271对。这说明有越来越多的新研究者加入统计研究领域,且更多研究者倾向于开展合作。图5(右)展示了节点平均度随时间的变化,节点平均度代表了平均每个研究者拥有的合作者数量,在这几年间从2.02上升至2.90,说明研究者的合作者数量也在增加。由此来看,预测和推荐新的合作关系,对于研究者而言是较为重要的,而这一工作可以通过合作者网络的链路预测方法实现。
图 5 逐年合作者网络中节点、连边数量(左)和节点平均度的变化(右)(二)链路预测分类数据集构建
将链路预测建模为二元分类问题,需要构建相应的数据集。首先根据论文发表时间,将论文发表数据分为两个部分。以2015年为划分节点,2001-2015年的数据用于构建原始网络(),由于相似性指标只能在连通图上进行计算,因此对进一步提取其最大连通分量作为训练网络,记为。最大连通分量保留了原始网络中72%的节点。同时,再利用2016-2018年的数据构建测试网络,两个网络的基本统计指标如表3所示。
表 3 训练网络和测试网络的基本统计指标链路预测可以预测未来产生的新链接。对于训练网络的所有空节点对而言,未来一段时间内(即测试网络的时间段)是否产生连边可以看作二分类问题的因变量。因此,链路预测作为二分类问题,需要分类数据集进行模型训练。数据集的构建方法如图6所示。首先得到训练网络和测试网络的共同节点,即节点集合和的交集,在图6中以绿色节点表示;蓝色和黄色节点分别代表和中除共同节点外的其他节点。其次得到基于节点集合V的导出子图,找出中没有形成连边的节点对,在图6中以虚线表示。对于这些节点对,观察它们在测试网络中是否形成连边,若有则标记,若无标记,作为分类数据集的因变量。新产生的连边在图6中以黑色实线表示。例如,节点对在中没有连边,为虚线,在中形成了连边,则对应在数据集中的因变量为1;节点对也为虚线,但在中同样不存在连边,故因变量记为0。由于网络规模较大,因此空节点对的数量较多,而形成连边的空节点对只占很小一部分,因此数据极度不平衡。为解决此问题,本文采取欠采样的方法,随机去除的部分观测,使得与两者的比例达到1:9,最终数据集包含34,350个节点对。
图 6 分类数据集的构建流程三、研究方法
(一)基于相似性的方法
基于相似性的方法被广泛应用于链路预测问题[15]。此方法对于一个网络中的每个节点对i和j计算相似性得分,并形成对称矩阵。相似性得分越高,则对应节点对之间越有可能形成链接。
表4中列出了本文所使用的20个相似性指标,Kumar[15]将这些指标分为三类,即局部指标,准局部指标和全局指标。划分依据为该指标的计算所用到网络信息的多少。
(二)基于节点属性的指标
相似性指标仅关注网络的拓扑信息,然而更丰富的信息蕴含在节点属性中。因此可以利用节点属性构造链路预测的自变量,从而提升预测的准确度。在本文的合作者网络中有两个节点属性,分别是作者机构和作者研究兴趣。对于作者机构,这一属性包含了一个作者i在2001-2015年间所工作或学习过的所有机构(通常指大学)用T_i表示。例如,一位教授先在A大学任职,后转到B大学,那么他的所属机构即为A和B组成的集合。在所有数据集涉及到的作者中,65.9%的作者在2001-2015期间只有1~2个所属机构,研究者的机构较为固定。图7展示了按频率排名前十的机构。加利福尼亚大学排在第一位,包含了数据集中233个作者。可以发现,除了伦敦大学外,其余大学均位于美国。
图 7 频率排名为前十的机构一般来说,在同一个大学的两位学者更容易产生合作关系。本文根据作者机构是否相同,构建新的指标SIN(same institute)作为自变量。若两个作者的机构间有交集,则取值为“是”,否则记为“否”。若任意一方的机构缺失,则记为“未知”,用数学符号表示如下:
作者的研究兴趣在一定程度上决定了合作对象的选择。本文使用作者发表的论文关键词,来刻画每位作者的研究兴趣。同时,定义新的指标KMC,度量两个作者之间研究兴趣相似性程度,作为链路预测的自变量。首先,令
四、研究结果
(一)相似性指标
链路预测任务可以使用任何一个相似性指标完成。首先,本文单独使用表4中的每个相似性指标进行统计学合作者网络的链路预测。20个相似性指标通过R语言的linkprediction包中的对应函数计算图9展示了这20个相似性指标之间的皮尔逊相关系数。由图可得,大多数相似性指标间存在较强的相关性。按指标类别来看,局部和准局部相似性指标间的相关性相比于全局指标间更强;按定义来看,定义较为相似的指标间相关性更强,例如局部指标
图10按类别展示了20个指标的ROC曲线。整体来看,全局指标预测效果比局部和准局部更好,全局指标用到了整个网络的结构信息,而局部和准局部仅使用了一部分网络信息。分类别来看,10个局部指标中,除了
(二)基于机器学习的方法
为了结合20个相似性指标和两个构造的自变量,我们使用SVM,XGBoost和RF三种分类算法,对有无KMC和SIN两个指标的模型效果进行比较,十折交叉验证的结果如表所示。由表可得,在添加了SIN和KMC指标后,三个算法几乎各个指标都得以提升,说明地理位置相似度和研究兴趣相似度能够明显提高预测性能。当添加了自变量KMC和SIN之后,RF的AUC值从0.870上升至0.904,TPR从0.441上升至0.480.整体来看,RF+22个指标的组合的AUC值最高。就精确率(precision)而言,SVM+20个指标的组合值最高,为0.874,然而这一组合的AUC和TPR在所有组合中均为最低值。由于链路预测问题更关注正样本是否能够被成功识别,即TPR较精确率更为重要,因此综合来看,XGBoost +22个指标组合与其他模型相比效果最好,适合用来进行合作关系的推荐。
接下来我们利用随机森林,输出变量的重要性,结果如图所示。可以发现,KMC和SIN的重要性排序均较为靠前,其他重要的指标还包括NACT,RWR等。
五、总结
本文收集了2001-2018年来自43个统计学期刊的统计学者合作数据,并基于此数据构建了不同时间的网络,进行链路预测研究和合作者推荐。首先,对于不同阶段的合作者网络,本文展开了丰富的描述性分析,探究统计学者合作者网络的合作模式及演变规律,结果表明,统计学家在过去十几年中合作关系变得更为紧密。其次,本文使用支持向量机,XGBoost和随机森林等模型进行链路预测。在自变量的选取和构造上,不仅选用了体现网络网络结构信息的相似性指标,还基于节点属性,构造了“地理位置相似度(SIN)”和“研究兴趣相似度(KMC)”两个自变量。为了探究各个相似度指标的预测性能,本文首先分别使用20个指标进行链路预测,发现全局指标中的