在带有节点属性的统计学合作者网络中进行社区发现
今天跟大家分享的是一篇发表于2023年STAT的文章,文章探索了一个由统计学者构成的合作者网络,并对这个网络进行了社区发现的研究。
Zhang Y, Pan R, Wang H, et al. Community detection in attributed collaboration network for statisticians[J]. Stat, 2023, 12(1): e507.
一、引言
目前,越来越多的学者倾向于合作发表论文。通过合作,知识可以更好地传播和共享。此外,对学者之间的合作关系进行研究可以有效识别不同学科的发展情况。一种常用且有效的方法是研究学者构成的合作者网络。通过对相关文献的梳理,文章发现探究合作者网络的以下三个方向是非常有意义的。
首先是合作模式。在网络分析中,最受关注的问题之一是识别合作模式。Moody (2004)研究了1963-1999年间社会科学领域合作者网络的结构。他们的研究结果表明,社会学领域合作者网络的参与依赖于研究的专业性。Ҫavuşoğl和Türker (2013)分析了1980年至2010年土耳其的科学合作者网络,而不局限于某个特定的领域。他们的结果表明,学者近年来合作更频繁,且网络具有很强的关联性。从合作者的角度,Gel et al. (2017)比较了统计学者和计算机科学的学者可能拥有的合作者数量。
其次是社区结构。在合作者网络中,社区结构是一个常见的特性。社区内的网络连接是密集的,而社区间网络的连接是稀疏的。发现合作者网络中的社区结构是非常重要的,因为它可以将一些学者聚集成一个社区,即使他们之间没有直接的合作关系。此外,通过社区发现,可以获得一些有用的信息。例如,挖掘社区的研究主题,研究合作关系的作用机制,推荐合适的合作者等。
最后是合作偏好。同质性是社交网络中的一种普遍现象,描述了行动者和与其相似的行动者建立连接的方式。Zhang et al. (2018) 分析了信息检索领域的合作者网络。他们的研究表明,考虑同质性有助于我们更全面地理解科学合作。同质性鼓励具有相似背景的作者一起工作,因为他们在交流时往往障碍较少。因此,探索学者合作的同质性是非常有意义的。
文章分析了2001-2018年43个统计学期刊上发表论文的作者构成的合作者网络。首先应用edge cross-validation(ECV)的方法来确定社区数量。然后,扩展attributed network clustering algorithm(ANCA)方法,将节点的连续属性和分类属性结合起来进行社区发现。通过对合作者网络的分析,文章试图回答以下问题:
在过去的18年中,统计学的发展和学者之间的合作模式发生了怎样的变化? 是否可以通过引入作者的属性来识别合作者网络中的社区? 在选择合作者时,统计学者的偏好是什么?是否可以据此推荐合适的合作者?
二、合作者网络
1.数据收集
该数据集来源于“Web of Scienc”( https://apps.webofknowledge.com/),涵盖了2001年1月至2018年5月43个统计学期刊的文章。期刊包括Annals of Statistics (AoS)、Biometrika、Journal of American Statistical Association (JASA)、Journal of Royal Statistical Society (Series B) (JRSS-B)等。在数据清洗部分删除了诸如讨论、评论、回复、答复、信件、勘误、更正、复辩、注释、批注、更正、增编、编辑、序言等文章。剔除上述条目,共得到55,024篇文献。对作者姓名进行数据清洗后,得到50,487位作者。数据清洗的详细过程可以在文章的2.2小节中找到。收集到的论文信息见表1。
2.作者属性
作者属性可以提供一些关于作者的信息,有助于社区发现。文章为每个作者构建了两个分类属性和30个连续属性。分类属性包括作者发表论文数量等级和所在地区。对于“作者发表论文数量等级”,论文数量不超过5篇的作者被标记为低产作者;论文数量超过5篇且不超过10篇的作者被标记为中-低产作者;发文量在10篇以上且不超过20篇的作者被标注为中-高产作者;论文数量超过20篇的作者被标记为高产作者。在50,487位作者中,低产作者占91.39%,中-低产作者占4.85%,中-高产作者占2.47%,高产作者仅占1.29%。可以看出,2001-2018年,大部分作者在43个期刊上发表的论文不超过5篇,只有少数作者发表的论文数量较多。
对于“作者所在的地区”,文章收集了每个作者所属的地区,并选择最常用的地区作为该作者所在的地区。其中,1,743位作者没有隶属关系,因此他们所在的地区被记录为“未知”。其余作者来自129个不同的地区。作者数量最多的前五个地区分别是美国、中华人民共和国、英国、法国和德国。表2显示了五个地区的作者数量。在50,487位作者中,16,026位作者来自美国,占比31.74%,远远超过其他地区的作者数量。美国高产出作者比例最高,约为1.75%,高于平均水平。
连续属性包含每个作者关于30个主题的概率估计值。文章使用latent Dirichlet allocation (LDA)从论文标题中提取了30个主题。然后,构造一个文档-主题矩阵,其中为标题数,为主题数。表示标题中主题的概率,其中和。对于每位作者,收集他/她发表的论文的标题,并计算30个主题的平均概率。例如,作者发表的论文标题为。那么该作者对主题的估计概率为。根据每个主题的关键词可以归纳出30个主题,包括“次序统计”、“变量选择”、“时间序列”等。
三、合作模式
图1(a)展示了2001-2017年统计学者的数量变化。过去17年间,每年作者数量从3,243人增加到8,974人。在2005-2008年和2015-2017年期间有大幅度的增长。这表明,统计学吸引了越来越多的研究者,同时统计学者之间的竞争越来越大。图1(b)展示了2001-2018年每篇论文的平均作者数。18年间,平均每篇论文的作者数从2.02人增加到2.62人。这表明统计学者的合作规模越来越大。图1(c)呈现了合著论文比例的变化趋势。18年间,这一比例从0.70上升到0.84。尤其是在2007-2012年期间,呈现出持续增加的趋势。这一现象表明,近年来研究者倾向于与他人合作发表论文,单独发表论文的难度也越来越大。
传递性是合作者网络的一个常见特征。它衡量了如果节点和节点都与节点相连,那么节点和相连的概率有多大。在合作者网络中,传递性表明,如果作者A和作者B是合作者,而作者A和作者C也是合作者,那么作者B和作者C是合作者的可能性较大。文章使用全局聚类系来量化合作者网络的传递性。整个合作者网络的全局聚类系数为0.180。这意味着合作者网络中存在一定比例的三角形。另外,如果两位作者与同一位作者合作,那么这两位作者合作的概率为0.180。在5.3节中,文章进一步使用传递性来推荐合作者。
四、社区发现
合作者网络既是描述学术关系的网络,也能传达知识结构。相应地,通过社区发现,可以挖掘学者关系的拓扑结构以及知识的传播。在本节中,文章对核心网络中最大的连通分量进行社区发现。这些学者来自不同的地区和单位。根据这些学者的属性,可以探索出统计学的研究主题和统计学者的合作偏好。
1.核心网络
许多网络具有核心-边缘结构。核心包含密集连接的节点,边缘包含与核心弱连接的节点。在后续的分析中,文章主要集中于探索合作者网络的3-核心网络。该核心网络有1,489位学者和3,414条边。密度为0.31%,远大于原始网络。3-核心网络中共有77个连通分量。最大连通分量有1,109个节点,占核心网络的74.5%。图2展示了3-核心网络的网络结构。不难看出,除了最大连通分量外,其他连通分量都较小,每个都可被视为一个社区。
2.社区数量
文章利用ECV (Li et al., 2020)来确定3-核心网络的最大连通分量中的社区数量。该算法的主要思想是通过拆分边来进行交叉验证,具体步骤可参考文章4.3小节。通过ECV选择最大连通分量中的社区个数为48。
3.社区发现
在确定社区数量后,文章进一步使用ANCA (Falih et al., 2017)对其进行社区发现。ANCA同时考虑了节点属性和网络结构,从而得到更精确的社区发现结果。为了表示网络结构,文章采取与Falih et al. (2017)相同的步骤。对于节点属性相似度,文章根据Steinhaeuser and Chawla (2008)中的度量方法扩展了Falih et al. (2017)中的方法,使得分类属性和连续属性可以同时处理。具体算法可参考文章4.3小节。
五、主要结果
对每个社区进行深入的分析是很重要的。为了解释这些社区,文章考虑了学者的社会和学术信息。由此可以发现社区之间研究主题的差异以及研究人员之间的合作模式。
1.研究主题同质性
表3列出了人数最多的前10个社区,并且展示了每个社区中作者发表的论文数和出现次数最多的三个关键词。根据关键词可以总结出热门的研究主题,包括非参数方法、半参数方法、贝叶斯分析、降维等。此外,还可以找到一些常用的统计方法或思想,如极大似然法、MCMC、狄利克雷过程等。
已有研究表明,研究人员可以通过选择相似研究主题的合作者来增强科学凝聚力和融入性。因此,文章进一步探究了每个社区的研究主题分布情况。根据每个作者的连续属性,在30个主题中选择概率最大的主题作为作者的首要研究主题。然后统计30个研究主题在每个社区中出现的次数。图3展示了人数不小于30的11个社区中主题的分布情况。为了更好的呈现,对每个社区中主题出现的次数进行了标准化。在图3中,颜色越深,说明该社区中研究相应主题的作者越多。不难看出,同一社区内作者的研究主题相对集中。此外,还有少数社区中的学者关注不止一个研究主题。例如,社区3的作者在次序统计(主题4)、删失数据建模(主题9)和非参数方法(主题22)等领域进行了大量研究。
2.有影响力的学者
在每个社区中发现最有“影响力”的作者是非常有趣的。中心性是一种方法。文章主要关注度中心性和介数中心性。对于度中心性,文章考虑两种类型的网络:作者-论文双模网络和合作者网络。在作者-论文双模网络中,节点代表作者和论文,边代表作者发表论文的行为。在该网络中,作者的度中心性是指作者发表论文的数量。对于合作者网络而言,作者的度中心度即其合作者的数量。介数中心性衡量的是一个节点在其他节点对的最短路径上出现的频率。从结构上看,具有高介数中心性的节点更倾向于充当连接网络不同部分的桥梁。在合作者网络中,介数中心性高的作者更有可能与不同的社区进行合作。文章展示了在人数最多的前5个社区中,通过不同的中心性度量方法识别出的有影响力的作者。具体结果见原文5.2小节。
3.合作者推荐
已有研究表明,个体之间的关系受到其地理位置和工作地点的制约。为了探索学者合作的空间特征,文章采用Pearson’s 检验分别确定作者所属机构和地区是否独立于社区结构。对于每位作者,选取其最常用的机构/地区。检验结果表明研究人员的结构和地区与其社区结构不独立。以社区20为例,该社区包含22名学者。图4(a)展示了社区20的学者所在的机构。一半的学者来自昆士兰理工大学,另一半来自7个不同的机构。从地区来看,图4(b)更加聚合,除了英国和法国的3名学者外,其余学者都来自于澳大利亚。因此,合作呈现出地域偏好:学者倾向于与相同或邻近机构或地区的人进行合作。这种现象被称之为空间邻近同质性。
在了解学者的合作偏好后,可以为每位学者推荐合适的合作者。同一社区的学者有相似的研究主题和相同或相近的研究机构。因此,同一社区的学者是很好的合作者候选人。此外,传递性是推荐合作者的另一个关键要素,因为如果研究人员有共同的合作者,他们更有可能会合作。通过考虑作者的受欢迎程度,文章提出了一个共同邻居指标。根据社区和该指标,可以为学者们推荐合适的合作者。
六、与其他方法的比较
文章将ANCA与其他社区发现算法包括k-means、leading eigenvector和SCOR进行比较。k-means方法只考虑了节点的属性,而leading eigenvector和SCORE只考虑了网络结构。为了比较不同社区发现结果的优劣,使用Modularity、Density、Internal Density和Conductance来衡量社区划分的好坏。这四个指标值越大,表明社区发现效果越好。比较结果可见原文第6节。结果表明节点属性和网络结构的融合有助于更好的社区划分。
七、结论
文章收集了2001-2018年发表在43个统计学期刊上的论文,分析了统计学者的合作模式。研究结果表明,越来越多的学者投身于统计学研究。与此同时,竞争与合作的趋势也在加强。然后,文章构建了一个带有节点属性的合作者网络,并在其核心网络上进行社区发现。在社区发现的过程中同时考虑了网络结构和节点的属性信息。此外,文章对ANCA进行扩展,使其能够处理具有分类属性和连续属性的网络。在合作者网络中可以观察到两种同质性,即研究主题同质性和空间邻近同质性。此外,文章找出了每个社区中有影响力的学者,并通过考虑社区和共同邻居来为学者推荐合作者。最后,文章将ANCA与其他三种方法进行了比较,结果表明ANCA的表现优于其他方法。
参考文献
Moody, J. (2004). The structure of a social science collaboration network: Disciplinary cohesion from 1963 to 1999. American Sociological Review, 69(2), 213–238.
Ҫavuşoğl, A., & Türker (2013). Scientific collaboration network of turkey. Chaos, Solitons & Fractals, 57,9–18.
Gel, Y. R., Lyubchich, V., & Ramirez, L. L. R. (2017). Bootstrap quantification of estimation uncertainties in network degree distributions. Scientific Reports, 7(1), 1–12.
Zhang, C., Bu, Y., Ding, Y., & Xu, J. (2018). Understanding scientific collaboration: Homophily, transitivity, and preferential attachment. Journal of the Association for Information Science and Technology, 69(1), 72–86.
Li, T., Levina, E., & Zhu, J. (2020). Network cross-validation by edge sampling. Biometrika, 107(2), 257–276.
Falih, I., Grozavu, N., Kanawati, R., & Bennani, Y. (2017). ANCA: Attributed network clustering algorithm. In International Conference on Complex Networks and Their Applications, Springer, pp. 241–252.
Steinhaeuser, K., & Chawla, N. V. (2008). Community detection in a large real-world social network, Social computing, behavioral modeling, and prediction: Springer, pp. 168–175.