论文荐读 2019年第4期 | 被引数量、被引质量和被引离散度结合的学术期刊影响力评价研究
题图来自图虫创意网
被引数量、被引质量和被引离散度结合的学术期刊影响力评价研究
高英莲1 李秀霞2 刘金星3
(1.曲阜师范大学图书馆,日照,276826;
2.曲阜师范大学传媒学院,日照,276826;
3.曲阜师范大学信息科学与工程学院, 日照,276826)
摘 要
针对目前指标缺乏被引频次离散度计量的问题,提出一种综合期刊论文被引数量、被引质量和被引离散度的期刊影响力评价指标—GS指数。在分析GS指数合理性的基础上,以Web of Science和Scopus数据库同时收录的54种林业类期刊为例,计算其GS指数并与SJR指数、JIF和h指数进行对比。实验发现,GS指数具有更高的区分度,更好的统计分析能力,能够较好地评价学术期刊的影响力。
关键词
期刊影响力 被引数量 被引质量 被引离散度 期刊评价 学术评价
1
引言
长期以来,学术界对期刊影响力的评价多是基于引用数量展开研究,常用的评价指标有JIF(期刊影响因子)、h指数、g指数、w指数等; 也有学者提出了基于多因素的综合评价方法, 如2011年,李超[1]采用熵权法为影响因子和h指数赋值,提出了 HIF指标;2015 年,伍军红等[2-3]将影响因子与总被引频次进行归一化,提出能够改进自引影响的 CI指标等。以上两个指标主要考虑了论文被引的数量,未考虑引用的质量。随着PageRank算法的出世,2008 年Scopus推出了基于自身数据库的评价指标SJR[4]、汤姆森路透科技集团推出了期刊评价指标特征因子(Eigenfactor,EF)[5]。SJR 指数和特征因子实现了将期刊被引数量与被引质量的有效结合,并于2009 年在我国被正式采用[6-7],上述研究虽然一定程度上提高了期刊影响力的评价效果,但均忽视了期刊被引的离散度问题。
离散度是指一组数据远离其中心值的程度,从集中趋势和分散程度的角度反映一组数据的变动趋势。离散度的计量有多种方法,常用的有标准差、变异系数、泰尔系数、基尼系数等,主要应用于经济领域研究国民收入分配的差异性问题,近年来逐渐被引入到教育、医疗、人力资源管理、图书情报等领域,用于分析财产、资本、市场、资源等分配的均衡程度。离散度计量在期刊影响力评价中的应用研究在国外刚刚起步,代表性研究是2017年Lando等[8]基于GLC曲线提出的一种对JIF改进的指标 Stabilized-JIF,该指标是将离散度计量引进期刊影响力评价的首次尝试。随后,2018年Cockriel等[9]在 Stabilized-JIF指标的基础上,基于Gini 系数提出平均离散指数(Mean Dispersion Indices,MDI),并在期刊影响力评价中收到良好的效果。国内将离散度计量应用于期刊评价的相关研究有:胡文静等[10]运用 Gini系数衡量期刊学科配置的均衡性;俞立平等[11]利用 Gini系数分析期刊评价指标分布差距对期刊评价的影响;盛丽娜等[12]利用影响因子百分位改善影响因子的离散程度;严建新[13]引用 Gini系数描述期刊论文引用分布的不均匀程度,有效地修正了影响因子。以上研究是将离散度纳入期刊评价体系的典型案例,为期刊评价开启了一个全新的视角。
分析发现,国内已有的期刊影响力评价研究主要考虑了被引的数量和质量,尚未发现有考虑期刊被引频次离散度的研究。国外近期虽 有Lando、Cockriel等用离散度反映期刊文献被引频次的相关研究,但又忽视了期刊文献被引的质量问题,鉴于此,本文尝试将期刊论文被引数量、被引质量与期刊论文被引离散度结合,构建期刊影响力评价新指标,以期得到的期刊评价结果更加科学、可靠,也期望被引离散度的引入能够推进期刊影响力评价研究的进程。
2
指标构建
2.1 被引离散度指标Gn
期刊被引的离散度源于期刊被引的均值性,但两者并不相同。篇均被引频次是指期刊总被引频次与载文量之比,反映的是期刊论文被引的平均程度,而离散度反映的是期刊内部所刊载论文被引的差异化程度。期刊刊载文献的被引频次越相近,期刊被引的均衡性越高。本文选用经济学中常用的 Gini系数来衡量期刊被引的均衡程度。Gini系数(Gini coefficient,Gi)是经济学家 A.OHirschman基于洛伦茨曲线提出的一种度量收入分配平均程度的指标,见公式(1)。本文借用公式(1)计算期刊被引频次的差异化程度。
这里,xi、xj 分别表示在时间窗内某期刊第i篇、第j篇文献的被引频次,n表示期刊的载文量。Gn 的取值范围为0—1,Gn 值越接近0,表示期刊所有论文的被引频次越相近,即期刊论文被引分布越均衡;Gn 值越接近1,表示期刊论文被引频次的差异性越大。
2.2 GS 指数构建
SJR是一个将期刊被引数量与质量相结合的综合性指标,其具体计算原理是基于PageRank算法,对高影响力期刊的引用赋予较高的权重,并以此规则迭代计算直至收敛。GS指数由两部分组成:被引离散度指数Gn和SJR。由于SJR是一个正向指标,数值越大越好;而Gn是一个反向指标,数值越小越好。为保证指标构建的一致性,基于Gn值取值范围在 0—1之间,故本文使用(1-Gn)反映期刊文献被引的均衡性,同时,为抵消(1-Gn)因子对GS 的缩减作用,对公式做扩大10倍的处理。鉴于以上考虑,设计GS指数的具体计算公式为:
SJR反映了期刊论文被引的数量和质量特征,Gn反映了期刊论文被认可和被利用的离散程度,GS指数将(1-Gn)作为影响SJR的一个因子,使期刊影响力的评价更全面。
事实上,被引频次及其衍生指标不能完全反映期刊的影响力,一个期刊如果仅有极少数论文被引频次高,而其他论文被引频次很低,甚至没人引用,那么就不能说这样的期刊影响力高,因为期刊影响力是所刊载的所有论文影响力的整体反映,而不是一两篇论文影响力的反映。只有刊载的论文整体被引频次高且被引频次均衡的学术期刊,才具有高的影响力。因此说,在等数量、等质量引用的基础上,期刊论文被引数据分布越均衡,其期刊影响力越高;反之,若期刊论文被引数据仅仅集中于少数几篇论文,则期刊的影响力会相应降低。
需要说明的是,期刊论文的被引数量、被引质量、被引离散度分别反映了期刊影响力的不同层面,因此,在SJR的构建中将被引质量作为被引数量的权重处理,而没有将两者做 “+”法处理。类似的,GS指数也将被引离散度(1-Gn)作为影响SJR的一个因子来处理。正因为不是将两者做“+”处理,所以在指标构建中没有考虑被引数量、被引质量、被引离散度各自在期刊影响力的总体评价中所占比例(权重分配)的问题。
3
实证研究
3.1 数据来源
选取2017年Web of Science数据库和 Scopus数据库同时收录的54种林业类期刊作为研究对象。选择与JIF相同的两年引文窗口,统计 Web of Science数据库中2015 年、2016年两年间上述54种期刊论文在2017年的被引数据。
3.2 计算GS指数
根据GS 指数的计算公式,分别计算54种 期刊的GS 指数值,结果见表1。
表1 4种指标的期刊排名对比表(前20)
为评估GS 指数的评价效果,将其与期刊影响力评价指标 JIF、SJR、h指数进行对比。期刊影响因子(Journal Impact factor,JIF)是表征期刊影响力大小的一项定量指标,指某刊在某年被全部源刊物引证该刊前两年发表论文的次数,与该刊前两年所发表的全部源论文数之比;SJR是利用 PageRank算法对高影响力期刊的引用赋予较高的权重,并以此规则迭代计算直至收敛;h指数是指期刊中至多有h篇论文至少被引用h次,是目前国内外被广泛应用的学术成果评价指标之一。统计 JIF、SJR 和h指数三种指标的数据,详细结果见表1。
3.3 结果分析
3.3.1 GS指数与其他指标的相关性分析
为评估GS指数的评价效果,将其与SJR、 JIF、h指数等期刊评价指标进行Spearman相关性分析,结果见表2。
表2 Spearman相关性检验
由表2可知,在0.01水平(双侧)上,GS 指数、SJR、JIF以及h指数之间均呈显著相关, 相关系数在0.810—0.975之间。其中,GS指数与SJR的相关性最高,相关系数为0.975,这种高度相关性与GS指数的设计原理有关,GS 指数由SJR衍生而来,是对SJR的改进和完善。GS指数与JIF、h指数两种指标的相关系数分别为0.965、0.810,相关性显著,说明GS指数与SJR、JIF以及h指数在期刊影响力评价中具有较高的一致性。JIF、h指数一直是国际上用来评价期刊影响力的通用指标,SJR指标是近年来推出的一个同时考虑了期刊被引数量和期刊被引质量的指标,Butler认为SJR将会以其独特的优势形成对JIF的有力挑战[4],上 述表明GS指数用于期刊影响力评价是可行的,评价结果是可以接受的。鉴于GS指数综合考虑了文献被引的数量、被引的质量以及被引频次的离散度,因此说,GS 指数具有更全面的评价视角。
3.3.2 GS 指数的统计学特征分析
对54种期刊对应的GS 指数进行描述性统计分析,其统计特征如下:极大值为7.954,极小值为0.25,均值为2.700,标准差为1.913,总体波动不大。同时获取其 Q-Q图,见图1。
图1 样本数据正态分布的 Q-Q图
Q-Q图是用来鉴别样本数据分布特征的一种统计图形技术,如果被检验的样本数据的点近似落在一条直线附近,则其理论分布为标准正态分布。从图1来看,54种期刊的GS指数值对应的点基本在一条直线附近,说明期刊对应的GS指数服从正态分布,指标服从正态分布更符合人们的打分习惯[14]。俞立平在分析期刊评价指标的内部差距时发现,目前多数期刊评价指标普遍是右偏的,不服从正态分布,指标数据右偏会导致期刊评价值偏低,影响期刊一般水平的判断,并建议最好选取数据偏倚情况相对较好的指标来评价期刊[14]。可见,服从正态分布的GS指数不失为一个理想的期刊影响力评价指标。
3.3.3 GS 指数的期刊区分能力分析
为判断GS 指数、SJR、JIF和h指数几种指 标的区分能力,计算它们评价结果的标准差 (STDEVP,SD),标准差反映一组数据的发散程度,标准差越大,越发散。四种指标对应的标准差分别为GS(SD)=1.895、SJR(SD)=0.374、JIF(SD)=0.885、h(SD)=31.576,h指数的标准差最大,GS 指数次之,这与两个指标取值较大有关,h指数的最大值是147,GS指数的最大值为7.954。
进一步对比表1评价结果的重合率,用图2展示54种期刊在不同指标下的排名情况,横轴表示期刊,纵轴表示期刊排名情况。
图2 54种期刊在四种指数下的排名变化图
SJR和JIF对应的两列数据中,各有1组期刊的排名相同,涉及两种期刊,占总期刊数的3.7%。按照SJR排名,54种期刊中期刊Natural Areas Journal和Scientia Forestalis/Forest Sciences的SJR值均为0.495,但前者的GS 指数(GS =8.500)要高于后者(GS=6.0)。由公式(1)计算得到期刊 Natural Areas Journal和期刊 Scientia Forestalis/Forest Sciences的Gini指数分别为0.792和0.729,表明前者的引文分布具有更好的均衡性,因此,使其在GS指数中的排名靠前。期刊Cerne和Scientia Forestalis/Forest Sciences的JIF指数都为0.5,但前者的GS指数(GS=5.7)要低于后者(GS=6.0)。根据公式(1)计算可得期刊Scientia Forestalis/Forest Sciences 的Gini 指数为0.792,而Cerne的Gini指数为0.769, 所以,按照GS指数排名可将上述两种期刊的影响力区分开来。h指数对应的一列数据中有12组期刊的h指数相同,共涉及27种期刊,占总期刊数的50%, 如 International Journal of Wildland Fire和Trees-Structure and Function的h指数都为71,但前者的GS指数(GS=5.409)要高于后者(GS=3.380),再如 New Forests、Forest Pathology和 Forestry Chronicle三种期刊的h指数都为42,而三者的GS指数分别为4.249、3.013和0.692。
可见,利用GS指数能够将SJR、JIF、h指 数相同的几组期刊有效地区分开来。因此,与 SJR、JIF、h指数相比,GS指数具有更好的期刊区分能力。
4
结语
本文基于期刊的被引质量,尝试将期刊被引离散度纳入期刊影响力评价中,提出一种新的期刊影响力评价指标,即GS指数,并以2017年 Web of Science数据库和 Scopus数据库同时收录的54种林业类期刊为样本进行实证研究,通过与已有期刊影响力评价指标SJR、JIF和h指数对比,发现GS指数具有以下独特的优势:①GS指数与SJR、JIF和 h指数均呈显著相关,说明GS指数与其他指标一样具有识别高质量期刊的能力,鉴于GS指数综合考虑了期刊论文的被引数量、被引质量、被引离散度,可以说GS指数评价视角更加全面,评价结果更精细。②54种期刊的GS指数呈正态分 布规律,说明GS 指数比较符合人们的打分习惯,具有较好的实用性。③SJR、JIF和 h指数相同的期刊其GS 指数均不同,说明GS 指数具有较高的期刊区分能力。
本文借鉴前人的研究[8-9],给出了反映期刊论文被引离散度的指标,在文中我们分析了该指标在期刊影响力评价中的合理性,同时也证明了其有效性。但GS指数仍有不足之处, 如GS指数是在SJR指标基础上构建的, 而 SJR指标是通过期刊所有文献(包括学术论文、读者来信、评注、社论、采访等)的被引情况来计算其影响力的,不像JIF、h指数只计算期 刊学术论文的被引情况,而期刊中学术论文之外的其他类型的文献一般很少被引用,致使SJR值和期刊论文的被引均衡性都降低,也影响到GS指数在期刊影响力评价中的评价效果。另外,需要说明的是,无论是被引数量,还是被引离散度都是从总体影响力的角度对期刊进行评价,不能直接反映期刊的学术水平, 这也是GS指数的局限性。
作者简介
高英莲,女,馆员,研究方向为文献计量与信息分析。
李秀霞,女,教授,硕士生导师,研究方向为数据挖掘与信息处理。
刘金星,男,教授,硕士生导师,研究方向为数据挖掘。
参考文献
*原文载于《信息资源管理学报》2019年第4期19-23页,欢迎个人转发,公众号转载请联系后台。
*本文引用格式:
高英莲 李秀霞 刘金星. 被引数量、被引质量和被引离散度结合的学术期刊影响力评价研究[J]. 信息资源管理学报, 2019, 9(4): 19-23.
制版编辑 | 王小燕