查看原文
其他

论文荐读 2019年第4期 | 个人相对引文率(ARCR):作者影响力评价新指标

臧思思 李秀霞 信息资源管理学报 2022-04-25

题图来自图虫创意网


个人相对引文率(ARCR):作者影响力评价新指标


臧思思   李秀霞

(曲阜师范大学传媒学院,日照,276826)


摘 要

根据不同的研究方向对作者影响力进行评价,提出一种基于研究方向的作者影响力评价方法。选取图书情报领域中的20位作者作为评估对象,先根据作者共被引网络划分作者的研究方向;再以作者论文的篇均被引次数作为作者的条件被引频次,并通过SPSS统计工具对共被引网络中作者论文的篇均被引次数与T指数进行回归拟合,以获取作者论文的期望被引频次;最后将同一研究方向内作者的条件被引频次除以期望被引频次,计算特定研究方向的个人相对引文率(ARCR)。与CPP、h、g、P、hg指数相比,ARCR能更好地反映作者发表论文的内容特征,缩小作者的比较范围,评价角度更加合理。

关键词


个人相对引文率 作者共被引 作者影响力 学术评价 文献计量


作者是学术成果的创造者,是知识交流和科学创新过程中必不可少的主体,对促进知识发现与知识传播有着不可忽视的作用。作者影响力主要是指在某一时期学者个人对其学术领域及学术活动的影响程度,其判断依据主 要是个人科研成果的学术质量和论文数量[1]。定量评价科研人员的学术影响力,对引进人才、评选职称、科研成果报奖、科研项目申请等都具有重要的指导意义[2]。因此,如何合理、有效地评价作者学术水平一直是学者们讨论的热门话题。


1

相关研究 


关于作者影响力的评价方法,国内外学者从多个研究视角进行了探索,其中主要以作者发表论文的被引频次来反映其学术影响力,如 Schubert等[3]提出了篇均被引频次,用来测度作者的平均学术水平。Hirsch在2005年提出以h指数[4]评估科研人员的学术成就,该指标从论文数量和被引频次两个角度综合衡量作者的科研水平,并得到广泛的认可和运用。随着研究不断地深入,学者们针对h指数存在的不足,提出了一系列h指数的衍生指数,如g指数[5]、hg指数[6]、P指数[7]等。同时,学者还从其他角度对作者的评价方法进行了探讨,如Amjad[8]以城市数字图书馆为研究领域,考虑引文排他性及作者相互作用的影响,提出以MuICE算法来评价作者的影响力。Dunaiski等[9]以MAS和ACM数据库的论文和作者等学术实体为例,对比被引频次和PageRank算法,发现PageRank算法能够更有效地识别论文和作者排名。 

国内学者在评价作者影响力的方法上也在不断地进行探索。在h指数改进方面,邱均平等[10]将发文量和h指数相结合以测度图书情报学领域的高影响力作者;郑洪平[11]以图书情报与数字图书馆领域为例,将合作度和作者署名排序引入到h指数的计算,提出了hp-c 指数。为了提高评价的科学性和有效性,有学者将网络算法引入到论文计量评价方面,如邓启平等[12]将 Leader Rank应用于合作网络来测度作者影响力,提出CW_LR算法,从合作次 数和被引频次两个维度识别有影响力的作者。在基于论文内容特征来评价作者影响力方面,翟辉等[13]提出基于知识关联网络的作者学术影响力评价方法,并从评价内容、评价指标以及方法流程三个方面进行了阐述。关于指数改进方面,张勤[14]改进EM 指数,将作者合作因素融入到EM 指数的计算过程,提出了评价作者影响力的新指标—EMC。考虑作者的不 同属性,胡小军等[15]以获得诺贝尔奖的论文作者作为测试数据集,提出一种基于相对熵的多属性排序方法,对作者影响力进行排名。 

通过梳理以上研究发现,关于作者影响力的评价研究大多基于学科领域或者某一类获奖群体选取评估对象。随着学科的不断发展,一个学科内部可能会不断地产生新的发展点 和研究点,使学科划分越来越细。同时科研人员也大多是以学科领域下的某个研究点进行不断的研究探索。然而,同属一个学科领域, 偏理论研究和偏技术研究的,研究方向、研究方法和研究工具等相差很大,不能按照同一标准来衡量。可见,作者研究方向的差异也会对其个人学术水平产生不同的影响。基于以上观点,本文提出一种基于研究方向的作者影响力评价方法——个人相对引文比率 (Author Relative Citation Rate,简称ARCR)。通过建立作者共被引网络,找到与评估对象研究方向一致的作者集群作为同级比较组,将论文的篇均被引频次、T指数相融合,在划分研究方向的基础上测度作者影响力,以更细粒度地评价作者的学术水平。


2

基于研究方向的 ARCR指标 


研究方向可以反映学科发展和社会需求的动态变化,并在学科发展与社会需求的双重影响下不断演变。随着科学技术与经济的发展,同一学科领域的研究方向会发生一定的变化,并且有一定学术积累的研究者其研究方向会不断拓展或转移。比如:邱均平的研究方向除了文献计量、学术评价外,还包括学科服务、资源组织;马费成的研究方向不但有信息经济、信息资源管理,还包括情报学理论方法等; 柯平的研究方向除了公共文化服务、知识管理与信息咨询外,还涉及文献目录学与图书馆管理等。可见,同一作者具有多个研究方向是学术研究中正常的现象。 

学者发表的学术论文可以反映学者目前的研究方向,本文方法实现的关键是找到与评估对象研究方向一致的同级比较组。本文利用作者共被引网络,根据共被引次数来确定与评估与作者研究方向相似的作者集,作为该评估作者的同级比较组。1981年美国的 White和Griffith提出了作者共被引(Author Co-citation Analysis,简称ACA)概念[16],即当两名作 者的论文同时被其他作者引用时,则称这两名作者具有“共被引”关系。ACA网络将作者作为分析单位,以两名作者的共被引数量作为研究变量来表征两者间的“距离”,共被引次数越多,两位作者间的“距离”越近,他们研究方向的一致性就会越高。图1表示作者的共被引关系,数字表示共被引次数。从中可以看出,作者之间共被引的次数越多,距离越短,通过设定共被引次数阈值,将阈值范围内的作者作为评估对象的同级比较组。


图1  作者X共被引关系


本文选取图书情报领域中20位作者作为评估对象,以每位作者论文的篇均被引频次作为作者的条件被引频次。获取作者期望被引频次需要经过以下几步:①以评估对象为中心建立 ACA网络,得到评估对象的共被引作者集;②设定共被引次数的阈值,确定评估对象的同级比较组;③计算各作者的T指数;④利用 SPSS将同一比较组中的作者论文的篇均被引频次和T指数回归。由于回归具有预测功能,故将拟合线作为作者论文的期望被引频次。最后,将作者的条件被引频次除以期望被引频次,得到作者在该研究方向的ARCR值。


2.1  作者的条件被引频次


篇均被引频次(Citation Per Paper, 简称CPP)很早就被提出,直到2014年Pan[17]等实证研究了作者篇均被引频次的特性,被用于测度学者单位产出影响 力。其定义为: NΔtC (t) 是某一作者的t-Δt年到t-1年时的被引次数, NΔtp (t) 是该作者在t-Δt年到t-1年时 的发文总数,那么t年时作者的篇均被引频次为NΔtC (t) / NΔtp (t)。本文通过CNKI查询作者的篇均被引频次以共作为作者的条件被引频次。


2.2  作者的期望被引频次


作者的期望被引频次 (Author Excepted Citation Rate,简称AECR)是指通过回归得到作者的论文期望被引值。高志等[18]在研究科学家个人学术影响力随时间变化的计算方法时,对现有13个指标每一年对应值的相关性 进行分析,发现13个指标的区分度按T、S、 hg、A、g、R、P、m、q2、h、e、AIF、w 依次递减,其中T指数的区分度最高。T指数是一个衡量作者影响力的指标,综合了传统论文计量学与h指数的评价思想,并且该指标不受时间窗的影响,不限制评价对象和评价范围,因此,本文选择T指数作为衡量作者现有学术水平的计量指标。AECR的具体实现过程如下: 

(1) 建立ACA网络 

利用Java语言自编程序构建实验数据集的ACA网络,如图2所示,箭头指向被引用的作者。


图2  ACA网络


举例说明,假设以邱均平为评估对象(蓝色点),查找与邱均平处于同一参考列表的论文,利用Java自编程序提取论文的第一作者,并将共被引次数统计出来,产生包含多个作者的共被引次数分布矩阵(见表1)。矩阵中的行表示与邱均平有共被引关系的作者,列表示该作者与邱均平在所选实验数据集中的共被引次数。


表1  共被引示例


(2)设置阈值 

如果作者之间的共被引次数太少,则不能说明作者之间的研究方向一致。因此,本文设定共被引次数的阈值为15,若同级比较组的作者数量依旧较多,则利用二八定律选取排名前20%的作者建立同级比较组;若同级比较组的作者数量较少,则保留共被引次数大于15的全部作者。 

(3)计算T指数 

通过 CNKI数据库查询同级比较组中作者的h指数、A指数和篇均被引频次,计算作者的T指数,见公式(1)。



A 指数:h 核内每篇论文的平均被引次数 (h 核:符合h 指数的h 篇论文); 

(4)回归分析 

在统计学中,回归方程是对一个或多个自变量和因变量关系之间进行建模、回归分析,以确定两种及两种以上的变量间相互依赖关系的一种方法。由于回归建立了变量间因果关系的数学表达,因此它具有统计预测功能。本文将作者的T指数作为自变量(x),作者的CPP作为因变量(y),利用SPSS生成散点图。由于T指数的公式中含有对数,因此将散点图进行对数函数拟合。以回归图形(见图3)为例说明上述方法, 纵坐标表示作者的CPP,横坐标表示作者的T指数。图中的点对应该同级比较组里的作者,点所对应的纵坐标是作者的条件被引频次,点对应曲线上的纵坐标为该作者的期望被引频次。拟合曲线表示对于该研究方向下作者论文的期望被引频次;曲线上方的点表示作者的 条件被引频次高于期望被引频次;曲线下方的点表示这个作者的条件被引频次低于期望被 引频次。


图3  回归示例


通过以上数据的获取过程,根据公式(2)计算作者在其研究方向的 ARCR值。



3

实验结果与分析 


3.1  数据来源与评估对象选取

3.1.1  数据来源与处理


本文以中文社会科学引文 索 引(CSSCI) “图书情报与档案管理”学科类别下18种核心 期刊《图书情报工作》《情报科学》《图书馆学研究》《现代情报》《图书馆》《图书馆建设》《图书馆论坛》《图书馆杂志》《情报理论与实践》《图书与情报》《情报学报》《大学图书馆学报》《情报资料工作》《情报杂志》《图书情报知识》《中国图书馆学报》《国家图书馆学刊》《数据分析与知识发现》刊载的所有论文为数据源,数据时间限定为2013年1月—2017年12月,论文类型为期刊论文,共检索到13184篇目标论文,导出所有论文的引文数据。

3.1.2  评估对象选取

本文在选取评估对象时,主要参考了前人关于作者影响力的相关研究,以张勤提出的EM_C指数[14]、郑洪平提出hp-c指数[11]和邱均平等将发文量与h指数结合[10]三种指标得到的核心作者排名,选取作者排名交集作为本文的评估对象,共20位作者。


3.2  结果与分析


利用作者共被引网络,根据共被引次数可将20位作者大致划分为三个同级比较组,即表2中的三个类团。 

分析表2,可以看出每个类团内的作者排名情况。


表2  20位作者的 ARCR、CPP 、h、g、P、hg值

(1)学者们在个人的研究方向上进行深入研究,发表的论文得到了较多的关注。范并思在类团1中影响力最高,分析其学术成果可以发现,在2013—2017年内,范并思所发表论文的篇均被引频次达到了26.33,其中,范并思的《阅读推广与图书馆学:基础理论问题分析》一文的被引频次高达293,关注度比较高,在其研究方向上产生了较大的影响。 

(2)某些作者研究方向较为广泛,在多个研究方向都产生了较高的影响。按照ARCR值排名,邱均平在类团2和类团3中都是影响力最高的作者,与CPP、h、g、P、hg指数的排名基本一致,说明ARCR值与这几种指数一样,都具备筛选高影响力作者的功能。 

(3)存在某些作者研究方向广泛,但产生的学术影响力不一样。如张晓林在三个类团中均有涉及,在类团1中张晓林的影响力排名第二,属于高影响力作者,而在类团2和类团3中张晓林分别排名第五和第四,影响力降低。如王世伟在类团1中排名第三,影响力较高,但在类团3中排名第五,影响力降低。

对数值进行分析发现,①不同研究方向作者的 ARCR、CPP、h、g、P、hg值排序差异明显。如上面所述的张晓林,按ARCR值在三个类团中分别排名第2、5、4位,但若按CPP值则在三个类团排位都为最后一位,按h值则分别排在三个类团的中间位置。②同一研究方向作者的 ARCR、CPP、h、g、P、hg值排序也有所不同。如在类团1中,王世伟的h指数是7,是此研究 方向上h指数倒数第二的作者,但根据ARCR值排名,在该类中排名第三。③同一研究方向有些作者的ARCR值比较相近。如类团1中王 世伟和吴建中的ARCR值分别为0.785和0.783,类团2中柯平和毕强的ARCR值分别为0.715和0.714,说明四位学者在所属的研究方向上的学术影响力相近。 

为进一步讨论ARCR、CPP、h、g、P、hg之间的相关性,本文对相关参数之间进行Spearman相关性检验,结果如表3所示。


表3  20位作者参数的相关性分析结果


Spearman相关分析发现:ARCR与h指数、hg指数的相关系数分别为0.468* 和0. 510*,在置信度0.05水平下相关性显著。h指数和hg指数的相关系数为0.718** ,相关性最显著,原因是hg指数是在h指数的基础上改进的。由于ARCR与h和hg指数的相关度较低,因此,根据ARCR值进行排名和 h、hg指数相比,差异较大。 

ARCR与 CPP、g以及P指数的相关系数分别为0.588** 、0.597** 和0606**,都在置信 度0.01水平下相关性显著。其中,ARCR与P指数的相关性最高,P指数是兼顾论文的数量与质量的指标,同时又弥补了h指数区分度低的缺陷,因此P指数的综合性较强,说明ARCR的综合性也比较强。ARCR与CPP 的相关系数为0.588** ,ARCR把CPP看作 ARCR计算公式中的一个因子,在一定程度上体现了ARCR的可靠性。 

基于以上分析,利用ARCR对作者的影响力进行评价具有以下优势: 

(1)ARCR是基于作者共被引网络进行计算的。由于待评估作者的同级比较组是通过作者共被引网络确定的,而共被引网络本身的动态性使评估作者的同级比较组也是动态变化的,可以实时保证待评估作者同级比较组的更新。 

(2)ARCR反映了不同研究方向不同作者的学术影响力。ARCR是基于研究方向得到的作者影响力大小,反映的是在某个研究方向上作者的学术影响力。某位学者在某个研究方向上研究较为深入,即使h指数不高,也可以根据ARCR判断其学术影响力。如在类团1中王世伟的h指数在其同级比较组中较低,但根据 ARCR值排名第三。


4

结语 


本文提出一种基于研究方向的作者学术影响力评价方法,以图书情报领域的20位作者为评估对象,根据作者共被引网络划分同级比较组,按研究方向对作者影响力进行排序。通过对数据结果的优势对比发现,基于研究方向对作者进行排序,能够得到各个研究方向的高影响力作者,反映相同研究方向的不同作者的学术影响力,从更加细粒度的层面体现学者的学术水平。本研究可为学者在研究过程中检索某一研究方向的高影响力作者和论文提供建议,为分析作者的学术影响力提供一种新思路。 

本研究的局限性在于,仅以图书情报领域20位学者为研究对象,作者数量相对较少;在共被引次数阈值的选择上具有一定的主观性。另外,ARCR指标与其他基于引用的计量指标一样,在论文发表之后不能立即计算,需要经过一段时间的积累,有了大量的引用后才能进行计算等,这些不足我们将在后续的研究中进 行改进和完善。


作者简介

臧思思,女,硕士研究生,研究方向为信息计量。

李秀霞,女,教授,硕士生导师,研究方向为数据挖掘与信息处理。


参考文献



*原文载于《信息资源管理学报》2019年第4期24-30页,欢迎个人转发,公众号转载请联系后台。


*本文引用格式:

臧思思  李秀霞. 个人相对引文率(ARCR):作者影响力评价新指标[J]. 信息资源管理学报, 2019, 9(4): 24-30.


制版编辑 | 王小燕



论文荐读 2019年第4期 | 应急情报联动的协同管理理论研究


论文荐读 2019年第4期 | 图书情报学在互联网时代应着力于创造知识共享环境 ———专访中国社会科学院学部委员黄长著


论文荐读 2019年第3期 | 融合与跨越:近10年来新媒体研究的多维视域


论文荐读 2019年第3期 | 人文社会科学领域网络资源存档利用现状综述


论文荐读 2019年第3期 | 中国互联网内容管理宏观政策与基本制度发展简史


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存