当期荐读 2022年第4期 | F指数:一种改进的学术影响力测量方法
图 | Internet
王传毅 俞寅威
清华大学教育研究院,北京,100084
摘 要
本研究提出了一种改进的学术影响力测量方法——F指数,并以哲学、法学、统计与概率、机械工程、作物学、传染病学以及交叉学科领域的学者为样本,实证检验了F指数对学术影响力的评价效果。研究发现,F指数在跨学科领域的评价中,能够调节不同领域学术影响的差异程度,较h指数、p指数、FWCI具有更佳的区分度;在单一学科领域评价中,与h指数、p指数、FWCI具有高度一致性,也具有更佳的区分度,是对现有指标的进一步改进。F指数可用于学者、科研团队及学术组织的学术影响力评价。
关键词
F指数 学术影响力 学术评价 跨学科评价 评价成本 评价精度
向上滑动阅览
1 引言
学术影响力是评价科研成果、学者及学术组织的重要维度。h指数是学术影响力常用的量化评价办法[1]。h指数兼具考察被引频次和论文数量两个方面,既可以遏制片面追求论文数量的不良倾向,同时又能够激发科研人员撰写高质量论文的热情[2]。但h指数也存在明显缺陷,一是区分度低,特别是对普通科学家的学术影响力进行比较时,h指数并不具备鉴别力[3];二是信息损失,h指数不仅忽视了高被引论文的贡献,也完全忽视了h 指数以下的论文数量及被引频次[4];三是只升不降,h 指数是一个累积指标,对年轻的科研工作者不利,同时允许科学家“吃老本”,无法反映科学家研究活力的衰退情况[5]。
为改进 h 指数的缺陷,国内外学者先后提出了改进型h指数,即类h( h-type )指数,主要包括 指数[6]、g指数[7]、A指数[8]、R指数[9]、AR指数[9]、 指数[10]、 指数[11]、A+指数[12]等等,其中部分指标是在h 指数的基础上引入新的变量(如论文总被引量、平均被引量、h核心论文被引量、h核心论文平均被引量、论文最高被引量等) ,还有部分指标是对 h 指数进行一定的数学运算(如对论文被引数据进行平方,对几项指标之积求平方根等) ,这些类h指数都不同程度地提高了 h 指数的区分能力,但定义较为复杂,可操作性并不强。真正理想的评价指标需要同时考虑到评价成本与评价精度,在保证必要的评价精度的前提下,指标越直观、越简单、越容易计算越好[13]。此外,对于h指数的累积性问题,也未能完全解决。
2010年 Prathap 在 Glanzel 的研究基础上,提出了p 指数[14],定义为: ,其中N为论文数量,C为论文被引次数,Prathap认为该指标与其他类h指数相比,计算过程简单,特别是当期刊引文存在高引现象(单篇文章的引文大大超过了 h 值)或长尾现象(大量未被引用的文章)时,能够表现出更强的敏感性。Prathap还将其与物理学中的电势能和动力势能的计算原理进行了类比,认为 p指数是一种效能型指标,具有开展综合性学术评价的能力[15]。Prathap[14,16]采用p指数和h指数对100位经济学家、233个国家的科研产出和3个学术机构的学术影响力进行比较研究发现,p指数与h指数之间存在较高的相关性,并且相比于传统指标,p指数能够更有效地平衡被引次数与平均被引率之间的关系,但p指数也存在不能体现论文引文分布特征、不能实现跨领域评价等不足。故Prathap于2014 年引入了被引集中度指标,提出了一个新的综合性评价指标——z指数[17]。但一些研究表明,z指数并没有起到对p指数优化的作用,z指数对反映数量的被引频次体现较好,但对反映质量的篇均被引(影响因子)和反映一致性的被引集中度体现较弱[18]。
随着现代科学的蓬勃发展,学科交叉日益深入,跨学科领域开展学术评价的需求不断增加,学界也开展了诸多探索,大致分为两类:一是对被引量排序位置进行处理的跨学科评价方法,细分为以百分位等级为基础的分区法(如Bornmann等[19]提出的PR6指标、刘雪立等[20]提出的PR8指标和Leydesdorff等[21]提出的PR100指标)和以反向名次为基础的位置法(如Pudovkin等[22]设计的rnIF指数和匈牙利科学计量学家Vinkler提出的PRP指数[23-24]),但此类方法评价结果的稳定性较差,会受期刊分区权重设计和核心期刊目录划定的直接影响。二是对被引量绝对数值进行处理的跨学科评价方法,学者们相继提出了相对被引率(RCR)[25]、基于主题的标准化被引量期望(NMCR)[26]、王冠指标 ( Crown Indicator,CPP/FCSm)[27]、标准化引文得分期望(MNCS)[28]等一系列指标;在“引用端”,也有SNCS (1)[29]、SNCS (2)[30]、SNIP[31]、CSNCR[32]等一系列指标。其计算步骤可大致归纳为四步:①计算某科研实体的篇均被引量;②界定该科研实体所属学科领域;③计算该学科领域论文的平均被引量或平均参考文献量;④基于平均被引,修正篇均被引量[33]。但需要注意的是,学术影响力应该体现在论文数量和论文质量的有机统一上,上述跨领域评价指标仅仅考虑了对篇均被引量的修正,对发文量的关注始终不足,因此仍有进一步优化空间。
鉴于此,本研究试图以兼顾发文数量和质量的p指数为基础,引入加权影响力调节因子,降低不同学科领域引用平均水平差异所带来的影响,构建一个更为合理的跨领域研究成果评价指标。鉴于该指标能够更加公平合理地对待学科领域之间的差异性,本研究拟采用公平的英文单词Fairness的首字母F对指数命名,称为F指数(Fairness index)。
2 F指数的构建
2.1 F指数的计算公式
不同学科领域论文的平均被引次数存在着很大差异,跨学科的学术影响力评价必须充分考虑这一情况。对于任何一篇文章而言,若用k表示相同学科、相同年份、相同类型论文的平均被引次数,则可以构造影响力调节因子 。k越大, 越小,表示在相同被引数情况下,该学科领域论文的实际影响力越小。反之亦然。若某篇文章分属两个学科,则假设两个领域篇均被引值分别是 和 ,则这篇文章对应的领域内平均水平 。分属多个学科的计算方法同理,即将相关领域的篇均被引值计算调和平均数,视为一个全新的小学科领域的平均水平,以此排除学科差异的影响,使结果更为客观。对于学者而言,假设其研究成果共涉及s个不重复的学科领域,每个小学科领域的领域内平均水平分别为 、 、…、 ,该学者在第i个小学科领域的论文总被引数为 ,论文总被引数 ,则定义学者的加权影响力调节因子 。该式表示加权影响力调节因子等于小学科领域影响力调节因子的加权平均,相应的权重
若一位学者在考察期内共发表了
从计算公式上看,F指数实现了对学者论文数量、论文影响力和研究领域的统筹兼顾,即F指数会随着发文量
2.2 F指数与相关指标的区别与关联
作为p指数的改进,F指数比p指数包含了更多的信息量,即在遵循p指数评价逻辑的基础上,F指数引入了加权影响力调节因子
相较于在跨学科评价中使用最广泛的标准化引文得分期望(MNCS)这一“王冠指标”,F指数比MNCS包含了更多的信息量。标准化引文得分期望
3 F指数的实证分析
3.1 数据来源及分析过程
本研究基于Scopus数据库,以哲学(Philosophy in Arts and Humanities)、法学(Laws in Social Sciences)、统计与概率(Statistics and Probability in Mathematic)、机械工程(Mechanical Engineering in Engineering)、作物学(Agronomy and Crop Science in Agricultural and Biological Science)、传染病学(Infectious Diseases in Medicine)、多学科(Multidisciplinary)为研究领域,获取SciVal分析平台统计的上述每个领域近五年发文量最多的500位学者的相关数据①(发文量、被引量、FWCI和h指数),得到3500位学者的数据。
由于少数论文获得了绝大部分的引用,因此引文分布是有偏分布[34]。每个小学科领域都存在着一批“头部学者”,其被引总量和FWCI均名列前茅。同时,也存在一批“尾部学者”,其被引总量和FWCI几乎可以忽略不计。若将“头部学者”或“尾部学者”作为研究对象,各种评价指标会有很强的一致性,难以判断出F指数相较于其他指标在统计性质上的优越性,故本研究主要关注“中部学者”。
为此,本研究的分析过程为:①将每个领域的500位学者按被引总量降序排列,被引总量相同则按FWCI降序排列;②保留每个领域处于上四分位数和下四分位数之间的250位学者,共1750位学者;③将多学科领域的学者数据用于跨学科比较中F指数及其他相关指数的统计性质分析;④将其他六个领域的学者数据用于单一学科比较中F指数及其他相关指数的统计性质分析。
3.2 F指数对跨学科领域学术影响力评价的适用性
由于h指数和p指数不是进行跨学科比较的评价指标,因此分析F指数在跨学科比较的适用性时,不必太过关注F指数与h指数、p指数的相关性,而应深入具体学者的发文情况,评判F指数是否起到了调节不同学科领域平均被引次数差异的效果。同时,FWCI是一个对被引量绝对数值进行处理的跨领域评价指标,本质上就是以Scopus数据库定义的领域内平均水平为
3.2.1 对于学科差异的调节作用
多学科领域内的学者主要从事跨学科研究,且涉及领域大不相同,是研究跨学科比较的合适样本。表1呈现了F指数排位前10名和后10名学者的学术影响力数值。结果表明, h指数和p指数有相对一致的顺序判断,但均与F指数的判断有显著差异,FWCI虽相较于 h指数和p指数可实现跨学科评价,但也与F指数的判断有显著区别。
表1 多学科领域学者的学术影响力测算(部分结果)②
相较于p指数,F指数能够更敏锐地探测跨学科研究成果在不同学科影响力的异质性。本研究以p指数排名第一的Launer和F指数排名第一的Mallapaty为例,进行具体分析。两位学者的具体数据如表2所示。
表2 Launer和Mallapaty在多学科领域的相关指标表现
通过计算可得,Launer的篇均被引为44.5,而Mallapaty的篇均被引仅为10.2,与前者存在较大的差距。由此,似乎p指数的排名情况更为合理。但需要注意的是,在多学科领域,不同学者涉及的学科领域并不相同,而这些学科领域的平均被引次数也不相同,需要深入研究两位学者的被引结构。由于篇幅所限,表3以文章的被引量降序排列,保留每位作者排名前五的论文被引情况③。
表3 Launer和 Mallapaty在多学科领域的部分论文被引情况(2016—2020)
Launer排名第一的文章被引量高达549,超过Mallapaty所有文章的总被引量,但该文章所归属的学科领域平均被引次数为15.8,说明该学科领域普遍有着较高的引用量,这也稀释了这篇文章的影响力。反观Mallapaty排名第一的文章被引量为98,但该文章所归属的学科领域平均被引次数仅为2.2,说明该学科领域的引用量极低,该文章被引量为该学科领域平均被引次数的44.99倍,其影响力不言而喻。如果以整体的视角分析两位学者的数据会发现,Launer涉及的学科领域的平均被引次数偏高,24篇文章中有14篇文章的领域平均被引次数>10,有10篇文章的领域平均被引次数>15,而Mallapaty涉及的学科领域的平均被引次数偏低,55篇文章中有43篇文章的领域平均被引次数<3。因此,若仅仅以学者的发文量和总被引量的数据对学者进行评价,而不考虑其所在学科领域的相关信息,就会埋没一批在领域平均被引次数小的学科领域中独占鳌头的学者。F指数能够较好地解决这一问题,对此类学者予以关注。
相较于FWCI,F指数与其相关系数高达0.943,存在显著正相关,说明F指数与FWCI一样,均具有跨领域评价的功能。例如,如表4所示,以F指数排名第一的Mallapaty和FWCI排名第一的Mahvi,均属于高学术影响力的第一梯队,但Mallapaty的发文量(55)远超Mahvi的发文量(23),这意味着在学术影响力相当的基础上,前者有着发文数量的绝对优势。因此就学术影响力而言,Mallapaty应大于Mahvi,而F指数正是考虑了学术产出数量的因素,所以能够得到更为科学合理的评价结果。
表4 Mahvi和 Mallapaty在多学科领域的相关数据汇总
3.2.2 评价结果的区分度
一方面,F指数可对不同学科学术影响力的异质性进行调节,从而实现跨学科研究成果的学术影响力评价;另一方面,F指数必须在评价结果上具有更加精准的区分度,才能优于现有指标。本研究认为,合理的区分度要求每个分数段内的人数尽可能接近正态分布,且同分(无法判断)的人数尽可能少,以免降低评价效率。
从正态性检验来看,F指数是最为接近正态分布的评价指标。根据Kolmogorov-Smirnov检验,h指数的
从同分情况来看,F指数出现同分的情况要显著低于h指数和FWCI。表5显示250名学者中, h指数有43名学者不同分,p指数有224名学者不同分,FWCI有89名学者不同分,F指数有148名学者不同分。其中相较于同样具有跨领域评价的FWCI,F指数同分2名及以上学者的人数,显著要低。
表5 多学科领域的同分学者数量分布表
综上,不同小学科领域的发文量差异会对学者的学术影响力评价结果产生显著影响,F指数是更为合理和全面的跨学科评价指标。
3.3 F指数在单一学科领域学术影响力评价的适用性
在单一学科学术影响力的评价中,h指数和p指数虽具有一定的局限性,但也被广泛应用。F指数与h指数、p指数均具有显著的相关性(见表6),特别是与p指数在各学科领域均呈现中度以上的正向显著相关。这表明,F指数并非是对现有评价指标的颠覆,而是进一步的改进和完善,可用于单一学科学术影响力的评价。
表6 F指数及参照指标相关系数汇总表
进一步,本研究将考察F指数在区分度上的表现,是否更接近正态分布、以及是否出现更少的同分情况。
六个学科领域中250位学者的h指数、p指数、F指数和FWCI经过Kolmogorov-Smirnov检验的结果显示(注: 显著性一列中,* * *p<0.001; * *p< 0.01;*p<0.05;+p<0.1,未标明显著性水平的指数则接受Kolmogorov-Smirnov检验的零假设,认为该指数的分布为正态分布。)(见表7)。在各个学科领域,F指数的
表7 正态分布检验的D统计量数值及p值
六个学科领域中250位学者的h指数、p指数、FWCI和F指数的同分情况显示(见表8),F指数和p指数的同分人数小于h指数和FWCI,哲学领域F指数的同分人数小于p指数,但在其他领域均略低于p指数。需要强调的是,由于p指数和F指数都涉及到开方的运算,因此在保留更多位有效数字的情况下,F指数和p指数几乎都不会出现同分的情况,从此意义上讲,F指数的区分度能够得到有效保证。
表8 分领域的同分学者数量分布表
4 结语
本研究提出F指数作为一种改进的学术影响力测度方法,并分别以2016—2020年间在多学科、哲学、法学、统计与概率、机械工程、作物学、传染病学等七个领域各250位学者为研究对象,进行了实证研究。结果发现,F指数虽与h指数、p指数、FWCI显著相关,但能够实现跨学科领域的学术影响力比较,且具有更高的区分度,其分布更接近正态分布,是适用性更广、科学性更强的评价指标。F指数也可用于学者、科研团队及学术组织的学术影响力评价。
但F指数也存在着继续完善的空间。通过理论推导和具体比较几位学者p指数与F指数、FWCI与F指数的评价结果,仅是初步证明F指数可实现跨领域评价,如何能够提升F指数在跨领域比较的评价效能仍需进一步思考,也可考虑引入更多用于跨领域评价的指标,如影响因子百分位、标准化特征因子[36-38]等。此外,囿于数据的可得性,研究数据的被引总量、FWCI均包含学者自引,如能除去自引,其评价结果会更为合理,但自引同时也影响h指数、p指数和FWCI的数值表现,故整体上不会影响本研究主要结论。
①注:检索时间为2021-08-14,为了保证统计口径的一致性,发文量、被引量、FWCI的统计时间段均为2016—2020年,h指数则是截至2020年12月31日的更新数据。
②本表仅列出前10名和后10名学者的指标数值,需要全表请与作者联系wcy1985@tsinghua.edu.cn
③注:数据来源SciVal分析平台,检索时间为2021-08-14,需要全表请与作者联系wcy1985@tsinghua.edu.cn。
参 考 文 献
作者简介
王传毅,博士,副教授,研究方向为高等教育评价,Email:wcy1985@tsinghua.edu.cn;
俞寅威,硕士生。
*原文载于《信息资源管理学报》2022年第4期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
王传毅,俞寅威.F指数:一种改进的学术影响力测量方法[J].信息资源管理学报,2022,12(3):24-32.
往期 · 推荐
当期荐读 2022年第4期 | 跨越“最后一公里”:循证决策中从数据到证据的转化困境与纾解策略
当期荐读 2022年第4期·特约稿 | 元宇宙研究与应用综述
▲点击访问信息资源管理学报小程序
制版编辑 | 王伊杨
审核 | 于阿媛
长按识别二维码关注我们
信息资源管理学报
微信号
xxzyglxb
分享、在看与点赞
只要你点,我们就是朋友😊