论文荐读 2019年第4期 | 基于Gini系数的学术期刊关键词聚散度分析
题图来自图虫创意网
基于Gini系数的学术期刊关键词聚散度分析
程结晶1 李秀霞2
(1.扬州大学社会发展学院,扬州,225008;
2.曲阜师范大学传媒学院,日照,276826)
摘 要
学术期刊所刊载文献的关键词反映了期刊研究的主题内容。分析一段时间内期刊关键词的聚散分布特征有助于学术期刊出版机构科学控制文稿比例,合理制定可持续发展策略,对期刊办刊水平和办刊质量的提高具有十分重要的意义。以我国情报学13种期刊为例,提取各期刊的高频关键词,利用Gini系数计算各期刊关键词的聚散度,以期刊关键词频次的均值ñ和Gini系数构建二维坐标,在二维坐标中呈现并分析期刊关键词的分布特征。结果表明利用Gini系数不仅可以在表层意义上反映期刊关键词的聚散分布特征,而且可在主题内容层面上辅助评估学术期刊的办刊规模和办刊质量。
关键词
Gini系数 期刊关键词 关键词聚散度 期刊评价 学术评价
学术期刊是学术文献的重要载体,承载着科学研究在不同主题方向上的最新成果;关键词聚散度指期刊文献关键词聚集或发散的程度。随着科学的发展与人类知识的积累,学术期刊及其刊载论文的数量一直保持快速增长的趋势,在这种趋势下,学术期刊刊文关键词数量以及关键词聚散度呈现怎样的分布特点? 期刊文献关键词数量、关键词频次与关键词聚散度有怎样的关系? 学术期刊尤其是同一学科领域期刊的刊文关键词聚散度与期刊办刊规模、办刊质量有怎样的关系? 对上述问题的探究理论上可为评估学术期刊办刊质量提供一种新的视角;实践上对学术期刊出版机构合理调整刊文主题比率、提高期刊办刊质量、实现可持续发展等具有重要意义。
1
相关研究综述
期刊文献关键词是反映期刊研究主题、研究方法、研究内容或研究背景等重要信息的精炼词汇或术语,与文献题目一起能让读者快速形成对一篇论文的直观学术印象,因此,文献关键词是提升学术期刊影响力的“助推器”[1]。目前,对期刊文献关键词的研究已有很多,研究内容主要是探析学科研究热点[2]和学科交叉热点[3]、研究学科知识结构[4]、测度文献相似性[5]等,涉及期刊研究的相关内容主要有识 别期刊主题[6-7]、分析期刊主题研究态势[8]和演变趋势[9]等,但尚未发现有与期刊关键词聚 散度相关的研究。
聚散度是衡量事物聚集或发散程度的指标,目前有很多反映聚散度的统计方法,如极差率法、方差法(或标准差法)、变异系数、泰尔系数、Gini系数等[10],其中Gini系数是目前使用较为广泛且简便直观的一种统计指标。它不仅克服了只关注均值差异的缺陷,而且对变量中同等水平的变化特别敏感。Gini系数最早是20世纪初意大利经济学家基尼提出的定量测定社会收入分配差异程度的指标,该指标不仅广泛应用在经济领域研究国民收入分配的问题, 近年来,Gini系数逐渐被引入到教育[11]、医疗[12]、人力资源管理[13]、图书情报[14]等领域的研究中,用于分析财产、资本、产品、市场、资源等分配的均衡程度。Gini系数在期刊分析中的应用研究相对较少,代表性研究国外有 Leydesdorff等[15]2018 年利用Gini系数测量期刊引文分布的均衡性; 同年,Cockrie 等[16]将Gini系数与期刊影响因子结合提出平均离散指数(Mean Dispersion Indices, 简称MDI指数)用于评价期刊的学术价值。国内代表性的研究有胡文静等[17]利用 Gini系数分析学术期刊在各学科方向的数量均衡性;毛国敏 等[18]运用Gini系数结合洛伦茨曲线,通过各 学科期刊载文量、总被引次数和影响因子的分布,讨论我国期刊载文信息量和影响力分布的聚散度;吴爱芝[19]利用区位Gini系数对《中文核心期刊要目总览》1992年版以来收录的核心期刊所在省份和城市的空间集聚变化进行了定量测度等,但上述研究均未涉及期刊的主题内容。
鉴于上述,本文拟以我国情报学领域具有代表性的13种学术期刊为例,借用书目共现分析系统,提取并统计各期刊文献关键词,借鉴经济学领域中的Gini系数计算各期刊关键词的聚散度,探析期刊关键词数目与关键词聚散度之间的内在关联,进而分析期刊关键词聚散度与期刊办刊规模、办刊质量的关系。
2
研究方法与研究方案
2.1 分析期刊关键词聚散度的Gini系数
基尼系数的计算公式有多种,本文借用 Gini系数“测度社会收入分配差异程度”的思想,结合期刊关键词数量、关键词频次给出测度学术期刊关键词聚散度的 Gini系数: 假设J 是含m个样本的期刊集合,表示为 J= j1,j2,…,jm ,每个样本期刊有n个关 键词,jm= (K1,k1),(K2,k2),…,(Ki,ki),…,(Kn,kn) ,关键词Ki 出现的频次用ki 表示,当关键词在某个期刊中没有出现时,ki记为0。则期刊jm的关键词Gini系数定义为:
其中,
表示关键词Ki在jm中的相对频率。期刊的Gini值由期刊关键词频次ki、关键词数量n决定,其值在0—1之间,Gini值越小,期刊对关键词的关注度差异越大,主要集中于某些有限的关键词。
2.2 Gini系数应用示例
例如:有 A、B、C、D、E五种期刊,每个期刊关键词及出现的频次分布分别是:
根据期刊关键词Gini系数的定义,上面五种期刊的 Gini系数分别是:
上述五种期刊关键词的Gini大小关系是GiniJA=GiniJB>GiniJE>GiniJC>GiniJD,即A、B、C、D、E五种期刊中,A、B、E 三种期刊关键词分布比较均衡,而D期刊关键词分布具有明显的聚集性。同时发现,B、C两期刊虽然有相同频次的关键词,但GiniJB >GiniJC,可见期刊Gini系数随关键词数量的减少而减小,说明期刊Gini系数的大小受关键词数量规模的影响。另外,GiniJA =GiniJB,即A、B两种期刊关键词频次虽然不同,但反映期刊关键词均衡性的Gini系数却相同,说明Gini系数对期刊关键词频次相同的情况敏感性较差。因此,为客观分析期刊关键词的聚散度,还要考虑期刊关键词频次、关键词数量等因素。
2.3 研究方案
基于上述示例,本研究做如下两种设计:①在关键词数量相同的前提下计算各期刊关键词的Gini系数,以消除关键词数量差异对Gini系数的影响。②在期刊关键词平均频次ñ的基础上,计算各期刊关键词的Gini系数,并在“ñ-Gini系数”二维坐标中分析各期刊关键词的分布特征,以解决期刊关键词频次相同时Gini系数不敏感的问题。
3
实证研究
3.1 数据来源与处理
核心期刊与非核心期刊在学术质量上存在一定的差距,对应的文献关键词在规范性、分布规律上自然会有一定的差异。为方便对比分析,本文特选取 CNKI中我国情报学领域10种核心期刊(CSSCI)和3种非核心期刊,分别检索这13种学术期刊上的文献,时间设定为2013年3月—2018年2月共5年,检索结果见表1。
表1 13种样本期刊列表(2013年3月—2018年2月5年内的数据)
利用BICOMB2.0分别提取表1中13种学术期刊5年间刊文的关键词,形成词篇矩阵,然后在Excel中统计各期刊关键词的词频,以获取5年内13种学术期刊的关键词数量及频次,并进一步形成期刊-关键词向量,见表2,以此作为后续研究的数据基础。
表2 期刊-关键词向量(部分数据)
3.2 各期刊关键词的Gini系数及分布特征
3.2.1 分段计算各期刊关键词的Gini系数
将所有期刊的关键词按频次由高到低降序排列,由于各期刊关键词中排在后面的关键词频次变化不大,对期刊关键词的Gini系数影响不明显,为减小关键词数量规模对Gini系数的影响,取各期刊的前60个关键词,并均分为三段,即前20、中间20、后20个关键词,分段计算13种期刊关键词的Gini系数,结果见图1。
图1 13种期刊在三个区段上的关键词 Gini系数及变化规律
分析图1发现,各期刊关键词在不同分段中的Gini系数存在一定的差异性。其中各期刊前20个关键词的 Gini系数差异最明显,后两个分段中各期刊关键词的 Gini系数变化不明显,不仅期刊之间变化不明显,而且期刊自身对比变化也不明显。可见,随着关键词数量的递增、关键词词频的递减,各期刊关键词分布趋于均衡,说明只有排在前面的高频关键词才能有效的反映期刊关键词的聚散程度。
3.2.2 在“ñ-Gini”二维坐标中分析各期刊关键词的聚散度
为消除关键词数量对各期刊关键词Gini系数的影响,限定关键词规模,取每个期刊的前20个关键词;为消除关键词频次对Gini系数的影响,利用各期刊关键词频次的平均值ñ与Gini系数构建二维坐标,在关键词频次平均值的基础上考察各期刊关键词的Gini系数。坐标以期刊关键词频次的均值ñ为横轴、Gini系数为纵轴、以ñ与Gini系数的中值为坐标原点,见图2。
图2 在“ñ-Gini”二维坐标中13种期刊关键词的聚散分布
在二维坐标中,期刊可被分别划分到四个象限中,即分为四类。
(1)在第一象限,期刊关键词频次的平均值较大,Gini系数值较高,即该象限的期刊关键词获得的关注度较高,而且得到的关注较为均等。说明这一象限内的期刊所涉及的内容丰富、覆盖面广,属于综合性期刊。由于本文选取的是情报学期刊,情报学是图书情报学下的专业性较强的小学科,故未有期刊落在这一 象限。
(2)在第二象限,期刊关键词频次的平均值相对减少,说明在该象限期刊关键词具有的关注度相对降低,离纵轴越远,期刊关键词具有的关注度越低;但这一象限内期刊关键词的Gini系数较高,说明期刊关键词具有的关注度较为均衡,沿纵轴正方向,Gini系数越高,对应期刊关键词分布的均衡性越大,即期刊刊载的文献具有相对稳定的关键词,说明期刊主题内容相对稳定。在第二象限,关键词频次均值最低,Gini系数最高的两种期刊是“数据分析与知识发现”“情报资料工作”,说明这两种期刊发展规模不大,期刊涉及的内容相对集中,对集中的研究内容给予的关注度又相对均等,足见这两种期刊具有明确的办刊宗旨和准确的学术定位。参考表1给出的信息,两种期刊的发文量分别仅有233篇(期刊“数据分析与知识发现” 原名是“现代图书情报技术”,创刊于1980年,2017年更名,本文只检索了更名后的233篇文献)、596篇,与其他期刊的发文量在“1000— 3000多篇”相比,显然规模小得多,但相比而言,这两种期刊的影响因子并不低, 分别是1.266、2.029,并且都属于CSSCI期刊,这与图2呈现的两种期刊具有小规模化均衡发展的特征基本吻合。
(3)在第三象限,期刊关键词频次的均值较低,Gini系数不高,说明该象限内期刊关键词具有的关注度相对较低,且集中于少数关键词。由于学术期刊都有自己稳定的办刊宗旨和连续的栏目设置围绕栏目设置录用的稿件应在每个主题上都有一定量的刊文,如果期刊关键词较少,关键词Gini系数过小,即在有限的关键词中又集中关注极少的关键词,说明这种期刊不具备持续发展的生命力。图2中仅有一种期刊“图书情报论坛”出现在这一象限内,该期刊于2017年停刊,个中原因不言而喻。
(4)在第四象限,期刊文献关键词频次的均值ñ较大,Gini系数却不高,说明该象限内期刊关键词虽然具有较高的关注度,但期刊关键词获得的关注度极不均衡。从概率统计的角度来看,期刊的前20个关键词出现频次的均值较高,说明该期刊的关键词一定较多。一般而言,如果一种学术期刊的关键词较多,而且关键词出现次数差异较大,说明这种期刊刊文主题多而杂,过于注重规模发展。观察第四象限,有“农业图书情报学刊”“情报探索”两种非核心期刊,参考表1可以发现,这两种期刊的发文量较高,尤其“农业图书情报学刊”是13 种样本期刊中5年内发文量最高(3128篇)的月刊,但两期刊的影响因子却是最低的,“农业图书情报学刊”影响因子为0.362,“情报探索”的影响因子为0.470。
可见,期刊关键词频次均值ñ与期刊关键词聚散特征能够在一定程度上从主题内容层面反映学术期刊的办刊规模和办刊质量。
4
结语
本文借鉴经济学中定量测定收入分配差异程度的指标Gini系数,计算并分析了我国情报学13种期刊的关键词聚散度。结果发现,Gini系数对期刊关键词频次敏感性较差,但其大小却受关键词数量规模的影响,凸显期刊关键词聚散度差异化的是高频关键词。以各期刊的前20个高频关键词进行实验,在“ñ-Gi-ni”二维坐标中将学术期刊划分到四个象限,即分为四类:第一象限的期刊关键词频次的均值较高,且具有均等的关注度,属于综合类期刊;第二象限的期刊关键词频次的均值不高,但多数关键词能够得到较为均衡的关注度,属于高质量的专业性期刊;第三象限的期刊关键词频次的均值不高,而且分布不均衡,期刊关注点主要集中于少数关键词,这一象限的期刊属于发展实力薄弱的期刊;第四象限的期刊关键词频次的均值较高,但分布不均衡,而且关注度主要集中于少数的关键词,这类期刊定位不明确、文章主题覆盖范围较广,缺乏自己的办刊特色。
传统的期刊质量评价方法多是从表观层面分析文献的被引频次,极少考虑期刊的主题内容。山东大学刘京希教授曾经呼吁“尊重学术期刊发展生态规律的评价体系应当是内容评价而不是形式评价”[20],逯万辉认为“从期刊主题内容层面分析期刊的影响力更为合理、重要”[7]。本文给出的期刊关键词聚散度分布特征分析是对期刊主题研究方法的丰富与拓展, 可为在主题内容层面评估学术期刊的办刊规模和办刊质量提供辅助参考。
本研究仍有不足之处,比如文中没有明确给出合适的期刊关键词聚集度范围、所选期刊过于专业化(局限于情报学期刊),后续研究中将通过对多个学科期刊群的期刊关键词Gini系数的分析,全面细致地探究期刊关键词的分布规律。另外Gini系数只能从期刊关键词分布特征这一维度衡量期刊的特征,如要揭示期刊关键词Gini系数不均衡的深层次原因,还需要综合考虑期刊出版社的发展基础、办刊定位、办刊风格、服务宗旨等因素,做全面系统的分析。
作者简介
程结晶,男,教授,博士生导师,研究方向为信息分析。
李秀霞,女,教授,硕士生导师,研究方向为数据挖掘与信息处理。
参考文献
*原文载于《信息资源管理学报》2019年第4期31-36页,欢迎个人转发,公众号转载请联系后台。
*本文引用格式:
程结晶 李秀霞. 基于Gini系数的学术期刊关键词聚散度分析[J]. 信息资源管理学报, 2019, 9(4): 31-36.
制版编辑 | 王小燕