查看原文
其他

当期荐读 | 2019年第2期 科学计量学视角下的 Altmetrics发展历程分析

专题前言

Altmetrics:大数据时代的科学计量学

王贤文

(大连理工大学科学学与科技管理研究所;

大连理工大学WISE实验室)

大数据对人类生活的许多方面以及科学研究,都产生了深远影响。对于文献情报和科学计量学来说,传统的研究数据来源主要是 Web of Science等引文数据库,但科技情报、科学计量大数据的存在其实由来已久。图书和期刊的借阅次数、亚马逊网站的书籍评级和评论数据、文献数据库中的检索数据、论文下载数据等,都是有大数据特质的、迥异于传统科学计量学的数据形式。这些形式各样的科学计量大数据虽然极具研究价值,但是却没有得到学术界足够的关注。

进入21世纪后,社交媒体快速兴起,科学家和社会公众开始将其作为学术论文和学术观点传播的重要渠道。这一现象被美国科学计量学者JasonPriem 等人注意到,于2010 年提出 Altmetrics的概念(注:Priem J,Taraboreli D,Groth P,et al.Altmetrics:A Manifesto[EB/OL].[2010-10-26].[2019-02-20].http://altmetrics.org/manifesto/.),并基于社交网络(实际上并不局限于社交网络)构建了一系列新指标,从而更好地分析和理解学术研究。此后,Altmetrics的概念迅速被学术界接受,并被出版商采纳。可以说,Altmetrics是文献情报和科学计量学在大数据时代的延伸和新发展(注:王贤文.科学计量大数据及其应用[M].北京:科学出版社,2016.)。

自 Altmetrics概念问世以来,来自包括中国在内的全世界许多学者都纷纷投入到对这一新兴领域的研究之中,使得Altmetrics成为近10年来科学计量学中最为瞩目的领域之一。Altmetrics概念提出已有近10年时间,为了更好地促进我国Altmetrics的发展,«图书情报知识»编辑部在2018 年11 月组织了“浮现中的数字学术:社交媒体与学术成果传播”的专题研讨会,来自武汉大学的吴丹教授、南京理工大学的余厚强副教授、美国北卡罗来纳大学的博士生徐申萌、荷兰莱顿大学的博士生方志超、DigitalScience的白洁女士,以及我在这次专题研讨会上分享了Altmetrics的相关研究成果,取得了良好反响(注:专题研讨会的相关报道和资料,已在«图书情报知识»官方公众号上(“图书情报知识”或“tsqbzs”)发布.)。专题研讨会之后,我们希望通过更为成型和系统的形式,进一步对Altmetrics发展过程中的一些问题进行集中探讨,因此萌发了组织此次专题论文的想法。

本次Altmetrics专题一共组织了4篇论文。论文“科学计量学视角下的 Altmetrics发展历程分析”基于467篇Altmetrics文献,从科学计量学的整体角度,分析Altmetrics从传统科学计量学的土壤之中生长和发展的历程。数据质量是Altmetrics领域最为关键的基础问题之一,论文“生命周期视角下的Altmetrics数据质量研究”从数据产生、数据收集、数据聚合的生命周期视角梳理 Altmetrics的数据质量问题,提出解决思路。同样聚焦 Altmetrics 的数据质量问题,论文“替代计量数据质量评估体系的构建研究”从准确性、及时性、复现性、透明性和一致性这五个评估维度构建了Altmetrics的数据质量评估体系。而论文“科学论文首条推特的积累速度与用户类型分析”则是对Altmetrics数据的一项实证研究。论文提出科学论文首条推特的概念,有助于从数据积累的源头理解科学论文在社交媒体平台的传播过程。综上所述,这4篇论文从不同的角度对 Altmetrics发展现状、存在问题和应用进行了较为全面的探索,既有整体的发展历程总结,又有基础的数据质量评估,还有细节的指标应用。相信«图书情报知识»此次刊发的Altmetrics专题,会给国内的 Altmetrics研究者带来更多启示,并推动我国关于科学计量大数据和Altmetrics的研究更好地发展。



Photo by Roman Kraft on Unsplash


科学计量学视角下的 Altmetrics发展历程分析


田文灿1,2   胡志刚1,2   王贤文1,2

(1.大连理工大学科学学与科技管理研究所,大连,116024)

(2.大连理工大学WISE实验室,大连,116024)


摘要

[目的/意义]Altmetrics指标是科学计量与科研评价中的研究热点,从科学计量学的视角来梳理 Altmetrics的发展历程,旨在对 Altmetrics的研究现状进行整体把握和分析。   [研究设计/方法]基于Web of Science数据库,检索得到467篇 Altmetrics的相关论文作为数据基础,利用文献计量学方法从年发文量、主要研究机构、核心作者、关键词等层面对 Altmetrics的发展进行了计量分析;对核心作者和关键词进行了历时分析;并着重对 Altmetrics领域知识概念的生长与凋亡进行了深入分析。  [结论/发现]Altmetrics领域正处于平稳发展阶段,形成了五大研究方向,包括:影响力评价、社交媒体研究、文献计量指标、引文的可见度、引 文 分 析 与 学 术 交 流。  其 中, 信 息 图 表、学 术 画 像、plumx、科学奖励体系等是新出现的研究点;1/3的关键词贯穿了整个发展阶段。   [创新/价值]从海量知识概念中识别出一个领域的新增概念和凋亡概念,对 Altmetrics领域的发展和知识传承具有重要意义。

关键词

Altmetrics    科学计量学     知识概念     

生长和凋亡     知识基因     演变



1

引言

Altmetrics是“alternative metrics”的缩写,在2010年由Priem 在推文中最早提出[1]。 狭义的 Altmetrics特指对社会网络上的学术交互行为的测度[2],广义上的 Altmetrics 则涵盖了引用数据以外的所有信息源[3]。 国内学者将Altmetrics一般翻译成选择性计量学、替代计量学和补充计量学三种形式[4-8]。

随着互联网技术和开放存取的发展,Altmetrics一经提出就掀起了国内外学者的研究热潮[9-13]。 王贤文等人曾利用Altmetrics指标研究了其在科学论文综合评价方面的应用及其特点[14,15],并从成本机制、宣传机制、内容机制三个方面分析了科学论文在社交网络中的传播机理[16]。 余厚强等人则通过对新浪微博替代计量指标进行统计分析,探索了中文环境下替代计量指标的特征和规律[17]。 很多学者对于Altmetrics指标与传统引用指标在相关性方面进行了有关研究。 例如,Thelwal以 Nature和 Science 两大期刊上的文章为例,统计了它们 Mendeley 和CiteUlike中的收藏情况,揭示了文献的收藏量与其在 Web of Science 数据库中的被引量有显著相关性[18]。国内学者由庆斌等人则基于 Mendeley平台中提供的指标数据构建主成分评价模型,研究发现,在影响力评价上 Mendeley指标与传统的引用评价模型具有较高的一致性[19]。

本文在前人研究的基础上,利用科学计量学的方法,对Altmetrics的发展历程进行可视化和解读,并以知识概念的角度识别出对 Altmetrics领域的发展和知识传承具有重要意义的核心概念。


2

数据来源与研究方法

在 Web of Science核心合集中,以“TS=altmetric$”为检索式可以检索得到467 篇期刊或会议论文。 分别统计这些论文的发表年份、论文作者、研究机构和关键词。 在对作者进行统计分析时,为了解决作者的消歧问题,将每位作者的全名和所在机构进行比对,如果两者一致,就认为是同一作者。在对关键词进行统计分析时,对于一些文章的关键词缺失问题,我们利用现有的关键词数据和分词技术对文章标题进行了关键词提取,统计得到1560 个关键词,最后我们对其进行了人工合并与去重处理,如将Scientific communication与 Scholarly communication合并为后者,最终得有效关键词731个。

Altmetrics领域发展过程中必然伴随着作者、关键词的新增和消亡。 对高产作者和关键词分别进行历时态的分析,就可以展现 Altmetrics的演变历程。 为此,我们遴选出Altmetrics领域的23 位核心作者,分别检索他们在 WoS 数据库中的发文情况,然后计算Altmetrics论文占其全部论文量的比例,按照比例大小将其分为高、中、低三个类型,从微观层面上分析这些核心作者的研究方向的演变情况。 对关键词的历时分析,我们利用VOSviewer做出了关键词的聚类时间线图,识别出五个研究主题。 最后,以知识概念的角度对关键词进行了生长与凋亡的微观分析。


3

结果

3.1 发文年份分析

最早的 Altmetrics领域的 SCI/SSCI论文发表于2012 年,共有两篇:一篇是 Altmetrics 的提出者 Jason Priem 等发表在 PLOS One 上的题为 “The Altmetrics Colection”的文章[20],此文提出基于文章的转发量、推荐量、点赞量、评论量和阅读量等指标来构建一个更加微观、快速、系统和精确的科学评价机制;还有一篇是 Paul McFedries 发表在IEEE Spectrum 上的题为“Measuring the Impact of Altmetrics”的文章[21],此文指出,由于传统文献计量指标,如文章总数或引用总数,时效性太慢,索引范围太窄;而基于书签、链接、博客文章、推文等的Altmetrics指标,更适合在互联网时代准确地反映出一个科学家或一篇文章的影响力。

绘制2012—2018 年 Altmetrics 领域每年的发文量曲线(见图1),可以看出,该领域的文献发表量在2016年之前呈现线性增长趋势。 其中增速最快的是2015年,由2014年的35篇增至83篇,增长率为137%。 2016年之后,年发文量趋于稳定,目前年均发文量在100篇左右。



3.2 发文机构分析

Altmetrics领域的研究覆盖36个国家/地区,发文数在5以上的有21个国家/地区。 其中,美国(134篇)、英国(91篇)和西班牙(59篇)发文量最高,中国以30篇的发文量排在第6位。

进一步统计这467篇文献的发文机构, 并列出各机构的主要关键词(见表1)。 可以看出, 发文量和被引量均位于第一位的机构是英国伍尔弗汉普顿大学, 其主要研究主题是引文分析和网络计量学, 该机构的作者大多是从 Webometrics研究领域转向Altmetrics研究领域的。 发文量位于第二位的机构是德国马克斯·普朗克学会, 虽然作者数量只有4位, 但发文量高达28篇。 发文量位于第三位的机构是西班牙高等科学研究理事会, 此机构作者数量多达38人,团队合作度较高。 有两所中国的研究机构也进入了全球前20位, 分别是大连理工大学(9 篇) 和武汉大学(8篇)。



3.4 核心作者分析

研究Altmetrics领域的作者共有945 人,其中发文量多于一篇的作者有123人,占总作者数的13%。根据文献计量学的普赖斯定律[22],某一领域中核心作者的最低发文数量应满足如下公式:

其中nmax 代表最高产作者的发文数,m 则代表核心作者发文数。 由上述公式可以计算出 Altmetrics领域的核心作者的最低发文量为:

则发文量在5 篇及其以上的作者即为 Altmetrics领域的核心作者,共23位,占总作者数的2.43%。

表2按照发文量列出了Altmetrics领域的23位核心作者。 发文量在第一位的是英国伍尔弗汉普顿大学的 MikeThelwal,从2013 年就开始发表Altmetrics相关论文,发文39篇,占 Altmetrics领域总文献数的8.35%;其被引次数同样排在第一位,篇均被引达到28.62次/篇。 第二位和第三位都是德国马克斯·普朗克学会的,其中Lutz Bornmann 在Altmetrics领域的发文始于2014 年,发文量为28 篇;Robin Haunschild系 Bornmann Lutz 的主要合作者,发文量为 20 篇。在该领域核心作者群中,中国学者有两位,分别是王贤文(发文6篇,被引83次)及其硕士研究生徐申萌(发文5篇,被引32 次),后者现为美国北卡罗来纳大学教堂山分校博士研究生。

从作者的研究起始年份看,来自西班牙的两位合作者,格拉纳达大学的Martin-Martin Alberto(发文5篇,被引39次)和瓦伦西亚理工大学的 Orduna-Malea Enrique(发文5篇,被引39次),在核心作者群中的研究起始年份最短,是近年来出现的比较活跃的研究者。

 分别计算这23位核心作者在Altmetrics领域的发文量占其总发文量的比例,并据此将其划分为高(>50%)、中(20—50%)、低(<20%)三个类型(见表3)。 占比较高的作者,如 Timothy Bowman、Stefanie Haustein等基本都是刚刚新晋研究者,而大部分作者基本是从传统计量学转向Altmetrics领域的。 后者显然占据主流。



3.4 关键词分析

利用VOSviewer绘制出 Altmetrics研究主题聚类时间线图(见图2)。 每个聚类内部按主题出现的平均年份沿纵轴从下到上进行排列,各聚类之间则沿横轴按平均时间从左至右进行排列,节点的大小代表词频数,节点越大说明出现次数越多。 横向来看,Altmetrics的研究分为五个主题:①影响力评价;②社交媒体研究;③文献计量指标;④引文的可见度;⑤引文分析与学术交流。 纵向来看,学术书籍(academic books)、信息图表(infographics)、学术画像(academic profiles)、plumx、机构知识库(institutional repositories)、科学奖励体系(reward system of science)等是新出现的研究点。



3.5 知识概念的生长与凋亡

一个领域的自我成长的过程可以用知识概念(此处以文章关键词来表示)的生长与凋亡来反映。 为了形象直观的展示出知识概念之间的生长与凋亡的关系,我们根据每年新增概念的数量将 Altmetrics的知识概念的成长划分为三个阶段:基础成长期(2012—2014)、成熟成长期(2015—2016)和平稳发展期(2017—2018)。 利用VOSviewer绘制出了三个阶段的共现关系,图中灰色节点代表凋亡词(见图3)。凋亡的含义是这些关键词只在一个阶段出现过,并未传承进入下一阶段。 为了更直观地看到三个阶段的结果,对网络结构进行了一些调整,将同一阶段的节点布局在一处。 下方对三个阶段具有代表性的新增概念和凋亡概念进行了部分列举,并在括号内标注了新增概念数和凋亡概念数。 由于第三阶段并未有足够的时间窗口来判定知识概念的凋亡与否,故第三阶段并未列出相关凋亡概念。

可以看出,第一阶段的知识概念关联到第二和第三阶段,但第二与第三阶段的共现关系则较弱,这说明真正核心的概念在第一阶段已经出现。 对于凋亡词也并不是孤立的个体,往往都是聚团凋亡,这也意味着在 Altmetrics 发展历程中,某一研究方向的消失。经进一步统计第一与第二阶段的凋亡概念的数量发现,有 1/3 的知识概念被保留传承到了第三阶段,具有较高的研究热度。


4

结论

本文通过科学计量学的视角对 Altmetrics的发展历程进行了分析,聚焦于高产作者和关键词的历时态分析以及知识概念的生长与凋亡分析。 可以发现,Altmetrics领域正处于平稳发展阶段,形成了五大研究主题。 利用大数据来构建机构知识库或进行学者画像则是Altmetrics领域新的研究点。从知识概念的生长与凋亡的角度来看,在 Altmetrics演变历程中,有大约1/3 的关键词研究热度一直较高,可以看作Altmetrics领域的“知识基因”。

当然,本文也存在一定的局限性。 比如,数据集仅来源于 Web of Science数据库;在对知识概念的生长与凋亡进行分析时,虽然我们识别出了某一领域的新增和凋亡概念,但对于最近几年的知识概念并没有足够的时间窗口来判定其是否凋亡。 此外,关键词生长和凋亡的规律也值得进行更深入的分析。


作者贡献说明

王贤文:研究框架设计、论文审定;

胡志刚:数据处理、指导论文写作;

田文灿:数据处理、撰写论文.


支撑数据

支撑数据由作者自存储,Email:tianwen@mail.dlut.edu.cn.

1 田文灿.Paper_AF.xlsx.论文_作者.

2 田文灿,胡志刚.Paper_OG.xlsx.论文_机构.

3 田文灿,胡志刚.Paper_DE.xlsx.论文_关键词.


参考文献


本文原载于《图书情报知识》2019年第2期5-11页

版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。


制版编辑 | 朱静


当期荐读 2019年第2期 | 数字人文之热浪潮与冷思考

当期荐读 2019年第1期 | 国内外记忆实践的发展现状及趋势研究

当期荐读 2019年第1期 | 信息行为领域概念空间构建与研究进展述评

当期荐读 2019年第1期 | 高铁促进了沿线城市之间的学术合作吗?

当期荐读 2019年第1期 | LIS学科的视界——UNC-SILS院长Gary Marchionini教授学术访谈

当期荐读 2019年第1期 | 四季就是前路,学术就是生活



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存