当期荐读 2019年第2期 | 生命周期视角下的Altmetrics数据质量研究
Photo by Franki Chamaki on Unsplash
刘晓娟 赵卓婧 韦 娱
(北京师范大学政府管理学院,北京,100875)
摘要
[目的/意义]数据质量是 Altmetrics当前面临的严峻问题之一,为进一步推进 Altmetrics的理论发展与实际应用,需要对数据质量问题进行深入分析。 [研究设计/方法]对 Altmetrics数据的生命周期进行剖析,刻画数据从新生到投入应用的整个流程。 从数据产生、数据收集和数据聚合三个环节,以动态视角分析数据质量问题及影响因素。[结论/发现]在数据产生阶段,用户的主观意愿可能造成数据质量问题;在数据收集阶段,Altmetrics来源平台的元数据准确性缺乏保障,而不同平台的文献识别方法也会影响数据质量;在数据聚合阶段,聚合器的目标定位和技术能力存在差异,数据的整合清洗方式不透明,所提供的数据缺乏质量保障。 [创新/价值]从生命周期的视角梳理 AltmetGrics的数据质量问题,以期将来能够在科研工作中更加合理准确地使用 Altmetrics数据。
摘要
Altmetrics 数据质量 生命周期
指标值 聚合工具 社交媒体
1
引言
2010年J.Priem 等人正式提出了 Altmetrics,指出“Altmetrics是基于社交网络对学术研究进行分析和传播的新型计量学的创造与研究”[1],之后很多学者或者机构尝试将 Altmetrics 引入学术评价工作中,来帮助解决当前科研评价存在的问题。 然而,作为一种新兴的计量方法,Altmetrics尚不成熟,其可靠性、操作性和适用性都屡受质疑。 其中数据质量是 Altmetrics 当前所面临的严峻问题之一,Haustein[2] 认为 Altmetrics的数据质量是一个巨大的挑战,因为相比于静态的引文数据,Altmetrics的数据来源是动态的,可以自由的更改和删除。
Altmetrics 的数据质量研究尚是一个较新的话题,但其实自20世纪80年代起,数据质量就是很多领域所共同关注的问题,不同领域之间具有共性。美国麻省理工学院将数据质量定义为“数据适合数据消费者的使用”,数据质量判断依赖于使用数据的个体,不同环境下不同人员“使用的适合性”不同[3]。 数据分析专家 Redman也认为能满足客户的既定用途的数据才是高质量的[4]。 国内学者陈远等认为“数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述[5]。
同样是应用于学术评价,引文的数据质量也是学者们十分关注的问题,蒋鸿标[6] 研究了影响引文数据准确性的客观和主观因素,以及解决措施。 苏新宁[7] 认为引文索引数据的质量直接关系到引文索引系统的整体效率及其权威性,对引文的统计分析产生极大影响。 可见如何提高数据质量,避免低劣的数据所带来的各种影响,在不同领域中始终是一个重要问题。
如果数据质量无法得到一定的保证,Altmetrics指标就失去了应用价值,根据它们进行学术评价自然也就毫无根基。 与其它领域的数据质量研究类似,Altmetrics的数据质量问题不仅要考虑数值层面的准确性、一致性等,还要考量指标值在学术评价应用中的适用性,例如不同学科之间的差异。 为推进Altmetrics在学术评价中的应用,本文将对其数据质量问题进行全面和深入的分析。
2
相关研究
尽管当前Altmetrics的数据质量受到多方质疑,但不可否认的是,这些数据来自于学术领域之外的更广泛受众,对科研工作有更加全方位的追踪,对于科研评价体系的补充和完善是有价值的。 因此很多机构和学者开始致力于解决数据质量问题。
美国信息标准化组织(National Information Standards Organization,NISO)于2013 年成立了 Altmetrics数据质量的工作,已经拟订了Altmetrics数据搜集、加工处理、传播和再利用草案。 2016年NISO对 Altmetrics数据质量提出标准框架,分三个角度来评价数据质量,分别为透明性(Transparency)、可重复性(Replicability)和正确性(Accuracy)。 定义分别为:透明性是指平台或聚合工具所提供数据的信息是清楚且详细记录的,并向所有用户(人和机器)开放以供验证;可重复性是指一组数据随着时间的变化在平台和聚合工具中的指标值一致的程度;正确性是指收集的数据可以真实反映其所表征的内容的程度[8]。 同时每个一级指标之下有更加具体的多个二级指标来进行解释(见表1)。
当前关于Altmetrics数据质量的研究主要关注以下维度:①准确性:主要集中在对个别平台的数据准确性的验证。 Zahedi等[9] 通过研究 Mendeley 中文章的元数据来检验数据的准确性,以384篇文献作为研究对象,对比它们在 Web of Science 和 Mendeley 中的元数据,发现相当多文献存在不一致的情况,特别是题名、期刊和页码的信息最容易出错。 ②一致性:主要是针对不同聚合工具的 Altmetrics指标值的一致性。 Dinsmore等[10] 认为 Altmetrics数据的一致性是当前面临的挑战之一,目前 Altmetrics的各个聚合工具提供的指标值之间几乎都存在差异,用户在使用Altmetrics 数据时,很难判断哪个值更可靠。Haustein指出不同的数据收集策略导致了聚合工具之间的数据不一致。 例如对于同一个文献集合,Altmetric.com 在推文提及数上呈现最高的覆盖率,归根于它收录了大量推文,而 Lagoto 只收集了一小部分[11]。 同时,Altmetrics的指标值可能会随着时间的推移出现降低的现象,平台的功能也会随着时间的推移而变化,这就会导致数据前后不一致的情况[12]。 ③可重复性:由于数据的动态变化,很难验证 Altmetrics数据的可重复性,以Twiter为代表的社交媒体的条款和服务对数据获取的约束也进一步阻碍了 Altmetrics的可重复性。 Haustein[13] 指出可以为事件提供时间戳,在某种程度上改善可重复性问题。 ④透明性:Rasmussen[14] 认为对于聚合工具来说,可以通过链接到网站的原网页,让用户直接看到数据的来源,来提升Altmetrics数据的透明性。 ⑤可获取性:主要是指 Altmetrics数据获取的难易程度,Wilsdon等[15] 认为Altmetrics底层数据的难以免费获取是一个严重的问题,因为社交媒体平台大部分是商业盈利性质的,所以数据不可能无条件地提供给大众使用,这将制约Altmetrics的推广和应用。 除此之外,Altmetrics还存在其他方面的数据质量问题,由于指标值背后的意义(例如,共享和喜欢行为、共享的动机以及社交媒体平台的用户类型)还没有被很好地理解,对指标的盲目使用也是当前 Altmetrics 面临的数据质量问题之一。
国内关于Altmetrics的数据质量研究比较分散,多是在Altmetrics的相关研究中有所提及。 李宏[16]等将数据质量分为元数据质量、误差以及覆盖率三个方面,而数据质量问题可能发生在社交媒体平台、补充计量工具和用户三个层面。 余以胜[17]等认为Altmetrics数据质量问题主要涉及数据来源、数据收集和数据处理三个方面。 数据来源方面关注的是某些社交媒体可以更改或停止其服务和各种客观因素对数据使用和覆盖率的影响;数据收集方面主要是指社交媒体提供的API所导致的数据质量问题;数据处理方面则是指数据稳定标识和数据消歧的问题。郭飞[18] 等认为由于 Altmetrics数据来源的丰富性和规则性的不确定,导致了数据质量的参差不齐和数据偏见。 刘春丽[19] 的研究主要关注 Altmetrics的聚合工具,并指出不同 Altmetrics提供商间数据的质量与一致性是一个重要问题,聚合工具的数据查询、跟踪和搜集方式的差异会直接导致数据的差异。
总之,尽管当前研究人员已经从多维度探讨Altmetrics的数据质量问题,一致性、准确性、可重复性和透明性是普遍关注的重点,也从 Altmetrics的不同层面或环节尝试总结相关问题,但相关研究还处于起步阶段。 不论在哪个领域,数据质量问题的改善不能仅仅从数据本身出发,而是必须追根溯源,定位数据源头,剖析数据产生变化机制,刻画数据从新生到投入应用的整个流程,从动态视角来分析各个环节中数据质量的影响因素。 本研究针对 Altmetrics 数据的特点,从生命周期的视角,对不同阶段存在的数据质量问题尝试进行整理,以期将来能够在科研工作中更加合理准确地使用Altmetrics数据。
3
Altmetrics数据的生命周期划分
当下各个聚合工具和学者所提出的 Altmetrics指标已有数十个,它们来源于各式各样的 Web 应用,而这些 Web应用往往拥有独特的创建初衷、运营模式和用户群体,用户出于不同的动机在这些 Web应用中留下了数据轨迹,这些数据进而被识别、采集和聚合,成为Altmetrics指标值。 这个过程的复杂性使得 Altmetrics数据质量问题必须分解到数据的整个生命周期,找到真正影响 Altmetrics指标有效应用的因素,为质量问题的解决提供思路。 如图1 所示,本研究将Altmetrics数据的生命周期划分为三个阶段,剖析每个阶段中数据的相关者及其动机和行为。
(1)数据产生:这一阶段主要是指 Altmetrics数据是如何从无到有的过程,具体来讲就是在某个Web应用中,某些用户出于某种动机,执行了某些操作,这些操作会引发 Web应用中某个数据项的量变,从而生成了某些数据。 我们要在这个数据产生的情境中,探讨数据质量的影响因素。 用户是该阶段的核心,他们的行为动机是否与学术评价目标存在关联,他们的行为是否会有意或无意影响数据质量。 相对而言,传统评价指标中的引文数据产生的动机比较简单,一般是科研人员引用某篇文献来佐证自己的研究或者对其进行评述。 而 Altmetrics数据的产生则更加复杂多样,不同地域、不同领域的用户可能出于不同的需求,利用不同的 Web应用进行多样化的操作。
(2)数据收集:尽管在第一阶段已经实现了数据的从无到有,但它主要侧重于引发数值变化的用户操作,至于这个数据如何与其相关的学术成果所绑定,不同用户对同一学术成果的操作如何进行归总,Web应用中对于数据的内在处理逻辑等等,则与 Altmetrics数据提供者(即各种 Web 应用)的数据收集机制密切相关。 数据收集阶段的核心参与者是各种Web应用,它们会有一套内部机制来对离散数据进行处理,最终在网页接口或API接口中能够反馈某个学术成果的相关数据项。 这个阶段往往由于各个 Web 应用有自己的运营策略和商业机密,因此收集机制往往是不透明的,也会因为对精确度的标准不一致,导致数据质量问题。
(3)数据聚合:虽然通过 Web 应用可以获得某个学术成果的某个指标值,但目前 Altmetrics指标值的获取通常是借助一些流行的聚合工具,它们会将Web应用中的某些数据项整合包装为一个 Altmetrics 指标。 这一阶段的核心参与者是 Altmetrics 聚合工具,它们对于 Web 应用中数据的提取、整合、清洗算法同样是不透明的,并且会受到技术因素的影响,从而导致各种数据质量问题。
表2为生命周期的各个阶段存在的数据质量问题,后续将围绕此表展开详细论述。
4
数据产生过程
在数据产生过程中,用户的主观因素会对数据质量产生影响,主要是指用户在主观意愿上去执行一些混淆数据真实性的行为,比较突出的就是当前很多研究所关注的Altmetrics数据的人为操纵问题。 相较于引文,Altmetrics更加开放自由,数据的贡献者身份多样,特别是多以网络虚拟身份出现,行为不会受到严格约束和监管,因此这个过程中若用户主观上想操纵数据,存在很多的可能性,例如社交媒体上的点赞量、转发量很容易受到人为因素的影响。 人为操纵可能导致指标值的减少和非正常增加。
4.1 指标值的减少
随着时间的变化,某个学术成果的被引量通常是只增不减,极个别的可能会因为施引文献被撤稿等因素导致被引量降低,但这种情况在 Altmetrics中非常普遍。 Web应用中的很多用户操作会引起指标值的降低,用户可以随意删除自己过往的操作记录,例如Twiter用户删除自己曾经发表的推文或评论,甚至可以注销自己的账户,同时清理账户相关的数据记录,这些行为都会导致Altmetrics指标值的降低。 利用这些指标值时,需要注意:第一,被删除的操作记录虽然当下已经不对指标值做出贡献,但它曾经对于某个学术成果的关注是否应该在学术评价中予以体现;第二,当观察到某个指标值存在减少的情况时,很难确定真正的减少量是多少,因为有可能是增减情况并存之后的结果,而减少的原因就更不得而知了。
4.2 指标值的非正常增加
在 Altmetrics数据中,更普遍的情况是人为因素造成指标值的非正常增加。 以社交媒体上的提及某篇论文的发文量为例,其中部分发文确实是出于对该论文的赞赏或者对研究的内容提出了质疑,但是Nicolas Robinson-Garcia[20] 等人的研究发现,在Twitter上具有较高关注的推文背后的数据是需要进一步探讨的,有一部分是一些相同的账号不停的转发营销,也存在机器转发的现象。 以下行为都会引发数据的增长,但这种行为所产生的数据价值有待商榷:①某个科研人员在社交媒体上发文宣传自己的学术成果,亲属或者朋友帮其友情转发;②论文来源期刊的营销账号在定期推送中推荐了该文章;③雇佣水军或利用机器人频繁发文,个别账户一天之内频繁发布相关论文的推文,甚至几秒钟就会发布一篇,不得不怀疑该账户是否是一种机器行为控制的账号,用不恰当的方式以增加文章的指标数据。 这些现象与引文领域中的自引现象类似,无疑会对 Altmetrics的数据质量产生很大影响。
5
数据收集过程
数据收集过程主要是指 Web 应用把针对某个学术成果分散的用户操作集中体现在指标值上,后续可以通过一定的接口对外提供这些指标值,真实呈现某个学术成果在该 Web 应用上被提及、保存、点赞等操作的情况。 然而要实现这个服务目标,也涉及到很多可能影响数据质量的细节。
5.1 元数据准确性
既然 Web应用需要能够提供特定学术成果的指标值,也就意味着用户发出请求时,需要定位到所匹配的学术成果,但在很多 Web 应用中,可能用户提交或它所收集的学术成果本身的元数据就存在准确性不足的问题,例如学术论文的标识符(特别是 DOI)的准确性。 已有研究发现,Mendeley中大量元数据与 WoS所提供的信息存在差异,尤其是来源期刊、论文题目以及页码是最常出现错误的地方,当我们利用这些字段进行检索匹配时,漏检的情况可能导致获取某个学术成果的读者数是不全面的[21]。
5.2 文献识别方法
随着时间的积累,用户对于某个学术成果的操作会越来越多,比如用户A 在自己的博客上发表了包含某篇论文标题的文章,用户B 则通过该论文展示页面的链接将其分享到自己的博客,其中包含了这篇论文的某种标识符,这些行为是用户在不同时间、不同情境下对于同一个学术成果的不同操作,如何将这些操作集成在一起就需要用到 Web 应用对于特定文献进行识别的方法,目前识别方法主要有两种,一种是采用文献的唯一标识符作为区分准则;第二种则是采用文献的题名、作者和出版年份等特征来进行识别。
基于标识符的识别方法是通过链接中包含的标识符进行文献识别。 例如twitter根据推文中是否有指向学术论文的直接链接作为计数标准。 然而 DOI可能并不是文献的唯一标识符,还有 PMID、ArXiv ID、SSRN ID、ADS ID、Amazon URLs、ISBN 等。 这种识别文献的方式存在两个层面的问题:一方面是同一篇文献拥有多种标识符,它们是否能全部被 Web 应用所识别;另一方面,若用户在社交媒体上提及一篇学术论文时,只包括了标题、作者等特征,但是没有直接链接,则不能被发现。
第二种识别方法的典型应用是 Mendeley。 Mendeley中文献读者数的计算是通过对用户所上传的文档中提取的元数据来实现的,将拥有相同标题、作者和发表年份的文档添加到同一集群中。 Mendeley认为不是所有的文档都具有标识符,因此目前不使用 DOI或者其他标识符来确定一篇文档属于哪个集群。 但是这种识别方法是否能对文献进行唯一识别,可能存在不够精准的问题,同时也会强烈依赖于元数据的准确性,例如同一篇文献,两个用户上传的题目不同(一名用户省略了副标题),Mendeley认为这是两篇不同的文献,会分别对其进行读者数计数。 但是 Mendeley也提出随着技术的进一步改进和用户清理或编辑不正确的条目,这些错误可能会被更正,但是这个过程就可能导致读者数出现突增或骤减的异常情况[22]。
6
数据聚合过程
Altmetric.com、CrossRef Event Data、Plum Analytics和 Lagotto 是当前较为常用的 Altmetrics 数据聚合工具。 这些工具缺乏统一的规范进行约束,同时数据背后的采集和聚合方式、运营范围和数据更新频率等对用户来说是个黑盒,这些因素如何影响数据质量的,值得我们进一步探讨。 根据Altmetric.com 官网可知数据聚合是通过第三方API、文本挖掘、RSS订阅等各种不同的方法实现的,同时因为不同 Web应用对于数据的维护方式也不尽相同,一些社交媒体可能会更改或停止其服务,导致数据源变更,从而影响数据源的可用性,这些过程目前都无法追踪回溯。
有实证研究[23] 表明在同一时间,不同 Altmetrics 聚合工具测度同一组论文的覆盖率和指标值时,测度结果间存在很大差异,这些工具都没有解释差异的原因。 引文数据其实也存在差异,当前较权威的引文数据库往往也只是统计数据库收录的期刊中该篇文章的被引次数,所以不同数据库之间引文数据可能存在一定差异,但是这些数值差异是可以解释的。 目前一些Altmetrics聚合工具也尝试进行类似于引文数据的工作,将某一指标值链接到原始网站来清楚说明数据来源[24],例如 Altmetric.com 中,不仅能看到某一文献在Twiter中的指标值,同时还会显示每一条具体的推文,尽管如此在我们的研究中也发现,存在显示的指标值与具体推文数量对应不上的情况。
在数据聚合阶段,影响数据质量的主要原因是各个聚合工具对于数据的整合清洗方式,主要体现在以下三个方面。
6.1 标识符的选取
如何将具有的不同标识符(DOI,PMID,Ar XivID等)或版本(例如 ArXiv版本和正式发表的版本)的相同目标对象进行聚合,聚合方法的不同会直接导致指标值的不同,从而影响数据质量。
不同聚合工具在采集 Twitter数据采用的标识符就不相同,Altmetric.com 使用的是 Twitter GNIP API 来采集数据,追踪 DOI、PMID、Ar XivID、ISBN 等标识符来计算指标值;而 Lagoto 使用 Twitter Search API(每个小时最多进行1800 次检索)来采集数据,且只追踪 DOI。 因此标识符选择的不同会导致聚合工具之间的差异,且也会造成数据的不一致和不准确。 对于没有标识符的 Web应用,聚合工具也采取了不同的采集策略,例如 Altmetric.com 对于news和policy的识别需进行文本挖掘,使用特定的算法进行采集,但其采集算法是不透明的,而不同算法势必会导致指标值的差异。 在 Altmetric.com 的官方文档中提到news指标值的覆盖时间包括两个开始时间(分别为2011年10月和2015年12月),是由于2015 年10月重新开发了新闻追踪系统,并显著提高了新闻指标值的覆盖率。
6.2 指标聚合来源
目前聚合工具所提供的 Altmetrics指标可能是直接来自某个平台API所能提供的某个字段,也可能是将多个字段进行组合,聚合为一个新的指标,以更符合学术评价的需求。 然而单个字段是否能完整表示指标的意义,字段的组合又是否科学合理,这都会影响后续指标的利用。 目前聚合工具通常只提供指标名称,但对于指标是如何构建的,并没有明确的说明。 例如针对 Mendeley,Altmetric.com 和Lagoto都提供了reader_count指标,但实际上二者的指标计算方法存在较大差别,Altmetric.com 只计算了那些保存某篇文献到自己的 Mendeley library 的个人用户的数量,而Lagoto在此基础上还加入了该文献被加入的讨论组的数量。 这势必会造成数据的不一致性,同时这也是数据缺乏透明性的表现。
6.3 更新频率
更新频率也是导致数据不一致的直接原因之一,但不同聚合工具对指标值的更新频率都不是很明确。Altmetric.com 在官网中声明不同来源的指标更新频率不同,其中 Twitter、News、Wikipedia、Scopus 等指标是实时更新反馈的,Facebook、Mendeley、Policy documents、YouTube等指标是每天更新的,其余少数指标的更新频率是每月或者每个季度。 CrossRef Event Data声称大部分指标都是实时记录指标值的变化。 然而实时更新是如何实现的,具体含义是什么,每日更新的具体时间点或是更新方式我们都无法得知,相关信息的不透明性也是 Altmetrics的数据质量问题之一。
7
结论和展望
当前针对学术成果往往会使用各种不同的指标值进行评价,所以指标数据质量的重要性是不言而喻的。 目前大部分Altmetrics数据都掌握在商业盈利性机构,同时大多数事件都是动态的,这导致了 Altmetrics在数据产生、数据收集和数据聚合各个阶段都面临着一系列关于数据质量的挑战。
关于 Altmetrics的数据质量问题,应该从两个层面考虑如何解决。 第一个是关于 Altmetrics数据值表面的一些质量问题,例如一致性、准确性等,这些问题都可以通过一些标准的约束来解决,相关研究也已经指出数据测量标准的制定将有助于改善数据质量问题[25]。 尽管 NISO 已经颁布了关于 Altmetrics 数据质量的标准,但是距离问题的解决还有很长的过程,这不仅仅需要相关机构能够将各种标准细则转化为可执行的方案,更需要商业盈利机构自觉遵守标准,来进一步推动Altmetrics更加规范化健康化的发展。 另一个层面是 Altmetrics在不同的场景下的应用价值,这种数据质量问题是更深层次的,所以解决起来也更难更具有挑战性。 就如同一次引用可能只是简单提及,也可能是深刻讨论,在社交媒体中学术活动的意义同样应该得到扩展,有一些行为是非常具有学术性的专业探讨,而有些可能仅是偶然行为。 当我们在使用Altmetrics数据时,不同的应用场景下需要考虑不同的影响因素选取合适的指标值,即用户在不同社交媒体中进行不同的学术活动的动机研究也是十分重要的。 总之, Altmetrics的使用需要正视各个阶段的数据质量,并且能够采取合适的策略尽量避免可能存在数据质量问题,同时应该加快 Altmetrics数据标准的制定并进行广泛推广,才能真正切实地促进Altmetrics在学术评价中的应用。
作者贡献说明
刘晓娟:提出整体研究思路与框架、论文最终版本修订;
赵卓婧:设计研究方案、论文撰写及修改;
韦娱:设计研究方案、论文撰写及修改.
参考文献
本文原载于《图书情报知识》2019年第2期12-18页
版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
制版编辑 | 朱静
当期荐读 2019年第2期 | 科学计量学视角下的 Altmetrics发展历程分析
当期荐读 2019年第1期 | 国内外记忆实践的发展现状及趋势研究
当期荐读 2019年第1期 | 信息行为领域概念空间构建与研究进展述评
当期荐读 2019年第1期 | 高铁促进了沿线城市之间的学术合作吗?