查看原文
其他

科研评价的基石丨SCI、Scopus等的回顾与前景展望

The following article is from 开放科学区块链 Author osblockchain



下面这些科学引文索引你都知道吗?


就用于发现的跨学科引文索引而言,大家都知道两个现存的索引——Web of Science和Scopus(2004)。再加上大型网络规模的Google Scholar(2004),这三家作为引文索引的 "三巨头 "统治了大约10年之久,并没有受到挑战。
然而10年后,在2015年前后以及之后的几年里,新一代的引文索引开始出现,以各种方式挑战3大索引 。

截至2020年当下,这些新的挑战者有的已经有了几年的发展。现在情况如何?

首先,使用更新的技术和范式,有像Digital Science这样营利性公司推出的Dimensions(2018年),它们是Scopus和Web of Science在引文/文献计量评估领域的挑战者,就像Scopus本身在2004年时对老的Web of Science挑战一样。

此外,我们看到了更多 "开放 "的引文索引兴起。特别是,在这一领域,一个非常重要的角色是重新推出的Microsoft Academic(2016年),它不仅使用像Google Scholar这样的网络抓取式技术来搜索网络,还应用了最新的自然语言处理(NLP)/"语义 "技术,并以开放许可的方式提供,被称为Microsoft Academic Graph(MAG)的数据集。

Semantic Scholar(2015年)是另一个与微软有联系的项目(由Allen Institute for AI资助),它在同一领域发挥着作用,并以开放许可证发布数据。这个搜索引擎比较 "Semantic "的一个特点是,它使用机器学习将引文类型分为是引用背景、方法或是结果。

虽然scite(2018年)是一家初创公司的新引文索引,并不提供开放数据,但它的卖点是利用NLP将引文关系打成 "支持性"、"争议性 "和 "中立性 "的引文,这是另一种通过描述引文关系实现研究背景化的方式。

除了上面提到的两个资金雄厚的智库项目外,我们还看到更多类似草根的运动,比如2017年的I4OC(Intiative for open Citations)——这是一个令人惊叹的成功的倡议,让出版商在Crossref中存入并开放参考文献,以及OpenCitations.net(I4OC的创始成员之一)从PMC中提取开放获取论文的引文,制作OpenCitations Corpus(OCC),这些都起到了进一步增加公有领域/CCO的学术元数据和引文库的作用。

历史上首次将以下部分或全部内容结合在一起。

a) 出版商在Crossref中开放的引文(由于I4OC,现在Crossref中约有50%的参考文献是开放的)。
b) 来自OpenCitations.net、Wikidata/Wikicite、Fatcat(互联网档案)等来源的引文和元数据;
c) Microsoft Academic Graph和其它来源的数据。

现在,通过对上述来源的汇总,有可能产生新的大型和全面的、大多是免费使用的 "混合/合并 "引文索引。不过即使有了免费提供的原材料,人们仍然不能低估对数据进行组合、规范化和清理所需的努力,以及创造引人注目的用户界面以增加价值的努力。

这样的发现引文索引至少有六七个,一个典型的例子是Cambia的Lens.org(2017年),它将专利源与Scholarly元数据和来自Microsoft Academic、Crossref、Unpaywall、PubMed、JISC CORE等的引文相融合,创建了一个强大的免费发现引文索引,具有强大的用户搜索和可视化功能。

其它包括Scinapse、NAVER academic、Scilit等。但是,这些新的替代品是否给用户增加了什么有趣的或想要的东西呢?

这种混合型的引文索引,在更新速度、数据的清洁度和一致性方面也可能会被打上问号,因为合并了这么多不同的数据源,而且由于它们依赖于上游项目和倡议者继续提供构建索引所需的原材料,所以可持续性问题也会被打上问号。

下面是第一部分,概述 "三大 "引文索引以及对它们的优缺点的评估。

随后将是第二部分,概述一些新的发现引文索引、其有趣的特征以及它们在两个主要领域可能具有的价值:
a. 作为个人的发现工具
b. 作为跟踪和衡量个人、团体、部门、机构甚至国家业绩的研究评估工具。

发现工具的对比



列入比较的发现服务/引文索引是:
  1. Dimensions (数字科学)

  2. Microsoft Academic(微软研究)

  3. Semantic Scholar(艾伦人工智能研究所)

  4. 各种新的 "混合 "引擎,基于合并Lens.org、Scinapse、NAVER Academic、Scilit等开源项目——重点是Lens.org(Cambia)

  5. (scite)和其他³


注:要想获得比较的资格,它们可以是免费的或商业的,覆盖跨学科领域(所以Meta.org被排除在外),或者提供自己的引文数量¹(所以我们不包括像CORE或BASE这样的大型资源库聚合器,以及像Primo或Summon²这样的图书馆发现搜索引擎)。

同时也更关注那些可以合理预期用户在现实世界中使用的系统,这就是为什么不包括OpenCitations Corpus(OCC)和COCI(Crossref开放DOI-to-DOI引文的OpenCitations索引)的原因。
  1. 一般来说,今天许多较新的发现引文索引将来自各种开放引文源的引文融合在一起并进行重复数据处理,如Microsoft Academic, Crossref , Pubmed等。任何这样的工作,都会创建一个 "新的 "引文索引。

  2. 像Summon和Primo这样的图书馆发现服务传统上不是引文索引,但互为Scopus和Web of Science等引文索引订阅者的图书馆可以在Summon或Primo中看到这些来源的引文计数。然而Summon和Primo中的Citation trails功能 ,看起来就像一个引文索引的开头,数据来自Crossref和其他来源,然而把它们排除在这个分析之外,因为这仍然不是这类系统的主要组成部分。

  3. 这是一个快速发展的领域,另一个有趣的创业公司是通过收割网络产生了自己的发现指数,它就是创业公司1Science。他们的产品最初名为OAfinder,后来改名为1Findr最终被Elsevier收购。目前还不清楚其未来的发展方向,但现在已经有免费版在https://1findr.1science.com/home。另一个有趣的是ResearchGate,它有自己的引文索引。


第一部分——三大科学引文索引概述



在进入新一代引文索引之前,或许有必要了解三大引文索引——Web of Science、Scopus和Google Scholar在这一领域的地位。

当然,Web of Science是OG引文索引。由Eugene Garfield在60年代开始的科学引文索引,当时是以硬拷贝的形式存在的,然后在80年代转移到第一批遗留的计算机系统中。在2000年代由一系列公司拥有,最有名的是汤普森路透,在2015年它被分拆为一个独立的公司 —— Clarivate。

The Clarivate time-line
如果你对这个术语感到困惑,Web of Science在技术上是网络平台的名称,它容纳了不同的数据库和引文索引。这些数据库/引文索引中最重要的是所谓的 "核心集合"。传统上它们包括科学引文索引扩展(SCIE)、社会科学引文索引(SSCI)、艺术与人文科学引文索引(AHCI),现在还有更多,但这些是你听到最多的。
由于它的传统,Web of Science多年来一直有一个陈旧的界面,搜索的局限性在现代人看来很奇怪(例如,由于过去的存储/处理限制,只有第一作者才会被编入索引等),然而在过去的5年里,这一点已经慢慢得到了修正。
与此同时,Elsevier在2004年推出了Scopus,针对这些弱点。Scopus可以说是Web of Science,但在设计之初就考虑到了2000年代的能力,因此拥有相对现代的用户界面和更好的搜索能力。

截至2020年的Scopus典型界面

从内容上看,Scopus first推出时,它被宣传为一个引文索引,在期刊标题方面比Web of Science覆盖的范围更广。另一方面,在当时,新来的Scopus无法与Web of Science的回溯性来源索引相提并论(当时很多都是印刷版的),只限于索引1996年及以后的内容。

如今二者的差异已经减小,Scopus已经向后填充了他们的回溯文件到70年代(尽管Web of Science仍然会进一步回溯),而Web of Sciencehas增加了额外的索引,如新兴来源引文索引(ESCI),以反驳Web of Scienceis过于选择性的论点。

Scopus和Web of Science还扩大了索引的来源材料,不仅是期刊文章,还包括会议论文和书籍。(如Clarivate的图书引文索引(BKCI)、会议录引文索引(CPCI))

对Web of Science和Scopus的批判

然而,尽管引文索引的范围扩大了,但Scopus和Web of Science被各种文献计量学研究和 "科学学 "论文批评为偏向STEM领域和对非英语期刊有偏见(如忽略地区性期刊)。

以Web of Science和Scopus的引文量衡量,非STEM领域的覆盖率要差得多(表3)。

特别是,由于使用Scopus和Web of Science作为文献计量来源在大学排名中占主导地位(例如,THE排名和QS排名在过去的版本中一般只使用Scopus或Web of Science),因此,相信仅使用这些引文索引可能不足以真实地反映研究质量和绩效。

泰晤士报高等教育世界大学排名过去使用Web of Science作为来源,但从2020年开始使用Scopus。

最近的2020年研究,如——"比较文献数据来源:对大学排名稳健性的影响 "和 "评估机构开放获取绩效"表明,如果你使用的数据来源不同,而且往往比Web of Science或Scopus中的数据来源更大,那么使用不同的指标和排名顺序就会显得非常不同。

进入谷歌学术

现在让我们继续讨论三大数据源中的最后一个——Google Scholar,可能是最大的数据源。

就在Scopus进入市场并最终在Web of Science旁边站稳脚跟形成双头垄断的时候,另一个新的挑战者也进入了市场——Google Scholar。

2015年Google Scholar的联合创始人Anurag——反思Google Scholar的推出带来的变化。

在2014年发表的10年回顾中,Anurag Acharya写下了他发明和开发Google Scholar的历程。

Google Scholar试图解决什么问题?Anurag分享了他在印度的学生经历,当然,获取信息是一个经常性的问题。但他发现,当他无法获得某样东西时,他至少可以写信向别人索取,令人惊讶的是(至少对我而言),当他这样做时
"大概有一半的人会送你东西,也许是转载。
然而他却反映
"... ...如果你不知道信息在那里, 你什么也做不了。"
换句话说,在我看来,他觉得要解决的发现问题和访问问题几乎一样重要,这一点在Google Scholar的工作中得到了体现。
可以说,16年后的今天,他已经取得了巨大的成功,以至于这篇文章的很多读者可能几乎无法感同身受Anurag作为学生的经历。Google Scholar可能是世界上最流行、使用最广泛的跨学科学术搜索引擎,没有任何东西可以接近。

Google Scholar的优点是什么?

1. 索引规模和更新速度

首先想到的是它与传统数据库相比的规模和索引速度。

附带地发现与大多数传统的A&I和图书馆数据库相比,Google Scholar在索引新发表的论文(包括 "在刊文章"、"Early view "类型的论文)方面往往非常快。

而事实上2016年的一篇论文发现
"Google Scholar和Scopus在为Scopus覆盖的期刊编制索引方面的中位数差异约为2个月。这一发现表明,GS中Scopus收录期刊的索引编制速度比Scopus中相同期刊的索引编制速度快。延迟的原因主要是(但不完全是)在印制文章中的参考文献列表被延迟添加到Scopus中"。
在索引规模上与Web of Science和Scopus不同,Web of Science和Scopus对其索引的期刊有著名的选择性,而Google Scholar则颠覆了这一点,只要它的采集器遇到的网络上的任何东西,只要看起来是学术性的,它都会尝试索引。
在那个年代,掠夺性期刊的概念还没有完全形成,今天一些像微软学术网这样的机构确实尝试用各种统计方法来过滤掉它们。但即使在今天,一些引文索引也只是试图把所有的东西都包括进去,可以说他们的政策是,"把它们都编入索引,让上帝(或读者)来整理它们 "的做法。
虽然这一切听起来很容易,但与当时Web of Science和Scopus所做的事情相比,很难描述这在2004年是多么大的技术飞跃和模式转变,尤其是当这一切几乎都是自动完成的时候(今天Google Scholar仍然有一个小团队)。
这需要谷歌解决一系列棘手的技术问题,比如导航和采集资源库中的内容,经常伴随着资源库中糟糕的元数据(以至于他们发明了Highwire标签,因为Dublin Core并不能解决这个问题),搜取学术论文的PDF数据,并识别、分组和合并不同的论文变体,将主要项目识别在一起,这样引文就可以为相关性排名施展魔法。
这并不是说2004年Google Scholar推出的早年没有问题,但感觉是到了2010年代,当然也包括2015年代,很多早期对Google Scholar的批评,本质上是覆盖面上的漏洞和质量极差的元数据,只要点击几下就能轻易从Google Scholar中浮出水面,但这些问题大多得到了弥补。
与其他传统的索引和新兴的索引(如微软学术图谱(Microsoft Academic graph-MAG))、Semantic Scholar等)不同,Google Scholar一直对披露其索引的规模讳莫如深,无论是从文章数量还是从索引的来源/期刊名称来看都是如此。
缺乏一个API来提供完整的数据,这就增加了难度。

这导致了一系列学术界的论文试图使用无数的间接方法来估计Google Scholar的索引规模,例如Khabsa & Giles(2014)的Capture-Recapture技术利用微软学术搜索的已知规模进行比较来估计Google Scholar的规模,而2015年的Methods for estimating the size of Google Scholar(2015)采用了多达6种不同的方法,其中很多涉及 "Absurd queries "和范围查询,试图迫使Google Scholar返回所有结果。另请参见2019年最新的一篇论文,比较Google Scholar与其他大索引的规模。

估算Google Scholar规模的方法

所以到2015年,一个大概安全的估计是,Google Scholar大概有1.6亿篇文章,到现在可能已经超过2亿了。相比之下,Scopus在2020年的今天显示的是7000万篇文章。
当写关于超过1亿篇文章的索引时,经常可能会收到评论说这不可能。毕竟,Crossref是主要的(但不是唯一的)DOI注册机构,为Scholarly内容授予DOI——2018年9月刚刚达到1亿个DOI的发行量,甚至不是所有Crossref的DOI都注册到期刊文章上。答案是多方面的,比如并不是所有期刊文章都有DOI(甚至不一定是Crossref的DOI)。但一些索引中的很多条目可能确实不是 "期刊类型"的内容,甚至不是预印本(如今一些预印本服务器开始发布DOI),而可能包括博文、指南等。
2. 全面的全文索引,巨大的相关性排名和索引链接到免费阅读文章
其次,正如10年回顾中所描述的那样,Anurag并没有简单地停留在索引元数据上,这在当时是所有A&I的标准。相反,他敲开了从Elsevier到ACS的出版商的大门,以获得Google Scholar爬虫在付费墙后爬行索引全文的许可。

虽然有些人一开始抵制,但出版商们一个接一个地屈服了,因为忽视Google Scholar可能带来的流量简直是愚蠢的,尤其是当他们的竞争对手没有这样做的时候(我看到出版商的估计显示,他们的大部分推荐来自Google和Scholar,而不是图书馆系统)。

事实上,Google Scholar索引了几乎所有主要出版商的全文,这是我很少看到有人提到的一大优势。Google Scholar能够显示你的查询词在论文中匹配的片段,这给你提供了疯狂的上下文量,如果你不索引全文是不可能的。

你甚至不需要进入一篇论文,就能轻松判断出这篇论文是否可能是相关的。

Google Scholar 匹配全文,搜索片段会告诉你哪些文章与你的关键词相匹配。

事实上,Google Scholar的流行并不是一个谜。

它以专注的方式很好地完成了基本的工作,几乎是无与伦比的覆盖面,全文索引,以及在许多学科中都有很好的相关排名(我认为这本身就是大量眼球和点击的功能,帮助Google优化他们的相关排名。这一点是新的服务难以比拟的)。
另一个很少被人提及的原因是,在开放获取成为一件大事之前,Google Scholar几乎是单枪匹马地扛起了火炬,通过查找和可靠地链接到任何可以获得的免费阅读副本(期刊页面、资源库、学术研究网络、作者主页),远在其它发现搜索引擎和数据库开始认真对待提供免费阅读文章的访问之前。
即使在今天,你在数据库中看到的大多数开放获取查找功能都是通过Unpaywall,而Google Scholar仍然是免费阅读文章最可靠的链接来源之一。
在2010年代,图书馆试图创建自己的Google Scholar版本,并寄希望于Summon、Primo、EDS和Worldcat Discovery等 "网络规模发现服务"。
他们都没能在Google Scholar的普及率上有多大的影响,可能是因为从一开始这就是一场不公平的斗争。

当Google Scholar专注于它的目标——发现像文章一样的内容时,图书馆系统经常被要求扮演多种角色,例如,作为一种已知项目的搜索方式,为本科生寻找教科书,或为历史学家寻找档案等,导致了折衷。

Exlibris Primo——一种流行的图书馆发现服务,它的声明用途是什么?
虽然我不敢说Google Scholar是所有情况下唯一的、最好的发现工具(例如,像Pubmed或Psycinfo这样的重点学科工具通常可能是更好的选择),但如果你只知道在所有使用情况下使用一种工具,那么默认使用Google Scholar可能不会是一个糟糕的选择。
谷歌学术作为文献计量的来源
虽然引文索引的本质是提供引文计数,但可以说很多像Google Scholar这样的工具更侧重于主要作为发现工具使用,而不是为高级管理员和文献计量学家设计的工具,用于进行文献计量分析和研究评估。

到了2010年代,Google Scholar几乎是姗姗来迟地开始增加功能。没有什么太花哨的功能,大多是无脑的,比如保存列表,简单的引用功能,根据你关注的档案和相关工作的推荐,查询建议,更好的移动支持,识别你何时剪切和粘贴引用等。

他们甚至开始向指标提供和跟踪扩展,在2011年推出了Google Scholar profiles,并在2012年创建了Scholar Metrics年度期刊排名——与Clarivate的Journal List排名相比较——Journal Citation Reports和Elsevier的Scopus Journal Metrics。

Google Scholar在这次尝试进入引文游戏中,与Scopus和Web of Science的竞争中表现如何?

就发现搜索工具而言,Google Scholar早已超越了Web of Science或Scopus(也可参见2015年JISC报告中关于研究人员行为的各种调查)。当然,虽然会有一些研究人员(要么是在科学引文索引非常强大的地方开始职业生涯的老教授,要么是来自某些国家,在 "SSCIE "期刊上发表文章是个大问题,但即使是这样的情况也可能很快就会结束),他们会坚持在Web of Science或Scopus中搜索,因为他们只能引用这些索引中包含的期刊,但大体上他们会被那些第一直觉是搜索Google Scholar的研究人员所取代,特别是那些Web of Science覆盖较少的领域。

但是,Google Scholar作为文献计量学的评估来源又如何呢?

毫无疑问,Google Scholar的档案非常受欢迎,因为它易于设置和维护,提高了知名度(它甚至让你有机会出现在Google知识面板上进行Google搜索!)。

还有一些研究人员喜欢Google Scholar的指标,因为他们获得了更高的引用次数,通常使用Harzing的publish or perish软件提取,Google Scholar官方唯一允许(或至少有些人建议这样做)从Google Scholar中刮取结果进行文献计量分析的工具。
关于Google Scholar最常被问到的一个问题是,为什么它不提供API或某种方式来批量提取数据。目前大规模获取丰富的Google Scholar数据的方法仅限于使用脚本、浏览器扩展和其他工具(最著名的是Hazing的Publish or Perish.)从Google Scholar研究页面上进行抓取,这些方法对于大规模的使用来说是非常有限的,虽然会不断地抛出Captchas等反制措施。不知道是否有一个正式的答案,为什么Google Scholar不提供API,但一般的信念/怀疑是,作为Google Scholar获得许可,在出版商付费墙后索引全文的回报,他们不允许通过API提供内容。(比较一下微软学术网有API但不提供/索引全文的情况)。
然而,总的来说,在作为度量衡提供商的竞争中,Google Scholar充其量只是老三。其中一部分原因是,由于缺乏为深度文献计量学分析而设计的API或接口,不像Web of Science或Scopus那样可以轻松地批量获取Google Scholar的数据(Clarivate提供了incites插件,Elsevier提供了Scival)。
另外,人们的感觉还是只有Web of Science和Scopus等 "合适的引文索引 "的引用次数和指标才算。与此相关但现在有些不太强烈的观点是,只有在这些引文索引中收录的期刊上发表文章才算数
这其中有一部分纯粹是惯性思维,可能存在这样的想法,即Google Scholar的数据与Scopus和Web of Science相比,还是太不干净、太不准确,不能用。但关键还是与知名大学排名都用Scopus或Web of Science有所关系。
只要Scopus和Web of Science保持其作为衡量和评估研究的事实工具的控制力,它们在发现方面的作用减弱(主要从Google Scholar手中接管)就不会对它们造成那么严重的伤害。

为了更好的数据质量,付出这么多代价值得吗?

质量成本。Clarivate和Elsevier的代表们无疑会用这种说法来证明他们产品的价格。当他们是镇上唯一的游戏时,这个论点是强有力的,但现在随着竞争者的出现,其中许多是免费的(Microsoft Academic,COCI等),尤其是在覆盖率相当的情况下,这个论点可能就站不住脚。
各种新的引文来源与Web of Science和Scopus的相对覆盖率是多少?关于这个问题的研究仍然不多,但一般来说,模式已经开始出现——就覆盖率而言(以引文量来衡量)——Google Scholar是无可争议的最大覆盖率,其次是Microsoft Academic(通过Microsoft Academic Graph提供开放数据)。Dimensions,Scopus和Web of Science在规模上处于下一个层次。不幸的是,Crossref中的开放引文集(OpenCitations的COCI是专注于doi to doi引文的一个子集)由于几个大出版商即Elsevier和ACS的牵制而占据了后面。然而元数据的覆盖率和质量是两个独立的因素......。
早期的研究比较了新一代的引文索引(通常是基于免费来源,如Microsoft Academic Graph,Crossref来源)和金标准的引文索引(如Scopus),确实发现前者由于各种原因(大量的剪裁数据等)往往不太准确。
就像 Google Scholar 受益于网络效应,即有更多的访问者,从而有更多的数据来优化相关性,Scopus 和 Web of Science 作为权威的文献计量/引文来源,受益于几十年来研究人员和图书馆员的努力,他们积极地去查阅数据,指出错误,加以纠正(尤其是他们自己的作品)。这在一定程度上解释了这两个引文索引与Google Scholar或其他新来者相比准确性更高。毕竟,AI/ML在发现此类错误、消除作者歧义等方面的能力是有限的。
但从长远来看,通过指出质量差异来证明巨额费用的合理性只能走到这一步。
人们不禁要问,当你从外面免费提供的资源中获得同样的覆盖面,甚至更多的覆盖面时,像Web of Science或Scopus这样的传统系统如何继续证明它们作为昂贵的A&I的存在。你可以选择像Lens.org这样的资源,它有很好的用户友好界面,或者对于那些有技术能力的人来说,可以使用微软学术图谱提供的开放数据来制作定制的仪表盘。

这样的开放引文数据是否会或许通过众包努力继续提高质量?我们会不会达到一个点,当开放的引文来源足够好,开放性的优点开始胜过质量。
诸如此类问题的答案将会影响到未来引文索引在文献计量学领域的发挥。
在发现游戏中,Google Scholar能被打败吗?
1.伦理/道德争论
一种反对Google Scholar的论点往往针对过度依赖单一垄断方提供所有学术发现需求是危险的。典型的论点是,谷歌以突然放弃项目而闻名,而且Google Scholar并不是一项特别核心的服务,这也无济于事。这将是一个灾难,如果我们把所有的鸡蛋在一个篮子里,他们打破... ...

学术图书馆利用这个论点来回击放弃发现的论点,把发现让给Google和Google Scholar,而把重点放在交付上。

另一个反对Google Scholar的道德/伦理型论点是,如果每个人都使用Google Scholar,可能会给他们太多的权力,即使他们没有出于任何邪恶的目的监视我们,他们也可以很容易地访问和挖掘世界范围内学术界的的搜索模式,以获得对世界的更多洞察力,毕竟知识就是力量。
注:Anurag Acharya曾多次用相当强硬的措辞坚持认为,Google Scholar不像Google,不会对个人搜索和个性化进行太多的追踪。这里听听他在2015年对Lisa Hinchliffe的澄清问题的回答。但当然,在不追踪个人的情况下,汇总挖掘还是非常有价值的。
虽然所有这些论点都很好,但怀疑实用主义往往会占上风,学者们会使用有效的工具。要想让我远离我的默认工具,也就是越来越多的Google Scholar,你需要向我展示一些同样好的东西,而且更有可能让我感动。道德和伦理的争论毕竟只能到此为止。
也许能想到主要的伦理类型的论点,可能是利用开放科学的推动力,并提出这样的论点:Google Scholar的数据是不透明的,因为没有API或数据来检查,所以使用它做文献评论是不道德的,因为rhe结果是不可复制的。

另一方面,Google Scholar的一些最新竞争对手实际上也提供和/或使用了开放数据——例如微软公司的微软学术图谱数据是根据ODC-BY和Semantic Scholar的S2ORC授权的,这使得结果在某种程度上更加透明。
想要让这种数据开放和搜索透明化,猜想其中一个问题是意味着要牺牲掉想要的用户功能,即能够在全文内搜索,甚至是那些付费墙后的全文。由于版权问题,S2ORC只能发布元数据和开放存取论文,而微软学术图形数据可以作为开放数据发布,正是因为它不包含全文(尽管它可能会处理全文进行转换使用,例如提取研究领域)。
不管出于什么原因,发现引文索引的大规模全文索引是罕见的。除了Google Scholar之外,也许Dimensions是唯一一个在任何规模上都能做到这一点的公司。大多数其他的公司,比如MAG,要么不匹配全文,要么只匹配相对较小的开放存取论文语料库中的全文(比如Lens.org从JISC CORE中提取的)。
2. 与Google Scholar竞争,成为实用性的发现工具。
抛开这样的道德争论,新的竞争者有两种方法可以在发现游戏中区别于Google Scholar。
但首先,为了让你有机会成为竞争者,我们假设你有和Google类似的资源,你可以在这个问题上进行抓取网络和挖掘所需的数据(比如说Microsoft Research),或者在失败的情况下,合并现有的开放数据(现在有很多)来创建你自己的索引,在规模上与Google Scholar竞争。
事实上,很可能尽管有来自微软等使用类似技术的竞争对手的竞争,目前所跟踪的关于索引大小的研究都仍然指向一个方向,Google Scholar仍然拥有最大的索引。
简单地说,Google Scholar比所有其他的大,公平的一些像微软学术确实得到接近的一些研究,但无可争议的覆盖率之王仍然是Google Scholar。
例如看到2020年的研究,这里比较Google Scholar与其他重要的新来源,包括Web of Science、Scopus、COCI(本质上是Crossref开放引用)和Dimensions。

Google Scholar、Microsoft Academic、Scopus、Dimensions、Web of Science和OpenCitations的COCI:通过引文覆盖率的多学科比较。
如你所见,Google Scholar覆盖了整个聚合集的88%,而最接近的竞争对手Microsoft Academic只覆盖了60%。
长期以来,特别是专门从事系统性综述的研究人员和图书馆员都知道,Google Scholar不能很好地控制搜索。
虽然Google Scholar确实将系统性综述的大部分论文收录在它的索引中(高召回率),但缺乏精确控制功能意味着你无法有效地运行搜索来获取这些论文(低精度)。

它所缺乏的一些功能包括:
  1. 支持复杂的长查询--搜索限制在256个字符以内

  2. 支持嵌套布尔搜索

  3. 不支持通配符和近似符(支持自动拼写,不能轻易关闭)

  4. 只支持某些字段的搜索

  5. 最多 1,000 条结果,没有批量出口。

再加上人们还认为Google Scholar的搜索结果并不总是可重复的,甚至担心Google Scholar的泡沫(可能会出现,也可能不会出现),这似乎是竞争对手可以改进的地方。
这似乎是Lens.org所采取的方法,它具有极其强大的结构化搜索功能,如大量的字段搜索以及复杂的布兰搜索语法。本系列的第2部分将回顾Lens.org,但现在如果你好奇的话,请看看——你应该尝试Lens.org的7个理由(更新到5.16.0版本--2019年3月)。

Lens.org结构化搜索

话说回来,想要这种功能的用户市场有多大?大多数研究人员似乎确实满足于他们在Google Scholar中有限的控制权。

更加 "语义化",推过10个蓝色链接。

其次,我们可以采取相反的方式,推动完全语义搜索的方式。

这样说是什么意思呢?

虽然Google Scholar并不是像我们前面所看到的那样100%严格的布尔运算,但它仍然具有关键词搜索系统的外衣,你可以使用OR函数,为短语搜索做引号等,让你对搜索有一定的控制权(尽管你往往可能没有意识到Google Scholar有时可能会悄悄地改变你的部分搜索内容,比如扩大术语,放弃一两个术语等)。

但与Microsoft Academic或Semantic Scholar这样的系统相比,这根本算不上什么,在这些系统中,布尔运算符,甚至是像OR这样的简单运算符都被完全抛出窗外,系统会试图解释你的搜索。

Microsoft Academic对您的搜索进行了解释,即使标题中少了一个字,它也能猜出正确的论文标题(来自博客的例子)。

当然Google Scholar在向Google Scholar中添加功能方面一直相当保守(至少表面上是这样),在过去的25年里,虽然Google通过添加知识图谱(Knowledge Graphs)、网页中的特色片段(Feature snipplet)来处理问答查询,甚至是BERT等最新的NLP技术,已经远远超越了 "10个蓝色链接范式",但除了一般的变化之外,Google Scholar又有多少受益,目前还不清楚。

也许一些新的创新的 "语义 "功能来进一步增加搜索的上下文,可以帮助人们超越Google Scholar?

语境化研究

在一些较新的引文索引中看到的一个主要方法是,通过跟踪论文甚至会议论文和书籍之间的链接,推动研究的共时化。

例如,Digital Science的Dimensions追踪论文发表、基金、资助者、临床试验、数据集、专利、政策文件等之间的链接。

Semantic Scholar也是这样做的,它将论文与预印本、幻灯片、视频、演示文稿、代码库甚至在线提及(推特、博客文章、新闻报道)链接起来。

另一个主要领域是自动主题/实体提取技术,以自动分配概念,这一点在微软学术界的 "研究领域 "标签自动生成中得到了最好的体现。

使用先进的NLP技术,如分层主题建模 ,他们能够在一个6层的层次系统中,将论文自动生成并分类为几十万个可控主题,这些主题不仅在引擎下使用,而且还暴露在人类用户面前,用户可以使用它来浏览。

微软学术研究领域页面——"图书馆分类"
他们声称这个系统是自动自学的,能够快速识别新出现的研究集群,比如COVID-19主题。
另一个有趣的领域是在引用行为中应用语义学。

例如,Semantic Scholar利用NLP技术来对引文进行类型化,而不仅仅是计算引文,它还根据引文是属于方法、结果还是背景,以及论文中的参考文献是否对论文具有高度影响力来进行类型化。

这使得Semantic Scholar能够对Google Scholar非常有用的 "在引用文章中进行搜索 "功能做出自己的调整,在查看有数百个引用的开创性论文或综述性论文时经常使用该功能。

在Google Scholar中进行论文引文的典型搜索。
在Semantic Scholar中,除了只做一个引用论文的关键词外,你还可以使用各种标准(如引用类型)进行过滤。

其他可能的创新,如scites按 "支持"、"争议"(同样通过NLP)对引文进行分类,也是尝试不同方法的有趣尝试。

按引文类型分类的引文可视化
最新的scite改进之一,甚至允许你有选择地往下钻,按照引文的类型来跟踪引文图,给挖掘引文的老做法带来了新的变化。
当然,目前还不清楚这些是否都只会是一些酷炫的技巧,并不能让人满意,很可能作为一个纯粹的发现工具超越Google Scholar,即使可以做到,也未必能盈利。

虽然微软学术和Semantic Scholar等竞争者在资源丰富的口袋支持下,可以负担得起这个游戏,但不难看出,在一个有免费的优秀Google Scholar存在,而微软等巨头又试图提供同样免费的发现服务的行业里,想从这个行业里赚钱似乎是一件愚蠢的事情。

再加上越来越多的利用开放元数据的发现索引(如Lens.org,Scinapse),在我看来,如果你是一家盈利的公司,发现游戏正在迅速成为一个 "红海 "的局面。

也许是认识到了这一点,Digital Science公司的Dimensions提供了一个免费的发现服务,在大多数功能上几乎与Google Scholar相媲美(例如,像Google Scholar一样,Dimensions采取了一种包容性的方法,包括它能看到的所有期刊),甚至还提供了一些额外的过滤器集。

然而,我怀疑Dimensions实际上并不是为了与Google Scholar竞争,而是更多地针对Scopus和Web of Science以及它们作为研究质量仲裁者的地位。

与 Microsoft Academic 不同的是,免费版的 Dimensions 实际上在免费版中隐藏了机构过滤器,它聪明地认识到了一个事实,即主要的使用案例是研究所级别的文献计量学,并将其锁定,以确保想要以这种方式使用它的图书馆或研究机构必须付费。
你看到爱思唯尔收购的1Science 1Findr服务也做出了类似的决定,免费版同样缺乏机构过滤器。
把Dimensons看成是一个包容性更强的Web of Science,覆盖面更广的Scopus,与Google Scholar不同的是,有API和简单的方法来批量提取数据。
从Dimensions plus的附加功能来看,特别是Dimensions分析的功能,如自定义分析和仪表盘,对Google BigQuery的支持等,很明显,高级产品更多的是针对那些想要比Scopus或Web of Science(类似于Google Scholar)更具包容性的覆盖面,以及易于批量访问文献计量学进行评估(不像Google Scholar)的人。

当然,想要推翻Scopus或Web of Science,或者至少在他们的业务中加入肌肉,使其被认可为一个值得信赖的计量学提供者,其难度不亚于在发现领域取代Google Scholar。

正如已经提到的,Scopus和Web of Science已经在这个领域建立了品牌,并且内置了成千上万的图书馆员和研究人员的基础,他们不可避免地会发现错误,并帮助反馈这些错误进行修正,从而获得相对干净的数据。

另外,一个引文索引要想被认可,需要尽可能多的第三方研究人员对其进行研究,而Scopus和Web of Science虽然有很多弱点,但由于几十年的研究,研究得极为透彻。这也是Digital Science一直鼓励有兴趣在Dimensions数据上做研究的文献计量学家申请访问的原因。当然,与图书馆和机构合作,尝试使用Dimensions数据进行测量是正在进行的事情。

截至2020年,Dimensions能否立足于挑战领跑者还为时过早,但它看起来确实很有希望。另一个可能的文献计量学龙头竞争者是Microsoft Academic的开放数据,它同样具有像Dimensions一样的包容性覆盖面,也可以通过API或Azure云存储方便地批量访问数据(技术上数据是免费的,你需要为Azure上的存储/访问付费)。

结语



Google Scholar和Web of Science/Scopus在各个领域都是山中之王,这是有原因的。

他们拥有强大的品牌认知度,在开发上的先发优势,以及大量的眼球和用户,导致了几乎是病毒式的改进循环。与这样成熟的竞争对手竞争并不容易,即使一个人有很深的口袋(微软)或一个杀手锏(scite)。

看看2030年的格局会是怎样的,将会很有趣。
来源:https://medium.com/a-academic-librarians-thoughts-on-open-access/the-next-generation-discovery-citation-indexes-a-review-of-the-landscape-a-2020-i-afc7b23ceb32

更多阅读:

科学引文索引(SCI)的前世今生

统计学很无聊?谷歌统计学家带你证明

2020年体育科学SCI期刊影响因子报告

2020年体育学SSCI期刊影响因子报告

2020年康复医学SCI和SSCI期刊影响因子


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存