科研评价的基石丨SCI、Scopus等的回顾与前景展望
The following article is from 开放科学区块链 Author osblockchain
下面这些科学引文索引你都知道吗?
发现工具的对比
Dimensions (数字科学)
Microsoft Academic(微软研究)
Semantic Scholar(艾伦人工智能研究所)
各种新的 "混合 "引擎,基于合并Lens.org、Scinapse、NAVER Academic、Scilit等开源项目——重点是Lens.org(Cambia)
(scite)和其他³
一般来说,今天许多较新的发现引文索引将来自各种开放引文源的引文融合在一起并进行重复数据处理,如Microsoft Academic, Crossref , Pubmed等。任何这样的工作,都会创建一个 "新的 "引文索引。
像Summon和Primo这样的图书馆发现服务传统上不是引文索引,但互为Scopus和Web of Science等引文索引订阅者的图书馆可以在Summon或Primo中看到这些来源的引文计数。然而Summon和Primo中的Citation trails功能 ,看起来就像一个引文索引的开头,数据来自Crossref和其他来源,然而把它们排除在这个分析之外,因为这仍然不是这类系统的主要组成部分。
这是一个快速发展的领域,另一个有趣的创业公司是通过收割网络产生了自己的发现指数,它就是创业公司1Science。他们的产品最初名为OAfinder,后来改名为1Findr最终被Elsevier收购。目前还不清楚其未来的发展方向,但现在已经有免费版在https://1findr.1science.com/home。另一个有趣的是ResearchGate,它有自己的引文索引。
第一部分——三大科学引文索引概述
如果你对这个术语感到困惑,Web of Science在技术上是网络平台的名称,它容纳了不同的数据库和引文索引。这些数据库/引文索引中最重要的是所谓的 "核心集合"。传统上它们包括科学引文索引扩展(SCIE)、社会科学引文索引(SSCI)、艺术与人文科学引文索引(AHCI),现在还有更多,但这些是你听到最多的。
"大概有一半的人会送你东西,也许是转载。
"... ...如果你不知道信息在那里, 你什么也做不了。"
"Google Scholar和Scopus在为Scopus覆盖的期刊编制索引方面的中位数差异约为2个月。这一发现表明,GS中Scopus收录期刊的索引编制速度比Scopus中相同期刊的索引编制速度快。延迟的原因主要是(但不完全是)在印制文章中的参考文献列表被延迟添加到Scopus中"。
在那个年代,掠夺性期刊的概念还没有完全形成,今天一些像微软学术网这样的机构确实尝试用各种统计方法来过滤掉它们。但即使在今天,一些引文索引也只是试图把所有的东西都包括进去,可以说他们的政策是,"把它们都编入索引,让上帝(或读者)来整理它们 "的做法。
这并不是说2004年Google Scholar推出的早年没有问题,但感觉是到了2010年代,当然也包括2015年代,很多早期对Google Scholar的批评,本质上是覆盖面上的漏洞和质量极差的元数据,只要点击几下就能轻易从Google Scholar中浮出水面,但这些问题大多得到了弥补。
当写关于超过1亿篇文章的索引时,经常可能会收到评论说这不可能。毕竟,Crossref是主要的(但不是唯一的)DOI注册机构,为Scholarly内容授予DOI——2018年9月刚刚达到1亿个DOI的发行量,甚至不是所有Crossref的DOI都注册到期刊文章上。答案是多方面的,比如并不是所有期刊文章都有DOI(甚至不一定是Crossref的DOI)。但一些索引中的很多条目可能确实不是 "期刊类型"的内容,甚至不是预印本(如今一些预印本服务器开始发布DOI),而可能包括博文、指南等。
另一个很少被人提及的原因是,在开放获取成为一件大事之前,Google Scholar几乎是单枪匹马地扛起了火炬,通过查找和可靠地链接到任何可以获得的免费阅读副本(期刊页面、资源库、学术研究网络、作者主页),远在其它发现搜索引擎和数据库开始认真对待提供免费阅读文章的访问之前。 即使在今天,你在数据库中看到的大多数开放获取查找功能都是通过Unpaywall,而Google Scholar仍然是免费阅读文章最可靠的链接来源之一。
关于Google Scholar最常被问到的一个问题是,为什么它不提供API或某种方式来批量提取数据。目前大规模获取丰富的Google Scholar数据的方法仅限于使用脚本、浏览器扩展和其他工具(最著名的是Hazing的Publish or Perish.)从Google Scholar研究页面上进行抓取,这些方法对于大规模的使用来说是非常有限的,虽然会不断地抛出Captchas等反制措施。不知道是否有一个正式的答案,为什么Google Scholar不提供API,但一般的信念/怀疑是,作为Google Scholar获得许可,在出版商付费墙后索引全文的回报,他们不允许通过API提供内容。(比较一下微软学术网有API但不提供/索引全文的情况)。
另外,人们的感觉还是只有Web of Science和Scopus等 "合适的引文索引 "的引用次数和指标才算。与此相关但现在有些不太强烈的观点是,只有在这些引文索引中收录的期刊上发表文章才算数
各种新的引文来源与Web of Science和Scopus的相对覆盖率是多少?关于这个问题的研究仍然不多,但一般来说,模式已经开始出现——就覆盖率而言(以引文量来衡量)——Google Scholar是无可争议的最大覆盖率,其次是Microsoft Academic(通过Microsoft Academic Graph提供开放数据)。Dimensions,Scopus和Web of Science在规模上处于下一个层次。不幸的是,Crossref中的开放引文集(OpenCitations的COCI是专注于doi to doi引文的一个子集)由于几个大出版商即Elsevier和ACS的牵制而占据了后面。然而元数据的覆盖率和质量是两个独立的因素......。
就像 Google Scholar 受益于网络效应,即有更多的访问者,从而有更多的数据来优化相关性,Scopus 和 Web of Science 作为权威的文献计量/引文来源,受益于几十年来研究人员和图书馆员的努力,他们积极地去查阅数据,指出错误,加以纠正(尤其是他们自己的作品)。这在一定程度上解释了这两个引文索引与Google Scholar或其他新来者相比准确性更高。毕竟,AI/ML在发现此类错误、消除作者歧义等方面的能力是有限的。
注:Anurag Acharya曾多次用相当强硬的措辞坚持认为,Google Scholar不像Google,不会对个人搜索和个性化进行太多的追踪。这里听听他在2015年对Lisa Hinchliffe的澄清问题的回答。但当然,在不追踪个人的情况下,汇总挖掘还是非常有价值的。
想要让这种数据开放和搜索透明化,猜想其中一个问题是意味着要牺牲掉想要的用户功能,即能够在全文内搜索,甚至是那些付费墙后的全文。由于版权问题,S2ORC只能发布元数据和开放存取论文,而微软学术图形数据可以作为开放数据发布,正是因为它不包含全文(尽管它可能会处理全文进行转换使用,例如提取研究领域)。
事实上,很可能尽管有来自微软等使用类似技术的竞争对手的竞争,目前所跟踪的关于索引大小的研究都仍然指向一个方向,Google Scholar仍然拥有最大的索引。 简单地说,Google Scholar比所有其他的大,公平的一些像微软学术确实得到接近的一些研究,但无可争议的覆盖率之王仍然是Google Scholar。 例如看到2020年的研究,这里比较Google Scholar与其他重要的新来源,包括Web of Science、Scopus、COCI(本质上是Crossref开放引用)和Dimensions。
如你所见,Google Scholar覆盖了整个聚合集的88%,而最接近的竞争对手Microsoft Academic只覆盖了60%。
支持复杂的长查询--搜索限制在256个字符以内
支持嵌套布尔搜索
不支持通配符和近似符(支持自动拼写,不能轻易关闭)
只支持某些字段的搜索
最多 1,000 条结果,没有批量出口。
你看到爱思唯尔收购的1Science 1Findr服务也做出了类似的决定,免费版同样缺乏机构过滤器。
结语
更多阅读: