全球两大引文数据库,都在悄悄少算引用次数
Scopus 和 Web of Science 是论文引用次数的权威统计工具,但是一项新研究发现,由于系统自身缺陷,标题中带有连字符的论文引用次数统计结果低于实际。标题中连字符数量越多、论文引用次数越多,损失的引用数也就越多。
图片来源:Pixabay
撰文 戚译引
一项新研究证明,由于人为疏忽和论文数据库缺陷的共同作用,标题带有连字符的论文引用次数统计结果偏低,这一规律适用于各个学科。
本次研究的数据来自全球两大引文索引数据库—— Scopus 和 Web of Science。Scopus 属于爱思唯尔(Elsevier)旗下,它的统计数据被用于 QS 全球高校排名的评估,而 Web of Science 提供关于期刊影响因子和 h 指数(h-index)的权威统计结果。
这项研究由香港大学(University of Hong Kong)计算机科学荣誉教授 T.H. Tse 与伍伦贡大学(University of Wollongong)研究人员合作完成,于 5 月 7 日在《IEEE 软件工程学报》(IEEE Transactions on Software Engineering)发表。
连字符会导致引用数量减少,一部分是由人为疏忽导致的。研究人员在论文中指出:“输入错误的一个很可能的原因是,当作者们引用标题中含有连字符的论文时,他们可能会漏掉其中一些连字符。”
这个结论与先前的另一项研究相符。先前的研究发现,许多研究人员不会检查引用文献的标注,甚至从别人的论文中直接复制粘贴部分参考文献列表,导致错误的引用被一再重复。
论文中还指出,如果一个科学家在引用某篇文献的时候出现了错误,他就很可能在接下来几年发表的多篇论文中继续犯同样的错误,因为错误的信息已经被储存在文献管理软件中(如 BibTex)。
不同学科中,论文标题中连字符数量与平均引用次数之间的关系。图片来源:University of Hong Kong
研究人员还发现了一种“累进税现象”。累进税(progressive tax)指税率按应纳税额的增加而逐级提高的税制,在这里指的是当你的论文引用数量越多,因为连字符标注疏忽而损失的引用数比例也就越大,论文中称之为“连字符税”。具体而言,当引用数 <20 的时候,标题中连字符数量对论文的引用次数影响不大;而当引用数 >180 的时候,标题中连字符数量将产生很大的负面影响。
出于同样的原因,和较晚发表的论文相比,较早的论文更容易受到标题中连字符数量的影响。在经历二次、三次引用的时候,如果先前的论文在参考文献中把标题写错了,这个错误可能会被重复;就算先前的论文写对了,下一个引用的人也可能犯错。
论文标题中的连字符甚至还会拉低期刊影响因子。以《IEEE 软件工程学报》为例,研究分析发现,该期刊在某一年的影响因子与其前两年中发表的论文“标题含‘-’率”(即有多大比例的论文标题中含有至少一个连字符)之间有显著的负相关。
研究人员指出,他们选择连字符来测试系统的鲁棒性,是因为它的用法格外模糊。一个“-”可以代表至少 6 个不同的事物——连字符、减号、短破折号、长破折号、横杠(horizontal bar)、表单符号。
不同的数据库可能会对连字符进行不同的处理,最终导致汇总统计结果出现混乱。例如,一篇论文的原始标题是“Metamorphic Model-based Testing Applied on NASA DAT —an experience report”,前一个“-”是连字符,后一个“—”是破折号。Scopus 和 Web of Science 的系统都把破折号修改成连字符,Scopus 还在连字符后面加了一个空格;IEEE 数字图书馆把“—”替换成两个连字符“--”;ACM 数字图书馆和 Google Scholar 干脆把它换成了冒号。
同一篇论文在不同数据库中的不同显示。图片来自论文。
因此,如果某个科学家通过其他渠道读到了这篇论文,然后进行引用,他就很可能在参考文献中列出一个和原始文献不一样的标题,导致系统无法准确识别引用情况。研究人员还真的找到了这样的案例——有人引用了这篇论文,并且将标题中的破折号写成了冒号,而 Web of Science 的数据库没有把这次引用算进去。
先前有研究发现,平均而言,论文引用数量与标题长度负相关。显然较长的标题中更有可能含有更多的连字符,但是经过进一步分析,研究人员发现对于含有同样数量的连字符的文章,标题长度对引用数没有明显的影响。
研究人员总结:“根据研究结果,我们质疑引用数和期刊影响因子的可靠程度,因为论文标题中的连字符数量与论文和期刊的实际质量无关。”
如果根据这个结论建议研究人员避免在标题中使用连字符,可能对某些学科不太公平,比如化学。要求所有人认真检查参考文献标注、保证不犯错也不太现实。研究人员认为,一个成熟的论文数据库系统应该具备足够的鲁棒性,学会自行纠正人为的标注错误,以及更好地兼容其他系统的数据。
PS:或许是受到研究结果的启发,这篇论文的标题中使用了冒号,但没有用连字符。
论文信息:
Metamorphic Robustness Testing: Exposing Hidden Defects in Citation Statistics and Journal Impact Factors, Zhi Quan Zhou ; T.H. Tse ; Matt Witheridge
DOI: 10.1109/TSE.2019.2915065
https://ieeexplore.ieee.org/document/8708940
参考来源:
https://www.sciencealert.com/hyphens-break-our-entire-system-of-scientific-ranking-new-analysis-reveals
https://www.hku.hk/press/news_detail_19547.html
本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。
▽ 精彩回顾 ▽