查看原文
其他

一篇压根不存在的文献被引用400次?!揭开"幽灵文献"的真面目

2017-11-20 医咖会 生信宝典

转载自医咖会,已获授权。

:本文来源于2017年10月26日Harzing.com上的一篇文章,原作者为Anne-Wil Harzing原文标题"The mystery of the phantom reference"。文章略有删改。下文中的“我”是作者Anne-Wil Harzing的朋友Pieter Kroonenberg,一名荷兰的退休统计学教授。


在准备给一本Elsevier期刊投稿的时候,这本杂志的作者指南中的一篇参考文献引起了我的兴趣:


Van der Geer, J., Hanraads, J.A.J., Lupton, R.A., 2000. The art of writing a scientific article. J Sci. Commun. 163 (2) 51-59. [The journal name can also be found with its full title Journal of Science Communications]


这篇文章的一作是我之前的同事,我们统计学院里专注于实验心理学和多元分析的Van de Geer教授。“原来他还有这样的一面呀”,我心里想,“他竟然会对科学写作指导规范有所研究”。


然而,再仔细一看:同事的名字是Van de Geer,而这篇文章的作者是Van der Geer。拼错了么?还是认错人了?不管怎样, 我google了一下这篇文章,却怎么也找不到


有一本意大利期刊的名字很相近,但名字是Journal of Science “Communication” 而不是 “Communications”,而且这个杂志2002才创刊,不会在2000年就发表了文章。再仔细看看文章所在的卷数:163卷


在学术规范这个学科领域,通常需要很久才能积累如此数目的卷数。还有一点奇怪的就是,文章的二作似乎就只发表过这么一篇文章,这对于一个研究写作规范的学者来说很不寻常。


长话短说,我最后发现:这篇文章根本就不存在!它仅仅是一篇为了展示Elsevier这本杂志的引用格式而存在的“幽灵文献”


尽管如此,我发现在Web of Science上这篇文章有近400次引用,而在Google Scholar上引用次数甚至更多 (文献搜索两大良器 

基于人工智能的文献检索,导师查找,更聪明   

GeenMedical:文献查询、筛选、引用排序、相似文献、全文下载、杂志分区、影响因子、结果导出、杂志评述、直接投稿,一站服务

)。我知道很多科研人员并不把参考文献当成一件严肃的事情来对待。但是,论文里引用不存在的文献,又是怎样的一种体验呢?我决定来一探究竟。


第一步

来源以及Web of Science的引用记录

咱们一起来从这篇有疑问的参考文献本身看起。我刚才提到了,这篇“幽灵文献”最初是用来展示Elsevier这本杂志的规范引用格式(下图;请注意:最近Elsevier已经把这篇文献的发表年份从2000年改成了2010年)。


 


用下面的关键词搜索Web of Science数据库,我们可以搜索到398次引用了2000年版本文献的记录 (搜索日期:2017年10月24日)。

 

第二步

引用“幽灵文献”的文章有何特征?

我猜可能有某一种特定类型的文章特别喜欢引用这样一篇不存在的文献。事实证明我的想法是对的:90%引用了这篇文献的文章都是Proceedings paper (下图)。



而在这些Proceedings paper中,2/3的文章都发表在Procedia conference volumes中 (下图),这是Elsevier发表的一个涵盖25个学科领域的会议论文集。

  


尽管Elsevier发表了这些文章,但是论文的选择、以及同行评审归根到底还是会议组织者的责任。


在很多大学中,只有被一些特定数据库收录的文章才能够用作职称评选,因此发表在Procedia是一件相当吸引人的事情——Procedia上的文章能够被Scopus和Web of Science等数据库收录,而同时又不像Nature,Science那样的顶级期刊一样遥不可及。


Web of Science收录了Procedia系列从2009年开始发表的将近85,000篇文章,其中2/3都发表在Procedia Social and Behavioral Sciences 或者 Procedia Engineering 系列中,而这两个系列是收录这篇“幽灵文献”的主力军 (上图可见)。


从2017年2月起,Elsevier停止接收一些学科领域的proposals (包括刚刚提到的这两个领域)。这或许也是为什么有74篇文章在2016年引用了这篇“幽灵文献”,而在2017年只有19篇 (下图)。

 


为了看看这些文章的质量如何,我挑选了一系列Social science领域的文章(我的老本行),发现不是所有文章都符合这个领域会议的要求。甚至有些文章仅仅不到3页,由一堆不连贯的句子拼凑而成,并且每句话都另起一段。


这些文章的英语水平也相当差,或许是因为大多数作者来自于中国、马来西亚、土耳其、俄罗斯、罗马尼亚以及伊朗,在这些国家英语并不是官方语言或是常用的语言(尤其在Social Science领域)。


同时,这些文章的参考文献格式也不完整、不规范。或许以上是Elsevier停止接收这些领域Proceedings paper的原因。


第三步

“幽灵文献”被文章中哪句话引用了?


无论作者来自于哪个国家、说什么语言、做什么研究、发表在什么地方,他总是需要在文章中的某一句话中引用这篇文献的。于是,我的下一步便是看看这篇“幽灵文献”究竟被文章中的哪句话引用了。


我找到了20篇引文数量最多的文献 (他们都有10篇以上的参考文献,而且都引用了这篇不存在的文章) ,来确保他们至少在发表前有质量控制。


在这20篇文章中,17篇发表于Elsevier,15篇为期刊论文 (远高于所有398篇文章中11%的期刊论文比例了) 。


我能够获取这20篇文章中12篇的全文。在这12篇文章中,6篇“幽灵文献”作为参考文献列表中的第一篇,3篇作为最后一篇,2篇位居中间的某个位置,1篇根本没出现在参考文献列表中......


在8篇文章中(#1, 2, 4, 5, 8, 12, 16, 19),这篇不存在的文献被引用来支持与学术写作根本不相关的论证 (#4和#5根本就是同一篇文章在不同地方发表了两次,并不是我们把截图搞错了)。


在另3篇文章中(#14, 15, 20),这篇参考文献没有在文章中出现,而仅仅被列在了参考文献列表中。在#18中,这篇文献既没有出现在文章中,也没有出现在参考文献列表中,我们也不得而知为什么Web of Science会报告这篇文章引用了这篇“幽灵文献”了。


第四步: 追根溯源

大家究竟为什么引用它?


这篇“幽灵文献”出现在参考文献列表第一个、或最后一个的概率之高,让我不禁觉得,可能是作者忘记把这篇引用从列表中删掉了。然而,为什么他们最开始要加上这样的一篇文献呢?


这时,我发现了一个和Renewable Energy有关的会议依然在其官网上列出了投稿的模板。我恍然大悟:他们一开始根本没有主动加上这篇“幽灵文献”!而是……


我们一起来看看这个模板:模板首先列出了整篇文章的格式,包括标题、作者、所属机构等。


 

模板的最后是致谢、附录以及引用。在引用的部分,模板中加上了这篇Van der Geer的文章,作为引用格式的范例

 


显然,作者应该替换掉模板中的文字并换上自己的内容。然而,一些母语不是英语、而发表文章经验又较少的作者可能并没有弄懂这点。也可能他们填上了自己的引用后,忘记了删掉这篇引用,证据就是#15和#20中的作者把模板中其他范例(Strunk Jr W et al.的书、Mettam GR et al.的章节)也留在了参考文献中。


收尾

情有可原?还是严惩不贷?


在85,000篇Procedia的会议文章中,只有几百篇包括了这篇“幽灵文献”。总的来说,只有不到0.5%的Procedia的会议文章犯了这个错误,可以算是一个很小的误差了。


同时,他们犯错的原因也仅仅没有理解模板的含义、或是忘了删除部分模板内容,总的来说是无可厚非的。


然而同时,我们也看到会议文章通常没有、或者仅仅有很少的质量控制。他们的主要目的可能也不是发表一篇高质量的研究进展。


我看了看最近的一些会议文章,发现大部分都是一些初入科研领域、没有什么经验的研究人员写的。在Procedia conference proceedings发表这样一篇文章要交很多版面费,然而能发表出来并被Web of Science收录也算很值得了。


比较让人困惑的是,大概40篇左右的文章发表在了非常著名的期刊上。他们大部分都是Elsevier期刊,或许有着类似的模板。然而,我不清楚的是,这篇“幽灵文献”如何能被引用,而且还是作为半导体、电凝术、血压、癌症耐药的论据?


我猜可能是它夹杂在数十篇引用文献中,让作者和编者很难发现,也可能是参考文献格式软件或校读文献软件的一个bug。毕竟和Elsevier 2006年以来发表的数千篇文章比,40篇并不多。


总结


归根结底,论文里引用不存在的文献是因为不走心的写作和质量控制。犯错的概率很小,然而很多人为了评职称等原因发表了大量这种比较“水”的文章,终于让我们发现了这个小概率错误。


我们应该庆幸,这篇“幽灵文献”毕竟是不存在的。如果这篇文章本身存在的话,那也许问题就更大了。对于学术研究这片汪洋大海来说,400次不准确的引用仅仅是微不足道的一个小水滴。然而对于正在看这篇文章的你来说,对于正在给Elsevier期刊投稿的我来说,对于成千上万的学者、研究人员来说,400次的引用或许足以区分优秀或平庸。


总之,这篇文章的目的是提醒大家:对于看起来奇怪的参考文献一定要足够重视。付出一些应尽的努力,写的时候更走心一些,或者让有文献统计学功底的人来帮你审核一下。


If something looks fishy, it probably IS fishy! (如果它看起来可疑,那它可能就是很可疑!)

推荐


引用文章还是使用Endnote好 Endnote X8云同步:家里单位实时同步文献笔记,有网随时读文献


如果参考文献名字出了问题 参考文献中杂志名字格式混乱问题一次解决


文献搜索两大良器 


基于人工智能的文献检索,导师查找,更聪明  

 

GeenMedical:文献查询、筛选、引用排序、相似文献、全文下载、杂志分区、影响因子、结果导出、杂志评述、直接投稿,一站服务


文章排版   文章用图的修改和排版(2)


原文地址

https://harzing.com/publications/white-papers/the-mystery-of-the-phantom-reference


参考文献

1. Van der Geer, J., Hanraads, J.A.J., Lupton, R.A., 2000. The art of writing a scientific article. J Sci. Commun. 163 (2) 51-59.

2. Adler, N.; Harzing, A.W. (2009) When Knowledge Wins: Transcending the sense and nonsense of academic rankings, The Academy of Management Learning & Education, vol. 8, no. 1, pp. 72-95.

3. Harzing, A.W. (2002) Are our referencing errors undermining our scholarship and credibility? The case of expatriate failure rates, Journal of Organizational Behavior, vol. 23, no. 1, pp. 127-148. 


读完这篇文章,你有仔细看参考文献么?

有没发现什么fishy的东西?

如果没有,小咖强烈建议你重新读一遍这篇文章……


医咖会微信:medieco-ykh


关注医咖会,学习临床研究方法


有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。如果想进群,添加小咖时请注明“加群”二字。


点击左下角“阅读原文”,看看医咖会既往推送了哪些有意思的文章。

精品回顾

画图三字经 生信视频 生信系列教程 心得体会 癌症数据库 

高通量分析 Linux Python 在线画图

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存