论文查重，可能比你想的更靠不住

Nature自然科研科研圈 2019-06-30

在某位知名“演员博士”学术不端事件曝光之后，今年毕业论文的“查重检测”难度似乎出现了肉眼可见的上升。在学术圈，查重不仅是毕业论文的必经之路，也是大部分期刊论文和会议论文的必备过程，不管是教授还是编辑们似乎都离不了它。不过，一位来自德国的教授却对查重软件展开了毫不留情的吐槽......

William Brown for The Chronicle

来源公众号“Nature自然科研”

撰文 Debora Weber-Wulff（德国工程和经济应用技术大学媒体与计算机科学教授）

在谈及论文抄袭时，许多学者似乎都对所谓的“检测分数”深信不疑。前段时间，一家提供抄袭检测软件（编者注：著名英文论文查重服务系统 Turnitin ）的公司宣布，公司将于今年晚些时候被收购，价值 17 亿美元。这家公司提供基于“黑匣子”算法的软件系统，这种系统会根据你提交的文本生成一个分数，据称可以显示被检测文本与其他文本的相似程度。这样的公司不止一家。因为这些系统的确发现了一些抄袭案例，所以人们误以为它们能够将所有抄袭情况一网打尽。

漏洞百出

这用我祖母的话说，简直是“痴人说梦”。在过去的 15 年里，我一直在测试论文查重软件。检测结果经常令人费解，有时干脆就是错的。许多系统会把常见短语，机构的长名称，甚至参考文献的信息识别成抄袭。而且它也会漏报。如果被抄袭文本的来源未被数字化，有拼写错误，或因其他原因无法被软件系统所用，那么系统可能就无法检测到剽窃痕迹。许多抄袭案例都由于材料是翻译自外文或获取自多个来源，而未被发现。系统的评估同时基于使用的算法和可供对照的文本语料库。对于检测随机样本的系统而言，相隔仅仅几分钟再重复检测同个文档也可能得出不同的结果。我还曾见过不同的系统将同一个文本评估为全文抄袭、部分抄袭或没有抄袭。

然而这些系统生成的数字——常被冠以不同的名称，如“原创性得分”、“非唯一内容”或“剽窃等级”（PlagLevel）——通常会被人不假思索地接受。尽管可用的系统有很多，但极少有人会费劲去做二次检验。事实上，仔细阅读软件生成的报告能够发现，有些正确引用的材料，如已经恰当标明出处的“方法”部分，被标记为抄袭。

但是，编辑、教授和管理人员往往因为时间紧迫，而只依据一个简单的数字便做出对学者和论文至关重要的决策。如果软件报告的数字较小，评估论文的人可能会忽略明显能看出是抄袭的痕迹，如文风变化、拼写错误、字体更改或带下划线的字词——下划线往往意味着文本复制粘贴自维基百科。没错，我在数十篇博士论文和科学出版物中看到了这些。

如果软件报告的数字较大，编辑或教授可能会偏颇地认为提交的文章是赤裸裸的抄袭。高校针对不同学位等级正式定义了“可接受的”由软件评估的剽窃水平。教师希望软件可以标记出“烂”论文，省得他们再去费时间看。但害怕不慎被算作剽窃的学生会使用同一个系统来改写论文，用同义词替换并重新排列句子，直到检测数字看起来很好，这种行为大大损害了论文的可读性。

期刊编辑将这些数字当作“拐杖”，用以帮助他们快速过滤出那些能够直接拒绝，或在评审表示赞成之后能够毫无顾虑地发表的论文。一些期刊和会议甚至直接在网上公布他们的检测阈值。

The Conversation

躲避检测的花样

重复和剽窃的文本会造成有害影响：它们会扭曲学者的真实学术成果，使文献更加难以理解。这一点不能容忍，而那些不可靠的数字并非解决之道。我多年来一直就有问题的出版物与期刊编辑保持通信。重复出版物是指那些文本（甚至数据）基本相同，并至少有一名相同作者的。在某些案例中，这些论文的标题和摘要不一样，并且添加、删除或重新排列了作者。

我联系的一些编辑对此深表惊讶。他们使用论文查重软件，希望这能帮助他们更好地识别论文中可能出现的抄袭。但能够逃开检测的方法太多了。重复文本的潜在来源，如博士论文，可能存储在某知识库中或只有付费才能查看，从而无法进行对比。巧妙改写（甚至通过算法改写）的文本也会低于检测阈值。

今年提交给世界研究诚信会议（World Conference on Research Integrity）的摘要都经过了软件分析，文本重复阈值设定为30％。事实上，在提交的449篇摘要中，38篇超过了这个阈值。经调查，15篇被认定为抄袭，23篇包含了作者之前已发表的研究中的文本。其中绝大多数摘要都被拒稿了；对于某些作者重复利用自己文本的情况，其摘要被降级为海报。剽窃和重复达到这种程度，真是令人震惊，特别是在一场关于学术诚信的会议上；这种情况还有可能被低估了。

软件无法判定剽窃；它只能发现一些文本相似的情况。这些系统可用于标记问题，但无法用于区分原创和剽窃。这种决定必须由人做出。定位剽窃最重要的方法是阅读文本，研究参考文献，从中寻找不一致之处。用一段话中的三五个词，或一个特别漂亮的措辞转变，通过互联网搜索引擎进行抽查，便能够揪出抄袭者。搜索一条看起来奇怪的参考文献可能会返回一篇以相同方式弄错了的源文献。只有当文本不在线，在线搜索毫无帮助时，才应求助于软件系统。在这些情况下，最好使用两到三个系统，并阅读检测报告，而不要不加辨别地采纳其生成的数字。

学术诚信是一个社会问题；尽职调查不能完全依赖于未知的算法。维持科研诚信取决于那些愿意努力保护文献的科学家们。

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件China@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

关于论文查重，和我们聊聊吧：

· 今年，你的学校/机构要求的论文查重率是多少？

· 你觉得查重系统对你有帮助吗？

▽ 精彩回顾 ▽

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相