AI 随笔：从对张文宏的综述抄袭指控谈起

李维应用语言学研习 2022-06-09

感谢关注我们！加油，研习人！

欢迎关注我们，一站式获取海量语言学资源

文章来源：立委NLP频道

转载编辑：研习君

敬请星标应用语言学研习，喜欢请点赞，真爱请分享⭐

AI 随笔：从对张医生的综述抄袭指控谈起

网友爆张文宏医生博士毕业论文涉嫌抄袭，有图有证据。这是最近闹得沸沸扬扬的大事件。主要是张医生在疫情期间由于言论大胆独特而成为争议人物。爱的爱死，恨的恨死。张黑要掘地三尺，粉丝要誓死捍卫，背后有许多社会学的因素在。但这不是我考察此热点事件的角度。我的角度是AI，得出的结论是，综述抄袭的指控跟不上时代了。随着AI语言模型的进展，不仅是对张医生，对任何人的综述抄袭的指控很快就会无效。改写别人写好的综述，经过机器变换算自己的，实践中是无法从技术上做抄袭指控的。目前学术界的要求是综述的文字必须是自己的文字，可如何定义“自己的文字”呢？说到底就是不要被目前“查重软件”揪出来就算自己的了，那简直不算事儿。除非把“自己的文字”定义为必须符合这个个体一辈子文风的平均值，这一点虽然技术上是可以想象的，但没有意义。最终，人还是要拼内容，而不是拼形式。而现代的技术可以某种程度上做到把内容与形式分开。举报说：

张文宏论文第79页至82页，从被抄袭文章的第一节开始全文照抄，只是去掉了小节编号。

这是据举报的张医生综述抄袭的第一页：把它自动转成 text 如下：

kat6 基因是 MTB 染色体中的一功能区段，虽然 MTB 全基因序列目前尚在研究中，但 katG 基因的结构已很清楚。它的上游相隔 44个碱基与 furA 基因相连51，下游相隔 2794 个碱基与 embC 基因相连，应用 kpnI 限制性内切地MTB INH 教感标准株 8 Rv 进行消化后，得到一个大约 4810bp 的 DNA 片段，它作为开放可读框架存在被分析时,具有高度编码概率价值.KatG 基因就位于该片段的第 1979 – 4201位，全长 2223bp，其中 A428bp，C696bp，C740bp，T359bp，C+C 占64. 6%。将此片段转玉到一个能在 500hg/ml INH 中生长的耻垢分支杆菌 ML， smegmatis) 中，结果使后者获得了对 INH 的敏感性 (MIC为 8- 32hg/ml )，而对其他药物的 MIC 不变，证实了此 DNA 序列确是katG基因，它与 MTB 对 INH 的耐药性至直接相关0加。Cooderill以及lin 等对MTB 的 ATCC25618 株的 katG 基因含圾 2223 个核巷酸，除了第 700 位一个碱基由乌嗓叭取代了胞喀喧【它们的产物均为甘氨酸] 之外，与 RY 株的核苷酸种类和顺序都是一样的，但当他们对MTB 的 HRv-MC 株和 ATCC27294 株进行 kat6 基因分析时，则发现它们与 HRv 株的 katG 基因序列至少存有 16 个破基的差异，因此，在进行 katG 基因的研究，选择 MTB 标准对照柏时，应充分考虑不同菌株间基因差异的可能性, 尽量选用通用的标准析 HRv 株。在对 katG基因进行分子学检测，尤其名聚合醇馆反应 (PCR ) 或 DNA 杂交检测时，其引物和探针的设计应尽可能地各开 kat6 的变异区域。
kat6 基因的同源性和功能
许多微生物都含有 xatG 基因，它们与 MTB 基因有较高的同源性-Heymiy直等用一个找带着来自 MTBkatG 基因的探针进行杂交分析,，结果 MTB H Rv 株和麻风分支持菌等 6 株分支杆菌均可见有亮度不同的杂交带，应用氨基酸序列分析显示，MTBkatG 基因编码的过氧化氢- 过氧化物酶，与胞内分支杆菌、大肠杆菌和沙门氏菌、和芽孢杆菌属的嗜热脂肪杆菌编码的过氧化所 – 过氧化物酶，其氨基酸残基符合率为 60% 、53. 3% 、45.7% ，与来自啤酒酵母菌的细胞色素 5也有部分同源性，表明 kat6 基因的分布是非常广泛的。Kat0 基因编码产生 hene-conting 酶，也称为过氧化气 – 过氧化物酶，醇分子量为 8000，在细菌的氧化代谢过程中发挥重要作用。虽然 katG 基因广泛存在于其他微生物中，但众所周知，INH 通常只对 MTB 野生株有效，MIC 多在 0. 02hg/ml1; 对绝大多数的其他分支杆菌的效果就……

我们用seq2seq语言模型自动改写试试：

kat6基因是MTB染色体中的一个功能片段。虽然MTB的整个基因序列仍在研究中，但katG基因的结构已经变得清晰。其上游相隔44个碱基与furA基因51相连，其下游相隔2794个碱基与embC基因相连，用kpnI限制性内切酶MTB INH教义标准菌株8 Rv进行消化后，得到约4810bp的DNA片段，当以开放可读框分析时，编码概率值较高的KatG基因位于该片段的1979-4201位，全长2223bp，其中A428bp，c6996%.将该片段转化为能够在500hg/ml INH生长的耻垢分枝杆菌ML，导致后者获得对INH的敏感性(MIC 8- 32hg/ml)，而对其他药物的MIC没有变化，证实该DNA序列确实是katG基因，其与MTB对INH的抗性直接相关。Cooderill和lin等人的MTB ATCC 25618株的katG基因含有2223个核酸，除了700位的核苷酸被Wusangpa取代(他们的产物是甘氨酸)外，核苷酸类型和序列与RY株相同。然而，当他们分析MTB HRv-MC株和ATCC27294株的kat6基因时，发现它们与HRv株的katG基因序列至少有16个片段差异。因此，在研究katG基因和选择MTB标准参比柏树时，应充分考虑不同品系间基因差异的可能性，尽量选择通用标准HRv品系。在katG基因的分子检测中，特别是著名的聚合酶链反应(PCR)或DNA杂交检测中，引物和探针的设计应尽可能分离kat6的变异区。
kat6基因的同源性和功能
许多微生物含有xatG基因，与MTB基因具有高度同源性-heymie等人使用携带MTBkatG基因的探针进行杂交分析。结果显示，6种分枝杆菌，分别为MTB H Rv株和麻风分枝杆菌等。，具有不同亮度的杂交条带，氨基酸序列分析的应用表明，MTBkatG基因编码的过氧化氢-过氧化物酶与芽孢杆菌属的胞内分枝杆菌、大肠杆菌和沙门氏菌以及嗜热乳酸杆菌编码的过氧化物酶的氨基酸残基符合率分别为60%、53%。分别为3%和45.7%。与酿酒酵母细胞色素5的部分同源性也表明kat6基因的分布非常广泛。Kat0基因编码产生hene-conting酶，也称为过氧化物酶，其醇分子量为8000，在细菌的氧化代谢中起重要作用。尽管katG基因广泛分布于其他微生物中，但众所周知，INH通常仅对MIC大于0的MTB野生菌株有效。02hg/ml1。对大多数其他分枝杆菌的影响是……

以上是全自动改写版本，免不了有瑕疵，但是意思应该接近。对于专业人士，在机器辅助生成的基础上做一些必要的后编辑是自然而容易的事情，基本上就是通读一遍，顺它一顺就行了。不知道“查重软件”能不能发现改写版本是抄袭的文字？不知道如果经过软件自动改写以后的综述，还会不会陷入“综述抄袭”的指控？指控的抄袭对象的原文也附上作为比对：搞不清楚在张医生毕业的年代，科研规范的平均水平如何，关于科研规范的教育和风气如何。
在我们入行的80年代，我知道是没有什么严格规范的，论文中只有极少数留洋归来的人才遵循国际规范，每个该有出处的地方都会注明。大部分论文，包括我的导师辈的权威们的论文，大多不严格注明出处。只在论文最后，有个【参考文献】列表，但这个列表与论文没有 coreference，根本搞不清哪个部分是哪个参考文献来的，哪个部分是原创思想。当时我们觉得这就是论文该有的样子。所以，如果以现在的规范回去检查80年代的论文，可能会打倒一大批名人，甚至泰斗。我说的80年代某些领域不规范，是指的引用出处不规范，不是说抄袭。导师辈论文其实很多干货，但是还是有很多引用不规范的问题。当时的圈子没人意识到这是不规范。那还是中国学术圈与国际学术圈没有接轨的年代。很多事情都有个时代局限性的。当然，张医生的年代应该大有改进，与国际学术规范开始接轨了。但现在与20年前到底改变多少，不得而知。就事论事，我相信按照现在的注定短命的学术规范看，张医生的确是抄袭了。这种综述抄袭在当时（上个世纪末）估计是个有一定普遍性的问题？什么是现在的学术规范？对于综述（或科普），对抄袭的理解是，文字相同就算。如果idea一样，文字不同，不算抄袭，因为综述和科普都是介绍别人的工作，而不是自己的原创思想。这个标准貌似有理，但我想指出的是，这个标准落后于时代，已经难以为继了。因为 AI 领域有一种东西叫“生成语言模型”，最著名的要算是 openAI 推出的 GPT-3 与国内华为等多家研究团队协作推出的“盘古”，二者都是超大规模的语言模型。GPT-3 参数高达1750亿，据传光训练更新一次模型，就需要两千多万美元的投入，这是AI领域的核武竞赛似的算力和算法的大竞赛。盘古模型有千亿参数，训练数据量也是天文数字，高达40TB，是全球最大的中文语言（NLP）预训练模型。在生成文本时，这类模型非常强大。生成的文本与人类生成的文本从形式上看是难以分辨的。除了辅助写作（包括改写 paraphrase）外，这类模型最大的特点是真正解决了 open-domain 的问答难题，它们所涵盖的知识实在太大了，远远超过曾经名噪一时的打败人类的IBM沃森问答系统。关于综述抄袭的问题，过去是不规范的问题；将来也不是问题，因为可以利用NLP模型来改写。过去与将来之间才是问题。综述内容相似，说法必须不同的要求，要用自己的字句组织来表达类似的内容，有了AI语言模型的助力，不会成为问题了。特别值得强调的是，生成模型的本质具有随机性，因此同样的内容trigger出来的生成品从字面上看每次都不相同，根本无法查证最终结果来自机器还是人，还是二者的协作。将来对于综述的规范标准势必要改，不能是查字句的相似度。除非是说综述也要求内容完全不同：这怎么可能呢？既不能查内容，也不能查字句，到底综述还能不能确立标注都成了难题。虽然理论上讲，综述是需要功力的，能反映一个人对学科的宏观理解和最新进展的把握，但是制定可以执行的规范标准，可能是一个巨大的挑战。道理上可以从综述的段落组织、逻辑线条等角度去要求不同，但总是越来越难于量度，无法 enforce，也难以服人。也许未来最终的结果是，综述文章不算发表，至少比原创要打个折扣。将来让机器做综述，让专家做一点后编辑，可以批量而及时地生成种种综述，也不是不可想象的。有老友说：综述是指对一个领域一个时期的工作的综合评述，并指出当前热点，存在的关键问题，今后的发展方向。在好的刊物，通常是邀请行内权威来撰写的。学生改文字不改结构，还是算抄袭。即使结构改了，不加引用地叙述某个已发表的观点，而且逻辑相似，还是算抄袭。道理是如此，可是怎么落地执行呢？怎样定义综述的结构是抄袭的呢？而且如果避免了文字雷同后，谁有精力去查对、指控并且可以证实这种指控而且服众呢？没有可行性。现在 GPT-3 故意神秘兮兮的，说不敢公开发布，怕模型被滥用、误用或恶意使用，譬如用来制造机器水军。但是武器已经造出来了，怎么挡得住人们的使用呢？如果只有部分人有使用特权，其他人排除在外，这不是在滥用之上又增加了一层不公平么？而且的而且，一个有 access 的人使用模型生成了结果，结果本身是没有追踪痕迹的（除非带上区块链 LOL）。这是生成模型的随机性质决定的。小结一下：现在看重的所谓综述抄袭的学界标准很快就会跟不上时代了。因为世界上没有什么“自己的文字”才算原创，内容重复不算抄袭这码事儿。现在的同学不会那么傻和懒，他们其实不费吹灰之力就可以利用电脑生成，来规避这个综述文字抄袭的指控。这项指控不久将来估计就会成为历史。重要的是他的论文本身的含金量，到底如何，外行无从知道。而当前的综述抄袭是软件和傻子都可以挖掘的。同时，用语言模型以毒攻毒，如果学界规矩不做改变，综述抄袭将来连权威都难以做实指控了，更不用说naive的“查重软件”了。也可以换个角度来看这件事：在没有电脑和打印机的年代，我们中小学交的作业都是手写的，那么字写得好看可以加分，不好看减分，也就是理所当然的明规则或者潜规则了，虽然字好看不好看纯粹是形式，与内容没有一毛钱关系。现在还有老师批改作文的时候考虑字的好看与否吗？你想这样做也没条件了，大家都是电脑交作业，好看程度拉平了。

【相关】

李维郭进《自然语言处理答问》（商务印书馆 2020）

预告：李维《巴别塔影：符号自然语言处理之旅》（人民邮电出版社 2021）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士，弘玑首席科学家，自然语言处理（NLP）资深架构师。前讯飞AI研究院副院长，研发支持对话的多语言平台，前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家，期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语，具有世界一流的解析（parsing）精度，并且做到鲁棒、线速，scale up to 大数据，语义落地到数据挖掘和问答产品。Cymfony前研发副总，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

讲座即将开始，扫码即可报名参加

综合编辑：应用语言学研习

微信公众平台审核：梁国杰

科研助力

文献综述应走出哪些误区？

文献综述的目的及写作方法指南

立项率3连降！2021年度教育部人文社科项目立项分析

在线课程 | 人文社科研究方法——质化、量化、混合研究方法

原版引进 | 德古意特认知语言学研究丛书+应用丛书（13种）

文献延伸阅读（研习人指引）

本平台友情整理相关文献索引链接，

欢迎感兴趣的朋友按需选购。