查看原文
其他

Nature | 警惕使用Chat-GPT, 这些词汇轻易暴露论文是Chat-GPT帮忙写的,有专家呼吁零容忍...

Hu Lab不二 汉语堂
2024-09-04

      随着ChatGPT的问世和普及,它迅速成为了科技领域的热门话题。作为一种先进的大型语言模型,ChatGPT能够理解和生成人类般的文本,其应用范围广泛,从日常对话到专业的学术写作均有涉及。这种技术不仅展示了人工智能在语言理解和生成方面的巨大潜力,也引发了对其长远影响的深入讨论。在学术领域,ChatGPT的使用尤其引人注目,它为研究人员提供了撰写论文、生成报告甚至进行文献综述的新工具,对此很多专家学家,以及杂志出版社表达出了担忧。

      正是在这样的背景下,很多研究人员已经开始探讨ChatGPT及其他大型语言模型(LLM)在学术通信和出版领域的具体应用情况。通过分析这些工具生成文本的独特用词及其在学术文献中的普及情况,我们可以更好地理解这些技术的实际影响和潜在问题。

     4月10日Nature杂志上线了一篇点评文章《ChatGPT会破坏同行评议吗?这些文字暗示了人工智能的使用》。点评了最近发表在预印本上的两篇对Chat-GPT使用评率,独特词汇等做出调查分析的研究论文:
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews.
大规模监控人工智能修改内容:ChatGPT对人工智能会议同行评审影响的案例研究
ChatGPT “contamination”: estimating the prevalence of LLMs in the scholarly literature.

ChatGPT“污染”:评估学术文献中大语言模型使用状况

     这两篇论文通过关键词分析来评估LLM在学术文献中的应用广度和深度,从而对这一现象进行了全面的概述和评价。

      让人惊讶的是,目前使用Chat-GPT辅助写作的论文可能超过了30%,并且有数十个独特词汇可以被贴上“Chat-GPT”标签,文章里有这些词汇就大概率表面是机器人大语言模型帮助写作的。呼吁在未来要出现一些监管机制,不要滥用大预言模型,突显了在科技进步与学术诚信之间找到平衡的重要性。


      柏林应用科技大学的著名计算机科学家德博拉·韦伯-沃尔夫就公开表示,“像ChatGPT这样的工具在同行评审写作中的使用应该是零容忍......”。

        下面简单讲一下这两篇研究论文。

     2024年3月11日,斯坦福大学的计算机科学家LIANG Weixinl领衔在arXiv预印本服务器上发布了这项研究Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews。以及20243月25日,伦敦大学学院图书馆服务部Andrew Gray同样在arXiv上发表的论文ChatGPT “contamination”: estimating the prevalence of LLMs in the scholarly literature。研究显示,自ChatGPT发布以来,四大计算机科学会议提交的会议论文的评审报告中,高达17%的内容被认为是由聊天机器人大幅修改过的。这一比例令人震惊,尽管目前尚不清楚研究者是完全依赖工具从头构建评审内容,还是仅仅使用这些工具进行编辑和改善已有草稿。

    这些会议包括即将在维也纳举行的第十二届国际学习表征会议、在路易斯安那州新奥尔良举行的2023年神经信息处理系统年会、在乔治亚州亚特兰大举行的2023年机器人学习会议以及在新加坡举行的2023年自然语言处理实证方法会议。

     该研究团队开发了一种通过识别人工智能和人类使用频率不同的形容词来搜索AI写作文本的技术。通过比较ChatGPT发布前后同一些会议提交的146,000多份评审报告中的形容词使用情况,他们发现自从这种聊天机器人广泛使用以来,某些积极形容词如“值得称赞 (commendable)”、“创新 (innovative)”、“一丝不苟 (meticulous)”、“复杂 (intricate)”、“显著 (notable)”和“多功能 (versatile)”的频率显著增加。论文旗帜鲜明地列出了100来个在Chat-GPT工具发布前后使用频率发生显著改变的词汇。暗示大家要谨慎使用这些本来人工写作不太常用的词汇。

    具体地说,在2023年,被称为“后LLM年”的时间里,对关键词的变化非常显著。那一年,十二个形容词的使用频率平均变化为33.7%,其中形容词:

“复杂”(intricate)增长了117%,
“值得称赞”(commendable)增长了83%,
“一丝不苟”(meticulous)增长了59%,
“创新的(innovative)”在一年内几乎增加了60%。

另外一些副词比如:
“一丝不苟地”(meticulously)增加了137%,
“创新地innovatively” 最高时增长了60%,
“系统性地”(methodically)增加了26%。

     当将这些关键词组合起来分析时,2023年的效应更为显著。含有四个“强”指标词汇的文章数量较前几年大幅增加到87.4%;“中等强度”指标组显示出18.8%的增幅;“较弱”指标组也显示出11.7%的增长。虽然这些变化在比例上看似不高,但实际上是涵盖了极大数量的文章——最后一个包含十二个术语的组合每年代表超过一百万篇研究文章,占所有研究文章的五分之一。这些术语的使用频率还因学科领域而异。在2023年发表的所有文章中,23.7%归类为生物医学和临床科学,14.9%为工程学。然而,在含有一个或多个LLM关键词的文章中,生物医学/临床的比例为21.9%,工程学的比例为22.3%。

     合理假设LLM生成的文本对某些词有特别偏好,可能不仅仅使用一次。虽然Dimensions数据库不允许该项工作的研究人员搜索文章中重复使用的单词,但它允许寻找使用一个以上指示术语的文章。仔细检查结果显示,某些术语组合的增长非常显著,例如,“复杂intricate”和“值得注意“notable”的组合增长了四倍多

      另外,在对这些会议提交的评审报告进行详细分析后,研究发现,给会议论文较低评级的报告或提交时间接近截止日期的报告,以及作者对作者反驳意见反应最不积极的那些报告,最有可能包含这些形容词,因此最有可能至少在一定程度上是由聊天机器人编写的。

      对比地,研究还检查了在2019年至2023年间,Chat-GPT还未问世时,接受发表的约10,000篇稿件的25,000多份同行评审报告,但并未发现使用相同形容词的激增。Springer Nature的一位发言人表示,该出版社要求同行评审者不得将稿件上传到生成式AI工具中,因为这些工具仍存在“相当大的局限性”,且评审内容可能包含敏感或专有信息。

     此外,这项工作还启发了伦敦大学学院的图书计量支持官员安德鲁·格雷,他分析了2015年至2023年间发表的同行评审研究中某些形容词及副词的使用情况。他的研究发现,自ChatGPT出现以来,某些术语的使用显著增加,估计单就2023年发表的至少60,000篇论文的作者在一定程度上使用了聊天机器人。并且预估,2024-2025年使用Chat-GPT的论文会继续激增。

     Liang Weixin表示,他们不想对使用AI工具进行论文评审的行为做出价值判断,但他认为为了透明度和责任,估计最终文本中有多少可能是由AI生成或修改的是重要的。HTW柏林应用科技大学的计算机科学家德博拉·韦伯-沃尔夫认为,像ChatGPT这样的工具在同行评审中的使用应该是零容忍的,她担心使用聊天机器人的情况可能会更高,特别是在那些评审报告未公开的情况下。

      总之,这篇文章不仅揭示了AI在学术评审中潜在的影响,还引发了对科学出版领域诚信和透明度的深入讨论,促使我们反思科技的进步如何与学术诚信的维护相平衡。


继续滑动看下一个
汉语堂
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存