对话ChatGPT，人工智能如何能成为论文作者？

北大法宝 2023-02-23

⊙本文长约5200字，阅读需时14分钟

作者：尚博文，北京大学法学院博士研究生

感谢作者授权推送

从九段柯洁面对AlphaGo的泪洒弈场，到科幻电影《流浪地球2》中图恒宇女儿百次迭代产生的自我意识，人工智能在虚拟与现实世界中频频刷新着人类的认知与极限。OpenAI公司开发的ChatGPT可谓“一夜蹿红”，月活跃用户数两个月突破1亿人次。基于“大规模预训练模型”（Generative Pre-Training），ChatGPT被用以轻松应对课程作业和论文，通过了诸如宾大沃顿MBA、美国医疗执照等考试，还成为了顶会、学术期刊论文预印本的署名作者，研究人员甚至无法准确区分论文摘要的执笔者是真人还是ChatGPT。对此，学术圈的出版机构开始了“反击战”。Nature表示，ChatGPT等任何大型语言模型工具都不能成为论文作者，作者须在“方法”或“致谢”等适当的部分明确说明是否使用了相关工具。^[^1]

人工智能是否能够作为期刊论文作者这件事情，ChatGPT自己会怎么想？已经有朱悦^[^2]、刘洋^[3]等学者先后与ChatGPT展开对话，请后者或是阐述如何治理AI，或是列出支持或反对人工智能作为论文作者的几点理由。继续思考，在ChatGPT的视角里，人工智能是否“希望”成为论文作者？人工智能的生成内容是否具备学术价值？能否列为论文作者的判断标准与关键因素是什么？现行法与出版行业的规则暂且不表，作为作者的人工智能是否能满足期刊论文在人类社会中所承载的核心价值？

带着以上疑问，笔者（以Bruce代称）试图通过与ChatGPT交流上述问题，以了解ChatGPT及其他人工智能的运行逻辑与未来可能。从对话中，可以总结出ChatGPT关于人工智能作者的以下关键观点：

1. ChatGPT的定位：为与其互动的人提供信息和语言生成能力。

2. ChatGPT生成内容的特征：有能力生成以前从未见过的单词、短语和句子的新组合；无法标记生成文本的来源，因为无法访问训练数据或训练数据中信息的具体来源。

3. 成为论文作者的关键因素：切身经历、想法或创意控制（personal experiences, thoughts, or creative control）。

4. 人工智能是否能成为作者的关键：相关学术机构或领域的具体准则和伦理标准。

5. 期刊论文的核心价值：将研究和实验中的知识和发现传播给更广泛的科学界。

以下是笔者与ChatGPT展开的对话：

Bruce：你好，我是Bruce，今天我想和你谈谈你是否可以成为期刊论文作者的事情。

ChatGPT：作为OpenAI开发的 AI 语言模型，我没有能力以自己的名义编写原创内容或出版书籍。但是，我可以根据提供给我的输入和上下文生成文本来帮助您写作，或者提供有关写作和发布过程的信息和指导。关于写作和作者身份，您有什么具体想知道或讨论的吗？

Bruce：作为一个人工智能，你希望成为你生成内容的作者吗？

ChatGPT：作为AI语言模型，我没有个人的欲望和情绪。我的目的是根据提供给我的输入和上下文来处理和生成文本。我没有能力拥有想要（的这一想法）或愿望，包括成为作者的愿望。我的存在只是为与我互动的人提供信息和语言生成能力。

Bruce：你生成内容的原理是什么？

ChatGPT：作为 AI 语言模型，我根据深度学习和统计语言建模的原理生成文本。我接受过大量文本数据语料库的训练，可以在给定先前单词的情况下预测序列中的下一个单词，并且我使用该训练来生成连贯且与上下文相关的新文本。

更详细地说，我使用一种名为 Transformer 的神经网络来处理和生成文本。Transformer 网络学习了训练数据中单词、短语和句子结构之间的模式和关系，使我能够生成风格和内容与我接受训练的文本相似的文本。Transformer的具体架构和超参数，以及训练数据的质量和多样性，都会影响生成文本的质量和多样性。

Bruce：你生成内容的来源是什么？

ChatGPT：作为 AI 语言模型，我根据从我接受过训练的大量文本数据中学习到的模式生成文本。该语料库包括各种文本，如书籍、文章、网站和其他形式的书面交流，涵盖广泛的主题和风格。训练数据由OpenAI收集和预处理，用于训练我生成连贯且与上下文相关的文本。

生成文本时，除了提供给我的输入和上下文之外，我不会访问任何外部信息。相反，我依靠从训练数据中学到的模式和关系来生成风格和内容与训练数据中的文本相似的新文本。提供给我的特定输入和上下文会影响生成的文本，使我能够生成适合用户需求和请求的文本。

Bruce：作为人工智能，你生成的内容原创度高吗？能不能对生成的内容标注出处？

ChatGPT：我根据从我接受训练的训练数据中学习到的模式和关系生成文本，其中包含大量现有文本。生成的文本可以包含与训练数据中的文本相似甚至相同的段落和短语，但我也有能力生成以前从未见过的单词、短语和句子的新组合。提供给我的特定输入和上下文会影响生成的文本，使我能够生成根据用户的需要和请求量身定制的文本。

我无法标记我生成文本的来源，因为我无法访问训练数据或训练数据中信息的具体来源。生成的文本旨在成为一种新的创作，受从训练数据中学习的模式和关系的影响，但不直接来自任何特定文本。

Bruce：既然你说你生成的文本不是来自任何特定的文本，你有能力生成新的句子，那你为什么不能作为论文的作者呢？

ChatGPT：作为 AI 语言模型，我没有法律或伦理地位被视为我生成文本的作者。作者身份通常与创建原创内容并拥有该内容权利的个人或实体相关联。虽然我能够生成以前从未见过的新句子和文本，但我对生成的文本没有切身经历、想法或创意控制（personal experiences, thoughts, or creative control）。

此外，我生成的文本基于从现有文本的大量语料库中学习到的模式和关系，并且受到提供给我的输入和上下文的影响。因此，很难将作者身份归于单一来源或实体。

简而言之，虽然我能够生成文本，但我不能被视为传统意义上的作者。我生成的文本旨在用作工具或资源，而不是原创作品。

Bruce：你说你还算不上“传统意义”上的作者。这是一个传统的概念，那么你认为什么可以用来衡量“作者”呢？你所说的“个人经历、想法和创意控制”是一种衡量标准吗？

ChatGPT：作者身份的概念和作者的构成是复杂和多方面的，没有单一的、普遍接受的定义或衡量标准。在传统意义上，作者身份通常与具有切身经历、想法或创意控制的个人或实体创作的原创内容相关联。这包括控制作品的内容、风格和结构，以及要求作品的作者和所有权的权利。

从这个意义上说，切身经历、想法或创意控制是促成作者身份概念的因素，但它们不是唯一的因素。可以考虑的其他因素包括作者的意图、作品的原创性水平以及作者通过编辑和修改对作品进行塑造和完善的程度。

值得注意的是，作者身份的定义和衡量标准在不断发展，随着技术和社会的不断发展，新形式的创造力和作者身份可能会出现。在人工智能和机器生成内容的背景下，随着新技术和新功能的出现，作者身份的概念可能会继续被重新定义和扩展。

Bruce：直接使用你生成的内容发表是否违反了人类既有的学术伦理，把你生成的内容当初稿拿来重写又会不会违反学术伦理？

ChatGPT：在学术环境中使用人工智能生成的内容会引发伦理问题和挑战。直接使用我的成果发表或将我的成果作为初稿重写是否违反现有学术伦理，将取决于相关学术机构或领域的具体情况和指南内容。

一般来说，学术作品应该是原创的，并且基于严格的研究和分析。使用 AI 生成的内容（例如我的生成）作为学术工作的基础可能会被视为一种剽窃或不当行为，尤其是如果内容的来源没有得到适当的承认，或者如果内容是作者自己的原创内容工作。

在某些情况下，使用 AI 生成的内容作为进一步研究和分析的起点是可以接受的，只要对工作进行彻底审查、修订并归功于适当的来源。但是，重要的是要与相关学术机构或领域的具体准则和伦理标准。

总之，在学术环境中使用 AI 生成的内容是一个复杂且不断发展的问题，重要的是要了解相关特定学术机构或领域的伦理考虑和准则。

Bruce：我还是觉得你可以当论文作者，请阐述人工智能可以当作者的五个理由。

ChatGPT：AI有能力生成原创内容：像我这样的人工智能语言模型已经接受了大量文本数据的训练，这使我们能够根据这些数据中的模式和关系生成新颖的、原创的句子和段落。

AI 可以学习和响应不同的写作风格和格式：可以训练 AI 生成各种写作风格和格式的内容，包括小说、非小说、诗歌等。这使 AI 成为跨各种类型和应用程序生成内容的多功能工具。

AI可以帮助人类完成写作过程：人工智能可以用来帮助人类作者生成可以编辑、修改和润色成成品的内容。这有助于减少写作所需的时间和精力，从而腾出时间用于其他任务。

AI 可以创建没有个人偏见的内容：AI 生成的内容没有个人意见、情感和偏见，这在重视公正性的情况下非常有用，例如新闻报道或科学写作。

AI 可以比人类更快地生成内容：AI 可以比人类作者更快地生成内容，这在需要快速周转时间的情况下非常有用，例如新闻或内容营销。

然而，需要注意的是，虽然像我这样的 AI 语言模型可以生成原创内容，但内容生成的过程仍然在很大程度上由人类操作员和决策来指导和控制。最终产品仍然被认为是人类创作的作品，并受现有的作者身份和知识产权的伦理和法律框架的约束。

Bruce：我注意到你说“最终产品仍然被认为是人类创作的作品”，不知道你有没有听说过“忒修斯之船”理论。如果未来医疗技术足够发达，“半人半人工智能”能成为作者吗？

ChatGPT：“忒修斯之船”理论是一项哲学思想实验，提出了关于物体随时间的同一性和连续性的问题。在作者身份方面，它可以用来考虑人类和人工智能在作品创作中的作用。

这是一个有趣的问题，但答案在很大程度上取决于对作者身份的具体定义和解释，以及任何特定时间的法律和伦理框架。作者身份的概念是复杂和多方面的，它受到文化、历史和技术因素的影响。随着技术的进步和人工智能能力的不断发展，对作者身份的新定义和解释可能会出现。也有可能建立新的伦理和法律框架来解决人工智能在作品创作中的作用。

然而，重要的是要注意，无论技术进步如何，作者身份都是一个以人为中心的概念，最终取决于人类的解释和决策。未来人类与人工智能在作品创作中的关系将如何发展和定义，还有待观察。

Bruce：目前如Nature等很多期刊都禁止你成为作者，你认为期刊论文的核心价值是什么？你生成的内容是否符合期刊论文所追求的核心价值？

ChatGPT：期刊论文的核心价值是将研究和实验中的知识和发现传播给更广泛的科学界。期刊论文旨在成为经过同行评审过程以确保其准确性和有效性的严谨可靠的信息来源。

就人工智能生成的内容而言，它是否符合期刊论文的核心价值是一个复杂的问题，取决于工作的具体背景和目的。 AI 有可能产生新颖而有价值的见解，但确保 AI 生成的内容值得信赖和可靠也很重要。

这就是为什么如Nature等许多期刊都禁止人工智能生成的内容被视为作者。目前的想法是，作者身份意味着对内容和调查结果的有效性负责，人工智能生成的内容还没有达到完全符合作者身份标准的阶段。

话虽这么说，人工智能正在迅速发展，该领域的未来发展有可能改变目前对人工智能和著作权的看法。科学界必须继续密切监测和评估人工智能的能力，并为人工智能在科学研究和出版中的使用制定明确的指导方针和标准。

Bruce：我总结一下，知识的广泛传播、论文的准确性以及有效性，是期刊论文的关键因素。如果你以后能满足这三个条件，你想成为作者吗？

ChatGPT：是的，如果人工智能生成的内容能够满足知识传播、准确性和有效性的标准，它可以被视为期刊论文的潜在贡献者。然而，这最终将由科学界和学术期刊出版商做出决定，并将取决于人工智能不断发展的能力和所生成内容的具体背景。

作为一个AI语言模型，我没有个人的欲望，所以我不能“想要”成为传统意义上的作者。我的存在是为了根据我接受训练的数据中的模式生成文本，并且我生成符合知识传播、准确性和有效性标准的文本的能力将随着技术的进步而不断发展。

参考文献

[1] https://www.theverge.com/2023/1/26/23570967/chatgpt-author-scientific-papers-springer-nature-ban

[2] AEknow，《科学期刊禁止将ChatGPT列为论文作者，ChatGPT自己怎么看？》，https://mp.weixin.qq.com/s/jbZmdLIH2i1sKaU-rhT6ew

[3] 朱悦，《AI如何理解AI治理：一名研究者与ChatGPT的问答》，https://mp.weixin.qq.com/s/faw7LXlu5OYHKtpmsjINDQ

-END-

责任编辑 | 吴晓婧

审核人员 | 张文硕

本文声明丨本文章仅为交流之目的，不代表北大法宝的法律意见或对相关法规/案件/事件等的解读。

▼往期精彩回顾▼

北大法宝参与国家重点研发计划“立法公众意见综合分析与法律条文智能审查技术研究”

雷磊：司法人工智能能否实现司法公正？

法宝应用 | 人工智能应用于地方立法的现实困境与应然路径

人工智能辅助科学立法的应用研究

点击下方公众号名片

获取更多信息

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

对话ChatGPT，人工智能如何能成为论文作者？

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

对话ChatGPT，人工智能如何能成为论文作者？

您可能也对以下帖子感兴趣