查看原文
其他

如何判别大语言模型生成的文本?

让你更懂AI PaperWeekly 2024-01-16


大型语言模型(LLM)例如最近开发的 ChatGPT,可以撰写文件、创建可执行代码,并回答问题,常常具备类似人类的能力。随着这些系统越来越普遍,存在着它们可能被用于恶意目的的风险。这些风险包括利用社交媒体平台上的自动化机器人进行社会工程和选举操纵活动,制造假新闻和网络内容,以及使用 AI 系统在学术写作和编程任务中作弊。

此外,网络上合成数据的增多使得未来数据集创建工作变得复杂,因为合成数据通常不如人类内容,必须在模型训练之前检测和排除。出于多种原因,能够检测和审计机器生成文本的能力成为减少大型语言模型潜在危害的关键原则。




LM-Watermarking


论文标题:

A Watermark for Large Language Models

论文链接:

https://arxiv.org/abs/2301.10226

代码链接:

https://github.com/jwkirchenbauer/lm-watermarking


本文研究了语言模型输出的水印技术。水印是一种隐藏于文本中对人类来说不可察觉的模式,但却可以通过算法识别为合成文本。本文提出了一种高效的水印技术,可以从较短的文本片段(仅需 25 个 token)中检测到合成文本,而假阳性(将人类文本标记为机器生成)的概率极低。
水印检测算法可以公开使用,使第三方(例如社交媒体平台)能够自行运行,也可以保持私有并在 API 后台运行。我们希望水印具有以下特性:水印可以在没有任何模型参数知识或访问语言模型 API 的情况下进行算法检测。这个特性使得即使模型不公开,检测算法也可以开源。这也使得检测变得廉价和快速,因为不需要加载或运行 LLM。
Method:提出了一种水印技术,在保持文本质量的同时,向生成的文本中嵌入唯一的水印。水印被设计为可以从很短的 token 中检测出来,并且可以使用高效的开源算法来识别。该方法涉及在生成单词之前随机选择一组“绿色”标记,并在文本生成过程中推广使用这些绿色标记。提出了一种用于水印检测的统计检验方法,提供了可解释的 p 值。

此外,给出了一个信息论框架来分析水印的敏感性。水印主要的点就在于如何划分绿色标记或者红色标记,具体算法如下所示,每次通过上一个 token 来选择一个 seed,划分标记,然后提升绿色 token 可能会被选择的概率。最终需要检测时只需要检查绿色标记出现的频率即可。

除非之外,文章还有一些有趣的实验现象
  1. 水印强度和文本质量之间的权衡:本文探索了不同水印参数下的水印强度(通过 z-score 衡量)和文本质量(困惑度)之间的权衡。实验结果表明,较小的绿色列表大小和较大的绿色列表偏差可以在对文本质量影响最小的情况下实现较强水印。
  2. 安全考虑:讨论了对水印技术的潜在攻击,如文本插入、删除和替换。针对这些攻击提出了缓解策略,以保证水印的安全性。




DIPPER


论文标题:

Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

论文链接:

https://arxiv.org/abs/2303.13408

代码链接:

https://github.com/martiansideofthemoon/ai-detection-paraphrases


这篇论文的主要目的是探讨 AI 生成文本 Paraphrasing 的攻击,并提出一种基于检索的有效防御方法。研究人员首先训练了一个 11B 参数的偏义词生成模型(DIPPER),该模型可以对段落进行 Paraphrasing,并可选地利用上下文信息。通过使用 DIPPER 对三个大型语言模型生成的文本进行 Paraphrasing,研究人员成功地绕过了几种 machine generated-text 检测算法,包括水印、GPTZero、DetectGPT 和 OpenAI 的文本分类器。


为了增加对 AI 生成文本攻击的检测鲁棒性,研究人员引入了一种简单的防御方法,该方法依赖于检索语义相似的生成文本,并由语言模型 API 提供者维护。实验证明,这种防御方法在一个包含 1500 万个生成文本的数据库上,能够在不同设置下检测出 80% 至 97% 的 Paraphrasing 生成文本,同时只将 1% 的人工编写序列误分类为 AI 生成。




DetectGPT

论文标题:

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

论文链接:

https://arxiv.org/abs/2301.11305


本文介绍了一种名为 DetectGPT 的零样本机器生成文本检测方法,该方法利用概率曲率对文本进行判断是否为机器生成。

论文首先观察到,从大型语言模型(LLM)中采样的文本倾向于位于模型的对数概率函数的负曲率区域。基于这一观察,论文提出了一种基于曲率的新标准,用于判断一个文段是否是由给定的 LLM 生成的。DetectGPT 不需要训练单独的分类器,也不需要收集真实或生成的文本数据集,也不需要显式地给生成的文本加水印。
它仅使用所关注模型计算的对数概率和来自另一个通用预训练语言模型(如 T5)对文段进行随机扰动。具体算法如下,我们使用扰动后的平均对数概率减去原文本的对数概率,此时 LLM 产生的文本倾向于产生一个比较大的差值,因此作者使用这个差值作为判别是否为机器生成文本的标准。

论文通过实验证明,DetectGPT 对于模型生成的假新闻文章的检测比现有的零样本方法更具有区分性,将最强的零样本基线的检测效果从 0.81 AUROC 提高到 0.95 AUROC。




Watermarks for LLM

论文标题:

On the Reliability of Watermarks for Large Language Models

论文链接:

https://arxiv.org/abs/2306.04634


该论文通过研究水印在人工改写、非水印模型改写或嵌入到更长的手写文档中后的可靠性,对水印作为识别机器生成文本的策略进行了探究。研究重点是在生成的文本经过不同类型的真实文本破坏(即攻击)后,水印是否仍然可检测到:当生成的文本与人工编写文本混合、部分或完全重写,或将文本输入其他流行的语言模型进行改写时,水印的可靠性如何?可靠的检测策略在这些常见场景下应该具有鲁棒性,保持一定的统计能力和低 FPR。论文的主要贡献包括:

  1. 重新研究了水印生成和水印检测流程的所有部分,以在真实场景中提高可靠性。

  2. 研究了水印对强大的大型语言模型进行改写的鲁棒性。当使用 GPT-3.5 和专门构建的改写模型对带有水印的文本进行重写时,当观察到 200 个 token 时,ROC-AUC 仍然高于 0.85,并且当观察到600个标记时,ROC-AUC 高于 0.9。

  3. 考虑了“复制粘贴”场景,其中水印文本出现在较大的手写段落中。当一个长度为 600 个标记的人工编写段落中插入 150 个水印标记时,检测的 AUC 值超过 0.95。

  4. 进行了一项人类研究,其中志愿者对带有明确目标的水印的文本进行了重写,目标是消除水印。尽管人类是相对强大的攻击者,但在观察到足够多的标记(约 800 个)后,即使将 FPR 设置为 1e-5,水印在人类改写中仍然通常可检测到。

  5. 对比了水印与其他最先进的方法(如基于损失的检测和检索方法)的可靠性估计,结果表明在遭受攻击时,水印比其他后处理检测方法更加鲁棒,特别是在样本复杂性方面,即在足够多的文本上保证检测的情况下。

该论文认为评估不同检测方法的强度和鲁棒性的正确方法不仅仅是针对特定文本分布的检测准确性度量,而是衡量每种方法成功所需的机器生成文本量以及该方法在文本序列长度方面的行为通过对这项工作中考虑的所有场景的研究,我们最终发现水印相比其他事后检测方法(如基于损失的检测和缓存/检索方案)更加鲁棒,特别是由于其有利的样本复杂性,即在足够多的文本上保证检测的扩展行为。




Undetectable Watermarks

论文标题:

Undetectable Watermarks for Language Models

论文链接:

https://eprint.iacr.org/2023/763.pdf

这篇论文提出了一种基于密码学概念的无法检测到的语言模型水印方法。传统的水印方法会明显改变生成文本的分布,从而被用户察觉到,而本文的方法则可以在不引起用户注意的情况下嵌入水印。具体来说,只有在使用秘密密钥的情况下,才能检测到水印的存在;如果没有密钥,从原始模型生成的文本和带水印的文本无法在计算上区分开。这意味着用户无法观察到生成文本质量的任何下降,水印也不会被用户察觉,即使用户可以自由选择提示语进行适应性查询。

这篇论文的主要贡献包括以下几个方面:

  1. 提出了无法检测到的语言模型水印的形式化定义和构造方法。通过引入经验熵的概念来量化生成特定子串的随机性,并基于此构造了水印算法。

  2. 提出了无法检测到的水印的三个关键性质:不可检测性、完整性和可靠性。其中,不可检测性保证了水印在用户使用模型进行一般查询时不可察觉;完整性保证了使用秘密密钥时可以高效检测到带水印的文本;可靠性保证了独立于秘密密钥生成的文本几乎不会被错误地检测为带水印。

  3. 证明了无法检测到的水印对于任何语言模型和参数选择都是有效的,而且不对文本的特性做任何假设。

此外,该论文还指出了传统的基于启发式方法和模型的 AI 生成文本检测方法存在的局限性,并讨论了相关工作和攻击方法。有趣的发现是,通过使用水印算法对文本进行嵌入,可以在不降低生成文本质量的情况下,实现无法检测到的水印。这对于保护生成文本的真实性和追踪 AI 生成的文本具有重要意义。




AI-text Detectors

论文标题:

Can AI-Generated Text be Reliably Detected?

论文链接:

https://arxiv.org/abs/2303.11156


这篇论文探讨了 AI 生成文本的可靠检测问题,并从经验和理论上证明了几种 AI 文本检测器在实际场景中的不可靠性经验上,论文展示了一种名为“改写攻击”的方法,即在大型语言模型(LLM)的基础上应用一个轻量级的改写器,可以破坏一系列检测器的效果,包括使用水印方案、神经网络检测器和零样本分类器。实验表明,针对抵抗改写攻击而设计的基于检索的检测器仍然容易受到递归改写攻击的影响。
论文还提出了一个理论不可能性结果,指出随着语言模型变得越来越复杂,越来越擅长模仿人类文本,即使是最佳的检测器的性能也会下降。对于一个足够先进的语言模型来说,即使是最佳的检测器的性能也只能比随机分类器稍微好一点。这个结果足够通用,可以涵盖特定场景,如特定的写作风格、巧妙的提示设计或文本改写。
论文还将不可能性结果扩展到使用伪随机数生成器进行 AI 文本生成的情况,并证明了对于所有多项式时间可计算的检测器,该结果仍然成立,只需增加一个可以忽略的校正项。最后,论文还展示了即使使用水印方案保护的 LLM 也容易受到欺骗攻击的情况,其中恶意人员可以推断出隐藏的 LLM 文本特征,并将其添加到人工生成的文本中以被检测为 LLM 生成的文本,从而可能对其开发者的声誉造成损害。这些结果可引发社区内有关 AI 生成文本的道德和可靠使用的诚实讨论。
论文的主要贡献包括:
  1. 提出了改写攻击的概念,通过应用轻量级改写器对AI生成文本进行改写,成功地降低了多种文本检测器的准确性。

  2. 给出了一个理论上的不可能性结果,表明随着语言模型的进一步发展,即使是最佳的检测器的性能也会下降,因此在实际情况下开发可靠的 AI 生成文本检测器是不可能的。

  3. 探讨了针对 AI 生成文本的欺骗攻击,展示了如何通过推理 LLM 的水印方案或在检索型检测器中注册改写的人类文章来伪装非 AI 文本。

论文的有趣发现包括:

  1. 改写攻击可以有效地干扰多种文本检测器,包括使用水印方案、零样本分类器和神经网络检测器等。

  2. 随着语言模型的进一步发展,AI 生成文本的分布越来越接近于人类生成文本,使得它们更难以检测。

  3. 即使使用水印方案保护的 LLM 也容易受到欺骗攻击,这可能会对开发者的声誉造成损害。

总之,该论文通过实证和理论分析展示了现有 AI 文本检测器在实际场景中的不可靠性,并提出了一些重要的观点和发现,为 AI 生成文本的道德和可靠使用引发了讨论。




AI-Generated Text Detection

论文标题:

On the Possibilities of AI-Generated Text Detection

论文链接:

https://arxiv.org/abs/2304.04736


本文研究了如何检测由大型语言模型(LLM)生成的文本,以将其与人类生成的文本区分开来。这种能力在许多应用中非常重要,但在学术界存在争议。因此,一个核心问题是我们是否能够检测到 AI 生成的文本,如果可以,那么何时能够进行检测
本文提出了几点证据,表明几乎总是可以检测到 AI 生成的文本,除非人类和机器生成的文本在整个样本空间上完全相同。这一观察结果是基于信息理论中的标准结果,并且依赖于机器生成文本越接近人类文本,我们需要更多样本才能进行检测这一事实
们推导出了 AI 生成文本检测的精确样本复杂度界限,告诉我们需要多少样本才能进行检测。这也带来了设计更复杂的检测器的额外挑战,这些检测器需要使用 n 个样本进行检测(而不仅仅是一个样本),这是未来研究的范围。
本文在各种真实和合成数据集上进行的实证评估支持了关于存在更好的检测器的论断,证明了在大多数情况下应该能够实现 AI 生成文本的检测。本文的理论和结果与 OpenAI 的经验结果相一致,并且这是第一个为这些结果提供坚实理论基础的研究。
主要动机:本文的动机是探讨检测由 LLMs 生成的文本的可能性,以解决由此引发的伦理和社会问题。
方法细节:本文通过信息论的标准结果,结合样本复杂度理论,推导出了 AI 生成文本检测的上限界限。同时,进行了实证评估,使用真实和合成数据集验证了该理论的正确性。
主要贡献点:
  1. 证明了在几乎所有情况下,通过收集足够多的样本,几乎总是可以检测到AI生成的文本。

  2. 推导了AI生成文本检测的样本复杂度界限,告诉我们需要多少样本才能进行检测。

  3. 在各种真实和合成数据集上进行了实证评估,支持了上述观点,并证明存在更好的检测器。

主要发现:
  1. 即使机器和人类生成的文本分布非常接近,通过收集更多的样本,可以增加可达到的 AUROC,从而实现检测。
  2. 引入水印技术可以帮助解决机器和人类生成的文本分布非常接近的问题,并且收集更多样本有助于进行 AI 生成文本的检测。
  3. 检测器的性能可以通过增加样本长度(或收集更多样本)来提高。




ACL 2023

论文标题:
On Prefix-tuning for Lightweight Out-of-distribution Detection
论文链接:

https://aclanthology.org/2023.acl-long.85/


该论文介绍了一种轻量级的无监督文本离群检测方法,称为 PTO(Prefix-tuning based OOD detection)。论文指出,现有的基于微调(fine-tuning)的方法在离群检测中取得了一定的进展,但为每个场景存储微调模型可能成本较高。
因此,论文提出了一种参数高效的替代方案,通过无监督的前缀调整方法实现离群检测。同时,为了充分利用可选的训练数据标签和目标离群数据,论文进一步提出了 PTO 的两个实用扩展。总体而言,PTO 及其扩展具有轻量级、易于复现和理论上的优势。

论文的方法部分主要包括以下内容:

  1. PTO 方法:通过优化特定的前缀向量,使预训练语言模型更倾向于为正常样本分配更高的似然值,从而检测离群样本。该方法不涉及样本标签,适用于成本较高的情况。

  2. PTO + Label 方法:在有标签的情况下,为每个标签初始化前缀向量,并利用对应的标签样本进行优化,进一步提升离群检测性能。

  3. PTO + OOD 方法:利用目标离群数据进行优化,通过比较前缀之间的似然改善来检测离群样本。

  4. PTO + Label + OOD 方法:同时使用标签和目标离群数据进行优化,进一步提升离群检测性能。

论文的实验结果表明,PTO 及其扩展方法在不同数据集和评估指标下均取得了有效的离群检测性能。此外,论文还进行了错误分析和方法比较,展示了所提方法的优势和特点。
有趣的发现包括:
  1. PTO 方法相比传统的基于困惑度(perplexity)的方法在离群检测上表现更好,能够更好区分正常样本和离群样本。

  2. PTO + Label 方法相比 PTO 有更好的性能,并且收敛速度更快。通过为每个标签优化前缀向量,可以更好地引导生成与标签相关的样本。

  3. PTO + OOD 方法能够通过优化针对目标离群数据的前缀向量来提升离群检测性能,减小训练数据和测试数据之间的分布差异。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

继续滑动看下一个

如何判别大语言模型生成的文本?

让你更懂AI PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存