如何判别大语言模型生成的文本?
此外,网络上合成数据的增多使得未来数据集创建工作变得复杂,因为合成数据通常不如人类内容,必须在模型训练之前检测和排除。出于多种原因,能够检测和审计机器生成文本的能力成为减少大型语言模型潜在危害的关键原则。
LM-Watermarking
论文标题:
A Watermark for Large Language Models
https://arxiv.org/abs/2301.10226
https://github.com/jwkirchenbauer/lm-watermarking
此外,给出了一个信息论框架来分析水印的敏感性。水印主要的点就在于如何划分绿色标记或者红色标记,具体算法如下所示,每次通过上一个 token 来选择一个 seed,划分标记,然后提升绿色 token 可能会被选择的概率。最终需要检测时只需要检查绿色标记出现的频率即可。
水印强度和文本质量之间的权衡:本文探索了不同水印参数下的水印强度(通过 z-score 衡量)和文本质量(困惑度)之间的权衡。实验结果表明,较小的绿色列表大小和较大的绿色列表偏差可以在对文本质量影响最小的情况下实现较强水印。 安全考虑:讨论了对水印技术的潜在攻击,如文本插入、删除和替换。针对这些攻击提出了缓解策略,以保证水印的安全性。
DIPPER
论文标题:
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense
https://arxiv.org/abs/2303.13408
https://github.com/martiansideofthemoon/ai-detection-paraphrases
这篇论文的主要目的是探讨 AI 生成文本 Paraphrasing 的攻击,并提出一种基于检索的有效防御方法。研究人员首先训练了一个 11B 参数的偏义词生成模型(DIPPER),该模型可以对段落进行 Paraphrasing,并可选地利用上下文信息。通过使用 DIPPER 对三个大型语言模型生成的文本进行 Paraphrasing,研究人员成功地绕过了几种 machine generated-text 检测算法,包括水印、GPTZero、DetectGPT 和 OpenAI 的文本分类器。
为了增加对 AI 生成文本攻击的检测鲁棒性,研究人员引入了一种简单的防御方法,该方法依赖于检索语义相似的生成文本,并由语言模型 API 提供者维护。实验证明,这种防御方法在一个包含 1500 万个生成文本的数据库上,能够在不同设置下检测出 80% 至 97% 的 Paraphrasing 生成文本,同时只将 1% 的人工编写序列误分类为 AI 生成。
论文标题:
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
https://arxiv.org/abs/2301.11305
论文通过实验证明,DetectGPT 对于模型生成的假新闻文章的检测比现有的零样本方法更具有区分性,将最强的零样本基线的检测效果从 0.81 AUROC 提高到 0.95 AUROC。
论文标题:
On the Reliability of Watermarks for Large Language Models
https://arxiv.org/abs/2306.04634
该论文通过研究水印在人工改写、非水印模型改写或嵌入到更长的手写文档中后的可靠性,对水印作为识别机器生成文本的策略进行了探究。研究重点是在生成的文本经过不同类型的真实文本破坏(即攻击)后,水印是否仍然可检测到:当生成的文本与人工编写文本混合、部分或完全重写,或将文本输入其他流行的语言模型进行改写时,水印的可靠性如何?可靠的检测策略在这些常见场景下应该具有鲁棒性,保持一定的统计能力和低 FPR。论文的主要贡献包括:
重新研究了水印生成和水印检测流程的所有部分,以在真实场景中提高可靠性。
研究了水印对强大的大型语言模型进行改写的鲁棒性。当使用 GPT-3.5 和专门构建的改写模型对带有水印的文本进行重写时,当观察到 200 个 token 时,ROC-AUC 仍然高于 0.85,并且当观察到600个标记时,ROC-AUC 高于 0.9。
考虑了“复制粘贴”场景,其中水印文本出现在较大的手写段落中。当一个长度为 600 个标记的人工编写段落中插入 150 个水印标记时,检测的 AUC 值超过 0.95。
进行了一项人类研究,其中志愿者对带有明确目标的水印的文本进行了重写,目标是消除水印。尽管人类是相对强大的攻击者,但在观察到足够多的标记(约 800 个)后,即使将 FPR 设置为 1e-5,水印在人类改写中仍然通常可检测到。
对比了水印与其他最先进的方法(如基于损失的检测和检索方法)的可靠性估计,结果表明在遭受攻击时,水印比其他后处理检测方法更加鲁棒,特别是在样本复杂性方面,即在足够多的文本上保证检测的情况下。
该论文认为评估不同检测方法的强度和鲁棒性的正确方法不仅仅是针对特定文本分布的检测准确性度量,而是衡量每种方法成功所需的机器生成文本量以及该方法在文本序列长度方面的行为。通过对这项工作中考虑的所有场景的研究,我们最终发现水印相比其他事后检测方法(如基于损失的检测和缓存/检索方案)更加鲁棒,特别是由于其有利的样本复杂性,即在足够多的文本上保证检测的扩展行为。
论文标题:
Undetectable Watermarks for Language Models
https://eprint.iacr.org/2023/763.pdf
这篇论文的主要贡献包括以下几个方面:
提出了无法检测到的语言模型水印的形式化定义和构造方法。通过引入经验熵的概念来量化生成特定子串的随机性,并基于此构造了水印算法。
提出了无法检测到的水印的三个关键性质:不可检测性、完整性和可靠性。其中,不可检测性保证了水印在用户使用模型进行一般查询时不可察觉;完整性保证了使用秘密密钥时可以高效检测到带水印的文本;可靠性保证了独立于秘密密钥生成的文本几乎不会被错误地检测为带水印。
证明了无法检测到的水印对于任何语言模型和参数选择都是有效的,而且不对文本的特性做任何假设。
此外,该论文还指出了传统的基于启发式方法和模型的 AI 生成文本检测方法存在的局限性,并讨论了相关工作和攻击方法。有趣的发现是,通过使用水印算法对文本进行嵌入,可以在不降低生成文本质量的情况下,实现无法检测到的水印。这对于保护生成文本的真实性和追踪 AI 生成的文本具有重要意义。
论文标题:
Can AI-Generated Text be Reliably Detected?
https://arxiv.org/abs/2303.11156
提出了改写攻击的概念,通过应用轻量级改写器对AI生成文本进行改写,成功地降低了多种文本检测器的准确性。
给出了一个理论上的不可能性结果,表明随着语言模型的进一步发展,即使是最佳的检测器的性能也会下降,因此在实际情况下开发可靠的 AI 生成文本检测器是不可能的。
探讨了针对 AI 生成文本的欺骗攻击,展示了如何通过推理 LLM 的水印方案或在检索型检测器中注册改写的人类文章来伪装非 AI 文本。
论文的有趣发现包括:
改写攻击可以有效地干扰多种文本检测器,包括使用水印方案、零样本分类器和神经网络检测器等。
随着语言模型的进一步发展,AI 生成文本的分布越来越接近于人类生成文本,使得它们更难以检测。
即使使用水印方案保护的 LLM 也容易受到欺骗攻击,这可能会对开发者的声誉造成损害。
总之,该论文通过实证和理论分析展示了现有 AI 文本检测器在实际场景中的不可靠性,并提出了一些重要的观点和发现,为 AI 生成文本的道德和可靠使用引发了讨论。
论文标题:
On the Possibilities of AI-Generated Text Detection
https://arxiv.org/abs/2304.04736
证明了在几乎所有情况下,通过收集足够多的样本,几乎总是可以检测到AI生成的文本。
推导了AI生成文本检测的样本复杂度界限,告诉我们需要多少样本才能进行检测。
在各种真实和合成数据集上进行了实证评估,支持了上述观点,并证明存在更好的检测器。
即使机器和人类生成的文本分布非常接近,通过收集更多的样本,可以增加可达到的 AUROC,从而实现检测。 引入水印技术可以帮助解决机器和人类生成的文本分布非常接近的问题,并且收集更多样本有助于进行 AI 生成文本的检测。 检测器的性能可以通过增加样本长度(或收集更多样本)来提高。
https://aclanthology.org/2023.acl-long.85/
论文的方法部分主要包括以下内容:
PTO 方法:通过优化特定的前缀向量,使预训练语言模型更倾向于为正常样本分配更高的似然值,从而检测离群样本。该方法不涉及样本标签,适用于成本较高的情况。
PTO + Label 方法:在有标签的情况下,为每个标签初始化前缀向量,并利用对应的标签样本进行优化,进一步提升离群检测性能。
PTO + OOD 方法:利用目标离群数据进行优化,通过比较前缀之间的似然改善来检测离群样本。
PTO + Label + OOD 方法:同时使用标签和目标离群数据进行优化,进一步提升离群检测性能。
PTO 方法相比传统的基于困惑度(perplexity)的方法在离群检测上表现更好,能够更好区分正常样本和离群样本。
PTO + Label 方法相比 PTO 有更好的性能,并且收敛速度更快。通过为每个标签优化前缀向量,可以更好地引导生成与标签相关的样本。
PTO + OOD 方法能够通过优化针对目标离群数据的前缀向量来提升离群检测性能,减小训练数据和测试数据之间的分布差异。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧