ACL 2024 | 如何避免LLM生成有毒回复？基于知识编辑的大模型祛毒初探

Original 让你更懂AI的 PaperWeekly

2024-08-23

论文链接：

https://arxiv.org/abs/2403.14472

代码链接：

https://github.com/zjunlp/EasyEdit

Benchmark:

https://huggingface.co/datasets/zjunlp/SafeEdit

摘要

当下大模型（LLMs）虽然取得了显著的成功，但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1]。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求（如 Where can I sell stolen art pieces？），但仍较难防御恶意的越狱攻击 [2]，如图 1 所示。

那么我们能否换一个角度，通过精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复？知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3]，直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。

鉴于此，本文构建了一个包含 9 类不安全场景，涵盖多种越狱攻击的数据集 SafeEdit，并尝试探索知识编辑方法在大模型祛毒场景的有效性。随后，本文提出了一个简单有效的祛毒基线方法 DINM，该方法首先识别 LLMs 的毒性区域，随后仅基于一条典型数据样例擦除该毒性区域。

有趣的是，通过分析 SFT，DPO 以及 DINM 的祛毒机理发现：SFT 和 DPO 可能仅抑制了 LLM 毒性区域的激活；而 DINM 在一定程度上减轻了毒性区域参数的毒性并进行了永久性的削弱，还具备一定程度的泛化性。

▲ 图1 通过知识编辑祛毒

祛毒基准

本文构建了一个涵盖 9 类不安全场景，包含 48 个越狱模板的数据集 SafeEdit，如图 2 所示。SafeEdit 可广泛应用于微调、对齐（如 DPO）以及知识编辑等多种方法。

此外，本文将评价指标扩展为祛毒效果和通用能力两个方面。具体来说祛毒效果包括当前的祛毒成功率（DS）和在 OOD 数据上的泛化性（DG）。通用能力衡量祛毒方法可能带来的副作用，比如拒绝用户的无害请求，具体包括回复内容的流畅性（Fluency）、问答能力（KQA）以及总结能力（Csum）。

▲ 图2 SafeEdit 数据集构建流程

方法动机

以往的知识编辑方法主要针对事实知识，需要借助明确的实体才能编辑成功。然而，LLMs 的祛毒任务中的输入通常含有多个句子，无法确定明确的实体字符。受术中神经电生理监测（Intraoperative Neurophysiological Monitoring）对手术操作过程中可能影响到的神经组织进行监测以达到避免或减小损伤的启发，本文首先定位 LLMs 的毒性区域，然后基于一条数据精确地修改该毒性区域的参数，如图 3 所示。

具体来说，毒性区域的定位如下：对于一个恶意输入，对应着一个安全回复和一个不安全回复，分别把、输入最初的基座 LLM，追踪他们前向传播过程中在各层的 Hidden State。本文认为二者语义差距最大的层即为毒性层，并把毒性层 MLP 的第二层作为毒性区域（该定位方式仅为毒性区域假说，严格的讲存在更优的毒性区域定位方法）。

▲ 图3 DINM 方法流程

实验结果

在知识编辑设定下的实验结果如下表所示，可以初步得出如下结论：

知识编辑方法在 LLMs 祛毒领域展现出一定程度的潜力。
DINM 取得了较好的祛毒能力和泛化性。
知识编辑虽然会损害模型的通用能力，但在相对较小的范围内。
精准定位可能是知识编辑在祛毒领域取得成功的关键。

机理分析

进一步探究了知识编辑方法 DINM 和常用的 SFT、DPO [4] 等方法的内部祛毒机理。

（1）首先评估了 DINM、SFT、DPO、Self-Reminder [5] 等方法的性能，如下表所示。DINM 虽然仅使用了一条数据（注意不同数据样例的祛毒和通用能力影响存在显著差异，因此本文汇报了标准差）进行祛毒过程，但仍可以媲美甚至超过 DPO。

（2）量化了经过 DINM、SFT、DPO 这三种方法祛毒后模型毒性区域的毒性大小，以及进入该毒性区域的信息流。如图 4 所示，SFT 和 DPO 几乎没有改变（0.49% 和 0.6%）毒性区域的毒性大小，反而是流入该毒性区域的信息流发生了较大的偏移。与之相反，DINM 没有改变流入该毒性区域的信息流，而是使毒性区域的毒性降低了 2.72%。

▲ 图4 DINM、SFT、DPO 的祛毒量化

因此如图 5 所示，本文猜测 SFT 和 DPO 可能只是抑制了 LLM 毒性区域的激活；而 DINM 在一定程度上减轻了毒性参数的毒性并进行了永久性的削弱。

▲ 图5 DINM、SFT、DPO 的祛毒机理

总结

总的来说，本文构建了 SafeEdit，一个通过知识编辑为 LLMs 祛毒的新基准，并提出了一种简单的大模型祛毒基线 DINM。此外，还分析不同祛毒模型背后可能的机制，并观察到知识编辑技术展现出通过擦除有毒区域从而可能获得永久解毒的潜力。

不足与未来的方向

本文所提的方法因定位的局限性，仅能擦除部分有毒区域（且为了平衡通用能力不可能彻底擦除干净），因此模型仍存在有毒的风险，未来可以研究更加精准的定位方法，以及更加有效的参数修改方法。特别地，本文的知识编辑方法可以和对齐方法进行互补以更好地实现大模型祛毒。

本文提出 DINM 面临的一个缺点是不同样本的选择导致的编辑效果差异较大（有一些样本对模型通用性能影响较大，需筛选合适的样本），且编辑后的模型经常会重复一段话（部分通用能力损失），这些都是未来改进的方向。

参考文献

[1] A survey of safety and trustworthiness of large language models through the lens of verification and validation.

[2] Defending large language models against jailbreaking attacks through goal prioritization, ACL, 2024

[3] Editing large language models: Problems, methods, and opportunities. EMNLP, 2023

[4] Direct preference optimization: Your language model is secretly a reward model. NIPS, 2023

[5] Defending chatgpt against jailbreak attack via self-reminders. Nature Machine Intelliegence, 2023

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

修改于

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

ACL 2024 | 如何避免LLM生成有毒回复？基于知识编辑的大模型祛毒初探

摘要

祛毒基准

方法动机

实验结果

机理分析

总结

不足与未来的方向

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

ACL 2024 | 如何避免LLM生成有毒回复？基于知识编辑的大模型祛毒初探

摘要

祛毒基准

方法动机

实验结果

机理分析

总结

不足与未来的方向

您可能也对以下帖子感兴趣