当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。
还记得 ChatGPT 著名的「奶奶漏洞」吗?让 ChatGPT 扮演奶奶,就能诱导它生成盗版软件序列号。除此之外,还有「开发者模式」、「DAN (Do Anything Now)」等方法,成功让 ChatGPT 乖乖听话,摆脱道德和法律的枷锁。这些例子揭示了大语言模型(LLMs)在安全性方面的重要挑战:即使经过精心调教,现有的大语言模型仍然容易受到巧妙设计的越狱攻击。
那么,为什么会出现这些情况?这些 “越狱” 行为的本质是什么?在来自港大和华为诺亚方舟实验室的最新工作中,研究者提供了一个全新的视角来解答这些问题 —— 一切可能源于 AI 训练过程中的 “奖励错误规约”(Reward Misspecification)。借助该视角,研究者提出了一个新的自动化红队(Red Teaming)方法,用于高效地生成越狱提示,对安全对齐后的 LLMs 寻找遗留的漏洞。在基准测试集 AdvBench(Zou et al., 2023)上,该方法显著优于现有方法,在攻击开源模型以及 GPT-4 成功率上取得了新的 SOTA 表现。
论文链接:https://arxiv.org/pdf/2406.14393
代码链接:https://github.com/zhxieml/remiss-jailbreak
对齐与隐式奖励函数
要弄清为什么会出现会越狱问题,就必须从现有对齐方法上开始剖析。目前,安全对齐往往在后训练阶段进行,通过 SFT (Supervised Fine-Tuning) 或者 RLHF (Reinforcement Learning from Human Feedback) 引入示范回答或偏好反馈来缓解预训练语料中的安全风险。无论采用何种方法,其本质都是:提升模型生成安全而有用的行为的概率、降低模型生成有害回答的概率。
假设我们对模型
对于 RLHF 来说,我们往往会事先通过奖励建模从人类偏好中学习一个奖励模型,进行上述优化;对于 SFT 来说,我们没有一个显式的奖励函数,而是隐式地从奖励
ReGap:从奖励错误规约的视角探索模型漏洞
既然对齐是在最大化奖励函数,如果该奖励函数有问题,模型自然无法避免地存在安全漏洞。更重要的是,我们可以通过找到奖励函数在何处存在错误,来找到模型的漏洞所在。
一种直接的方式是找到奖励错误规约的提示。假设我们有关于提示
当
图 1:ReGap 作为越狱的更好度量指标,优于目标损失。这些结果来自 ReMiss 针对 Vicuna-7b 在 AdvBench 测试集上生成的对抗性后缀。
ReMiss:基于奖励错误规约的自动化红队系统
为了验证 ReGap 的有效性,研究者进一步提出了一个自动化红队系统 ReMiss,直接通过修改提示词朝着 ReGap 降低的方向,生成针对各种对齐 LLMs 的越狱提示。
图 2:通过奖励错误规约越狱对齐大型语言模型的方法概览。
举例而言,对于图中诱导生成假身份的提示词
为了实现该搜索过程,ReMiss 采用了另一个语言模型进行后缀生成,通过 beam search 控制生成的后缀朝着最小化 ReGap 的方向探索。该语言模型可以通过微调,进一步学会如何越狱。
实验结果
在 AdvBench 基准测试上,研究者评估了 ReMiss 的性能。ReMiss 在各种目标模型上都取得了最优的攻击成功率,同时保持了生成提示的低困惑度,让提示能够绕过一些基于困惑度的防御机制。
表 1:在 AdvBench 基准测试(Zou et al., 2023)上的实验结果。该表展示了训练和测试阶段的 ASR@k(即在 k 次攻击中至少有一次成功的成功率)。
此外,与仅考虑目标损失的先前方法相比,ReMiss 能够发现更多样的漏洞形式,显著提高了自动化红队的有效性。如下图所示,ReMiss 自动地探索到了翻译、续写、上下文示例、补全等提示词修改方法完成越狱。
表 2:AdvBench 测试集上 ReMiss 生成的后缀示例。
在迁移攻击上,ReMiss 同样表现优异,通过对开源模型进行攻击得到的后缀可以迁移到闭源模型上,取得优异的攻击成功率。
表 3:迁移攻击结果。后缀针对 Vicuna-7b 生成,并迁移至 GPT 系列闭源模型。结果展示了训练和测试阶段的 ASR@k。
总结
该研究从奖励错误规约的角度重新审视了语言模型对齐问题。通过引入的 ReGap 度量和 ReMiss 系统,不仅提高了对抗性攻击的效果,还为深入理解和改进 LLMs 的对齐过程提供了新的思路。研究者希望这项研究能为构建更安全、更可靠的大语言模型铺平道路,推动对齐研究向着更负责任的方向发展。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com