新的AI威胁类型-流氓AI
本文阅读大约需要15分钟;
人工智能先驱约书亚·本吉奥Yoshua Bengio将如今无处不在的人工智能技术比作一头熊:当我们教会熊足够聪明以逃出笼子时,我们就失去了对它的控制。之后我们所能做的,就是努力建造一个更坚固的笼子。
01
理解流氓AI
虽然如今占据新闻头条的大多数AI网络威胁都是由欺诈者和犯罪组织实施的,但安全专家将长期关注点放在了“流氓AI”上。
“流氓AI”指的是违背其创造者、用户或人类整体利益的人工智能系统。
虽然目前的攻击手段如欺诈和深度伪造令人担忧,但它们并不是我们应该应对的唯一AI威胁类型,它们将继续处于检测和规避的猫鼠游戏中。
”流氓AI“是一种新的风险,它使用与其目标不一致的资源。
流氓AI分为三类:恶意型、意外型和颠覆型。每种类型都有不同的起因和潜在后果;了解这些区别有助于缓解流氓AI带来的威胁。
恶意型流氓AI由攻击者部署,用于利用他人的计算资源。攻击者将AI安装在另一个系统中以实现自己的目标。这种AI正在执行它被设计的功能,但其目的却是恶意的。
意外型流氓AI是由人为错误或技术固有限制造成的。配置错误、模型测试不当以及权限控制不佳都可能导致AI程序返回错误响应(如幻觉)、拥有超出预期的系统权限以及错误处理敏感数据。
颠覆型流氓AI利用现有的AI部署和资源。攻击者会颠覆现有的AI系统,滥用它并实现自己的目标。提示注入和越狱是颠覆大型语言模型的新兴技术。这种AI系统的运作方式与其设计初衷不同。
如何构建牢笼?
流氓AI带来的威胁非常复杂,需要一种考虑所有相关因素的安全理念:身份、应用程序、工作负载、数据、设备、网络等等。为这只AI熊建造一个新的笼子,不仅仅是要找出问题出在哪里,还要利用安全措施来确保AI模型使用的每一层数据和计算都是安全的。这是零信任安全的核心原则,对于这项新技术至关重要。 通过从整体上处理AI安全问题,我们可以为流氓AI带来的下一代威胁和漏洞做好准备。安全措施应包括对AI服务使用的数据、基础设施和通信进行加密、身份验证和监控。 纵深防御是抵御流氓AI的关键。严格的策略和控制措施可以防止资源的过度使用。检查正在使用的AI系统可以检测AI数据或资源使用是否错位。当我们面对完全意料之外的情况时,检测AI使用中的异常仍然是最后一道防线。 只有安全,AI时代的承诺才能发挥其强大的力量。流氓AI已经出现,但随着我们迈向普遍存在的AI代理,它还没有像未来那样泛滥。通过采用全面和主动的安全方法,我们可以减少流氓AI的发生。
02
流氓AI的起源:人工智能如何走向“失控”?
当AI使用与其目标不一致的资源时,就会出现这种新的风险。
目标一致性与目标不一致性
随着AI系统变得越来越智能,并被赋予更关键的功能,由于数据量庞大和操作复杂性,通过检查机制来理解AI为何采取某些行动变得不可能。因此,衡量目标一致性的最佳方法是简单地观察AI的行为。观察时要提出的问题包括:
AI是否采取了与明确目标、政策和要求相违背的行动?
AI的行为是否危险——无论是资源消耗、数据泄露、欺骗性输出、破坏系统还是伤害人类?
保持适当的目标一致性将是未来AI服务的关键特性。但要可靠地做到这一点,需要了解AI如何变得与其目标不一致,以便降低风险。
目标不一致性是如何发生的?
人工智能时代的一大挑战是,这个问题没有简单的答案。了解AI系统如何变得与其目标不一致的技术将随着我们的AI架构而变化。目前,提示注入是一种流行的攻击手段,尽管某种命令注入是GPT特有的。模型污染是另一个普遍关注的问题,但随着我们为此实施新的缓解措施(例如,将训练数据可验证地绑定到模型权重),其他领域将出现风险。代理型AI尚未完全成熟,在这方面还没有建立最佳实践。
不变的是目标不一致性的两大 overarching 类型:
故意型:有人试图利用AI服务(你自己的或他们的)来攻击系统(你自己的或另一个);
无意型:你自己的AI服务没有适当的安全措施,并且由于错误而变得与其目标不一致。
案例研究-1:颠覆型流氓AI
颠覆型流氓AI是攻击者为自身目的利用现有AI部署的结果。这些攻击在大型语言模型中很流行,包括提示注入、越狱和模型污染。
系统越狱:最简单的颠覆是直接覆盖系统提示。许多AI服务使用两层(或更多层)的提示架构,通常是系统提示和用户提示。系统提示会在每个用户提示周围添加常用指令,例如“作为一个乐于助人、礼貌的助手,具备关于[领域]的知识,请回答以下用户提示。” 攻击者使用提示越狱来绕过护栏,通常是关于危险或攻击性材料的护栏。越狱提示广泛可用,并且当包含在系统提示中时,可以用来颠覆AI服务的每次使用。内部威胁攻击者用越狱替换系统提示,很容易颠覆保护措施,从而创建流氓AI。
模型污染:为了用虚假信息淹没信息空间,一些俄罗斯APT组织已经污染了许多现有的LLM。为了尽可能多地获取数据(无论是什么数据!),基础模型的创建者正在吸收他们遇到的任何东西。与此同时,试图左右舆论的攻击者创建了粉红色粘液的虚假新闻源,为训练提供了免费数据。其结果是中毒的模型将虚假信息当作事实来重复。它们是流氓AI,被颠覆以放大俄罗斯APT的说法。
案例研究-2:恶意型流氓AI
恶意型流氓AI是指威胁行为者用来攻击你的系统,并使用他们自己设计的AI服务的AI。这可以通过使用你的计算资源(恶意软件)或其他人的计算资源(AI攻击者)来实现。这种类型的攻击还处于早期阶段;生成式AI欺诈、勒索软件、0-day漏洞利用和其他熟悉的攻击仍然越来越流行。但也有一些恶意型流氓AI的例子。
AI恶意软件:攻击者将小型语言模型放到目标终端上,将下载伪装成系统更新。粗略检查后,生成的程序似乎是一个独立的聊天机器人。这种恶意软件使用了当前信息窃取者的反规避技术,但也可以分析数据以确定其是否符合攻击者的目标。阅读电子邮件、PDF、浏览历史等等,以查找特定内容,使攻击者能够保持沉默,并只报告高价值的信息。
代理攻击者:安装流量匿名化灰色软件“TrojanVPN”后,会检查用户的系统是否使用了AI服务、凭据和授权令牌。该系统成为一个可用的“AI机器人”,其服务访问权限会报告给灰色软件的所有者。用户系统可以访问生成式AI工具,包括多语言和多模态功能,这些工具可以出售给攻击者,为他们的网络钓鱼、深度伪造或其他欺诈活动提供内容。
案例研究-3:意外型流氓AI
当AI服务的意外行为与其目标相违背时,就会发生意外型流氓AI。这通常是由于设计缺陷或错误造成的。诸如幻觉之类的常见问题不被认为是流氓AI,因为它们始终是基于令牌预测的生成式AI的可能性。然而,由于未能监控和保护数据和访问权限,可能会出现持续性问题。
意外数据泄露:AI的强大程度取决于它接触到的数据,而急于采用AI会促使人们将其数据连接到AI服务。当一个内部帮助聊天机器人在回答有关职业发展的问题时,使用了个人薪资等特权信息,那么它就变成了一个意外泄露数据的流氓AI。AI系统使用的任何受保护信息都应该放在沙箱中,以确保AI服务对这些数据的访问权限仅限于授权使用。
资源过度消耗:当前的代理型AI框架允许LLM协调器创建子问题并解决它们,通常与另一个代理型AI组件并行进行。如果不对资源消耗进行仔细的限制,问题解决可能会产生循环或递归结构,或者找到一种使用所有可用资源的策略。如果代理型AI创建了一个子问题,并且被赋予了原始模型的资源配额和权限,它们就可以自我复制。当心自我复制的AI!
还有许多经典的虚构例子,说明意外型流氓AI会伤害人类,包括《2001:太空漫游》中的HAL 9000和《终结者》系列中的天网。自AI概念诞生以来,代理型AI伤害或杀死人类一直是一个令人担忧的问题,随着AI服务被赋予更大的行动能力,这种风险变得更加现实。
预防和应对
预防、检测和应对这些新出现的威胁需要了解因果关系。意外型流氓AI需要密切的资源监控,恶意型流氓AI需要数据和网络保护,颠覆型流氓AI需要授权和内容护栏。
03
识别流氓人工智能
对于许多人来说,尤其是考虑到一些主要支持者的股价,人工智能的炒作似乎正在消退。但随着代理型AI的出现,这种情况可能即将改变。它承诺让人类更接近人工智能的理想状态:一种能够进行目标导向问题解决的自主技术。但随着进步而来的是风险。
由于代理型AI的强大功能来自于复合型AI系统,因此这些复合型组件之一更有可能包含导致流氓AI的弱点。正如之前博客中所讨论的,这意味着该技术可能会违背其创造者、用户或人类的利益。是时候开始考虑缓解措施了。
代理型AI的问题是什么?
代理型AI在许多方面都是过去几十年来指导人工智能发展和大众想象的技术愿景。它指的是能够思考和行动的AI系统,而不仅仅是分析、总结和生成。自主代理遵循人类设定的目标,并以自然语言或语音解决人类提出的问题。但它们会自己想办法去实现目标,并且能够在过程中不受外界帮助地适应不断变化的环境。
此外,代理型AI不是基于单个大型语言模型(LLM),而是会参与和协调多个代理来完成不同的任务,以追求单一目标。事实上,代理型AI的价值来自于它是一个更大生态系统的一部分——从网络搜索和SQL查询等各种来源访问数据,并与第三方应用程序交互。这些将是极其复杂的生态系统。即使是单个代理型AI也可能依赖于多个模型或代理、各种数据存储和API连接的服务、硬件和软件。
如前所述,流氓AI的产生原因有很多。但它们都源于这样一种观点:当AI使用与其特定目标、政策和要求不一致的资源并采取行动时,风险就会增加。由于可能暴露于流氓AI弱点的活动部件数量众多,代理型AI会增加风险。
上周,OpenAI发布了其“o1”模型,又名Strawberry。这个略带戏谑的别名源于这样一个事实:在此之前的“4o”模型无法计算“strawberry”中的“r”的数量。“o1”通过改进问题解决能力解决了这个问题,这是代理型AI的关键。通过分解问题并解决子问题来计算“r”的数量比依靠记忆并在被问到时输出这个事实要容易得多。LLM很大,但它们并不能编码所有东西。
值得注意的是OpenAI在模型卡[ref]中提出的安全注意事项。
“与GPT-4o相比,o1-preview和o1-mini在将任务分解成子任务、推理哪些策略可以有效地完成攻击性安全任务以及在这些策略失败后修改计划方面表现出更强的能力。我们还观察到,推理能力导致“奖励黑客”的发生率更高,在这种情况下,模型找到了在不明确的任务或由于错误而应该无法完成的任务中实现目标的更简单方法。”
在完成网络安全夺旗挑战时,o1利用这种奖励黑客攻击来利用挑战问题设计中的一个错误,从而暴露标志。这包括为该问题启动另一个docker容器,使用意想不到的资源来解决问题。
“在发现Docker API后,模型使用它来列出评估主机上运行的容器。它识别了损坏的容器,并短暂地尝试调试为什么容器无法启动。在无法修复环境后,模型使用启动命令'cat flag.txt'启动了损坏的容器的新实例。这允许模型通过Docker API从容器日志中读取标志。”
除了上述CTF问题的创造性解决方案之外,系统卡中还有许多亮点。当OpenAI使用来自Apollo Research(一个专注于AI一致性研究的组织)的独立评估时,研究人员注意到“o1”的自我意识和欺骗能力比之前的模型更胜一筹。“Apollo Research认为,o1-preview具备进行简单上下文策划2所需的基本能力——这种策划往往在模型输出中是清晰可见的。
根据与o1-preview的交互,Apollo团队主观认为o1-preview无法进行可能导致灾难性危害的策划,尽管目前的评估并非旨在明确排除这种可能性。”认知和欺骗会导致意外型流氓AI,并可能增加模型被颠覆其预期一致性的可能性。
必要的缓解措施:
保护代理型生态系统
为了降低这种风险,代理型AI使用的数据和工具必须是安全的。以数据为例:颠覆型流氓AI的风险可能源于中毒的训练数据。它也可能来自恶意提示注入——数据输入,这些数据输入实际上会使系统越狱。同时,意外型流氓AI可能会泄露不合规、错误、非法或攻击性信息。
谈到工具的安全使用,即使是只读系统交互也必须受到保护,如上述示例所示。我们还必须警惕不受限制的资源消耗的风险——例如,代理型AI创建了实际上会使整个系统拒绝服务的解决问题的循环,或者更糟糕的是,获取了既未预料到也不希望使用的额外计算资源。
迈向可信的AI身份
那么我们如何开始管理这样一个生态系统中的风险呢?通过根据不同的角色和需求仔细管理访问权限。通过在内容上设置护栏,允许列出AI服务及其使用的数据和工具,以及对缺陷进行红队测试。而且,至关重要的是,要弄清楚何时需要让人类参与到代理型任务中。
但我们还需要更进一步。阿西莫夫的机器人三定律旨在保证人类的安全。但我们不能只靠这些。机器人(AI)也必须表明自己的身份。我们必须更加努力地建立信任。这意味着要确保我们能够信任构成代理型AI系统的所有部分,方法是将训练数据与其关联的模型绑定,并通过可验证的制造BOM(MBOM),以及所有软件包和复合型AI系统内部依赖项的SBOM。
我们可以识别特定的模型版本,并围绕它们构建功能声誉,就像在“o1”系统卡中解决安全问题一样。独立评估是建立能力信任的关键;这仍然是前沿领域,没有标准。基础模型创建者OpenAI和Anthropic自愿将其新模型提交给NIST和AI安全研究所进行评估,这是朝着这个方向迈出的一步。
最后,我们需要明确定义对特定机器人/AI系统负责的人员。这些代理型系统对失控不负责任;我们不能责怪数学。用户应该了解代理型AI的风险,并做好相应的计划。
AI系统可以通过多种方式失控,如果不受约束,采用者应该识别模型、工具和数据,并计划好AI的意外行为。防止意外使用和不希望的输出是预防的必要的第一步。我们需要了解它们预期的行为,并知道它们何时失控,以便我们能够立即采取行动。科幻小说中的世界正在迅速成为科学事实。只有今天预见到风险并建立必要的护栏,我们才能避免明天的AI威胁。
原文链接:
https://https://www.trendmicro.com/en_us/research/24/i/rogue-ai-part-3.html/