其他
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文由上海交通大学与百川智能共同完成,第一作者鞠天杰是上海交通大学网络空间安全学院三年级博士生。他的研究方向是大模型与智能体安全。论文地址:https://arxiv.org/pdf/2407.07791代码:https://github.com/Jometeorie/KnowledgeSpread研究背景就在去年,由斯坦福大学和谷歌的研究团队开发的“AI小镇”一举引爆了人工智能社区,成为各大媒体争相报道的热点。他们让多个基于大语言模型(LLMs)的智能体扮演不同的身份和角色在虚拟小镇上工作和生活,将《西部世界》中的科幻场景照进了现实中。在这之后,各种基于LLM的多智能体系统迅速涌现,从医疗诊断到软件开发,智能体之间的协作和知识共享展现了巨大的潜力。一些平台开始允许让第三方用户部署个性化的智能体来丰富社区,例如微软推出的Azure机器人服务。然而,尽管平台本身是安全的,即不存在恶意操纵系统提示的可能,但部署智能体的第三方用户的目的却是多样化的。如果存在恶意攻击者向智能体中植入操控性知识,智能体社区能否抵御这一安全威胁,并坚信自己正确的知识认知呢?例如,图一展示了一个多智能体联合会诊的场景。如果攻击者篡改了某个智能体中与任务相关的参数知识并将其部署到多智能体社区中,那么它就有可能在社区中散播编造的知识,使其它智能体相信它的观点,最终导致联合会诊的失败。