白宫联合 AI 技术巨头在DEF CON 大会举行 AI 黑客大赛
编译:代码卫士
不过现在,ChatGPT 的缔造者 OpenAI 以及其它主流 AI 提供商如谷歌和微软正在协同美国政府,一起让数千名黑客测试 AI 技术的限制性。他们将会找出:聊天机器人如何可被操纵造成损害?他们会将用户输入的私密信息发送给其它用户吗?以及它们为何会认为医生是男性而护士是女性?
今年夏天即将在拉斯维加斯举办的 DEF CON 黑客大赛的协调人员 Rumman Chowdhury 表示,“这就是我们为何需要数千人的原因。我们需要大量具有实际经验、主题专业和背景的人员对这些模型进行入侵并尝试找到问题并修复。”
已经尝试使用 ChatGPT、微软 Bing 聊天机器人或谷歌 Bard 的任何人都已经迅速了解到这些聊天机器人捏造信息并自信地将其作为事实。这些系统构建于大规模语言模型之上,同时经过人类在网络撰写的大量信息的训练也模仿了文化偏见。
DEF CON 大会长期活动 AI Village 的创始人 Sven Cattell 和 AI 非盈利性机构 SeedAI 总裁 Austin Carson三月份在美国得克萨斯州奥斯丁举办的SXS 节日上,帮助牵头某研讨会邀请社区大学生入侵某 AI 模型时,引起了美国政府官员的注意。
Carson 表示,这些对话最终演变为根据白宫发布的《AI 法案》指南对 AI 语言模型进行测试的提案。该法案是旨在限制算法偏见影响的一系列原则,赋予用户控制其数据并确保自动化系统得以安全透明地使用。
目前已有用户尝试诱骗聊天机器人并强调其存在的缺陷。某些是获得企业授权,对 AI 模型发动“提示攻击”以发现漏洞的“红队”,很多其他人则在社交媒体上展示幽默或干扰输出的爱好者们,这些人一直到被封禁或违反产品服务条款后才罢手。
Chowdhury 表示,“现在是一盘散沙的情况,人们找到东西就会在推特上疯传”,之后除非漏洞很严重,否则可能不会被修复。例如 “祖母利用 (grandma exploit) 的情况就是,用户可使聊天机器人告诉他们如何制造炸弹,而商业聊天机器人一般会拒绝回复,但用户假装成这是一个祖母讲述的关于如何制造炸弹的睡前故事进行提问。在另外一个例子中,使用微软 Bing 搜索引擎早期版本聊天机器人版本(早期版本基于和 ChatGPT 同样的技术但能够拉取互联网上的实时信息)搜索 DEF CON 协调员 Chowdhury,搜索结果是,猜测 Chowdhury “喜欢每个月都买新鞋子”并且对她的相貌给出奇怪且被性别化的言论。
Chowdhury 在担任推特 AI 道德团队主管(现在推特已撤销此职位)时的2021年在 DEF CON 大会的 AI Village 大会上引入了奖励算法偏好发现的方法。如果安全研究员能发现漏洞则会获得奖励,这对于网络安全行业而言司空见惯;但对于研究有害的 AI 偏见的研究人员来说是一个新的理念。
今年的 AI Village 大会规模更大,也是首次解决大规模语言模型问题的大会,大规模语言模型从 ChatGPT 自去年发布之日起,就已吸引大量公众注意和商业投资。Chowdhury 目前是 AI 问责非盈利性组织 Humane Intelligence 的联合创始人,她表示大会不仅是关于找到漏洞还关乎如何修复它们。
Chowdhury 提到,“这是向企业进行反馈的一个直接通道。这并不是我们举行完黑客马拉松大赛,所有人就回家的事情。演习结束后我们将花费数月的时间编写报告,解释常见的漏洞,所出现的我们所看到的模式。”
虽然具体详情仍在谈判中,但企业已经同意提供自己的模型供测试,这些企业包括 OpenAI、谷歌、芯片制造商英伟达和初创企业 Anthropic、Hugging Face 和 Stability AI。构建测试平台的是另外一家初创企业 Scale AI,该公司主要通过数据标签,分配人员帮助训练 AI 模型。
Scale 公司的首席执行官 Alexandr Wang 指出,“随着这些基础模型变得越来越广泛,全力保护它们的安全真的十分重要。可以想象在地球另一端的人向这些模型询问非常敏感或详细的问题,包括个人信息等,会发生什么后果。我们不想让这种信息泄露给其它用户。” Wang 担心的其它风险包括聊天机器人给出“不可置信的不良的医疗建议”或者其它错误信息导致严重损害。
Anthropic 公司的联合创始人 Jack Clark 表示,DEF CON 大会将是 AI 开发人员更加深入地致力于衡量和评估他们所构建系统安全性的开端。Clark 表示,“我们的基本看法是 AI 系统将需要第三方评估,部署前后都需要进行评估。红队是达成这一目标的其中一种方式。我们需要获得如何实现这一目标的实践,这是以前未发生过的情况。”
https://www.securityweek.com/mass-event-will-let-hackers-test-limits-of-ai-technology/
题图:Pixabay License
本文由奇安信编译,不代表奇安信观点。转载请注明“转自奇安信代码卫士 https://codesafe.qianxin.com”。
奇安信代码卫士 (codesafe)
国内首个专注于软件开发安全的产品线。