速递 | 美国发布人工智能模型风险测试工具
美国商务部负责为美国政府、公司和广大公众开发和测试技术的机构--国家标准与技术研究院(NIST)重新发布了一个测试平台,旨在测量恶意攻击--尤其是 "毒害 "人工智能模型训练数据的攻击--会如何降低人工智能系统的性能。
这款基于网络的模块化开源工具名为Dioptra(取自经典天文和测量仪器),于 2022 年首次发布,旨在帮助培训人工智能模型的公司和使用这些模型的人员评估、分析和跟踪人工智能风险。NIST 表示,Dioptra 可用于对模型进行基准测试和研究,还可提供一个通用平台,让模型在 "红队 "环境中面临模拟威胁。
"测试对抗性攻击对机器学习模型的影响是 Dioptra 的目标之一,"NIST 在一份新闻稿中写道。"该开源软件,就像生成可供免费下载的孩子一样,可以帮助包括政府机构和中小型企业在内的社区进行评估,以评估人工智能开发者对其系统性能的宣称。"
图片来源:NIST
Dioptra 与 NIST 和 NIST 最近创建的人工智能安全研究所的文件同时发布,这些文件提出了减轻人工智能某些危险的方法,例如人工智能如何被滥用来生成未经同意的色情。在此之前,英国人工智能安全研究所(U.K. AI Safety Institute)也推出了Inspect,该工具集同样旨在评估模型的能力和整体模型的安全性。去年 11 月,在英国布莱切利公园举行的人工智能安全峰会上,美国和英国宣布将持续合作,共同开发先进的人工智能模型测试。
Dioptra 也是乔-拜登总统关于人工智能的行政命令(EO)的产物,该行政命令规定(除其他事项外)NIST 必须帮助进行人工智能系统测试。与此相关的是,该行政令还制定了人工智能安全和安保标准,包括要求开发模型的公司(如苹果)在向公众部署模型之前通知联邦政府并分享所有安全测试的结果。
正如我们之前所写的,人工智能基准很难--其中最重要的原因是,当今最复杂的人工智能模型都是黑盒子,其基础设施、训练数据和其他关键细节都被创建它们的公司保密。英国研究人工智能的非营利性研究机构艾达-拉芙蕾丝研究所(Ada Lovelace Institute)本月发布的一份报告发现,仅靠评估并不足以确定人工智能模型在现实世界中的安全性,部分原因在于现行政策允许人工智能供应商有选择性地选择进行哪些评估。
NIST 并未断言 Dioptra 可以完全消除模型的风险。但该机构确实提出,Dioptra 可以揭示哪些类型的攻击可能会降低人工智能系统的性能,并量化这些攻击对性能的影响。
然而,Dioptra 的一个主要限制是,它只能在可下载和本地使用的模型上开箱即用,例如 Meta 的 扩展的 Llama 系列。至少就目前而言,OpenAI 的GPT-4o等通过 API 封装的模型无法使用。
-----------END-----------