第 27 届联合国科技大会(the 27th UN CSTD Annual Meeting)正在瑞士日内瓦召开。大会期间,世界数字技术院(WDTA)发布了两项国际标准:《生成式人工智能应用安全测试标准》、《大语言模型安全测试方法》。这两项国际标准是由 OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。蚂蚁集团牵头编制《大语言模型安全测试方法》,并参与制定了《生成式人工智能应用安全测试标准》。值得一提的是,这是国际组织首次就大模型安全领域发布的国际标准。与会的 WDTA 人工智能安全可信负责任工作组组长黄连金认为,这些标准代表了全球人工智能安全评估和测试进入了新的基准。——————
世界数字技术院(WDTA)是在日内瓦注册的国际非政府组织,遵从联合国指导框架,致力于在全球范围内推进数字技术,促进国际合作。AI STR(安全、可信、负责任)计划是 WDTA 的核心倡议,旨在确保人工智能系统的安全性、可信性和责任性。蚂蚁集团、华为、科大讯飞、国际数据空间协会(IDSA)、弗劳恩霍夫研究所、中国电子等均为其成员单位。
——————
自去年以来大语言模型技术火爆后,大模型的安全问题一直是国际关注的焦点。世界各国都在加强对于大模型安全的研究和治理,国内外主流厂商均在重点投入和关注大模型安全,但目前仍然没有形成统一的标准和规范。而本次两项国际标准的制定汇集了全球 AI 安全领域的专家智慧,填补了大语言模型和生成式 AI 应用方面安全测试领域的空白,为业界提供了统一的测试框架。它们可以为 AI 企业提供明确的测试要求和方法,有助于提高 AI 系统安全性,减少潜在风险,促进 AI 技术负责任发展,增强公众信任。黄连金参会时也呼吁业界积极采纳这两份标准,共同努力提高 AI 系统的安全性和可靠性,并且参与 WTDA AI STR 的标准制定工作,在 AI 技术快速迭代的过程中不断地完善标准。这次发布的两项标准是大模型及生成式 AI 应用程序方面的安全性测试标准,有助于行业构建安全、可靠的人工智能生态系统。第一个标准是《生成式人工智能应用安全测试标准》,由 WDTA 作为牵头单位,蚂蚁集团等多家单位共同参与。这项标准为测试和验证生成式 AI 应用的安全性提供了一个框架,特别是那些使用大语言模型(LLM)构建的应用程序。它定义了人工智能应用程序架构每一层的测试和验证范围,包括基础模型选择、嵌入和矢量数据库、RAG 或检索增强生成、AI 应用运行时安全等等。主要目标是确保 AI 应用程序各个方面都经过严格的安全性和合规性评估,保障其在整个生命周期内免受威胁和漏洞侵害,并符合预期设计。
第二个标准是《大语言模型安全测试方法》,由蚂蚁集团作为牵头单位。这项标准则为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型的安全风险分类、攻击的分类分级方法以及测试方法,并率先给出了四种不同攻击强度的攻击手法分类标准,系统地提供了大语言模型抗攻击测试的评估指标、能力分级、测试数据集构建要求和测试流程等。
通过这项标准,可以有效解决大语言模型固有的复杂性,全面测试和验证大语言模型应对不同类型对抗攻击技术的抵御能力,包括 L1 随机攻击、L2 盲盒攻击、L3 黑盒攻击和 L4 白盒攻击,使得开发人员和组织能够识别和缓解潜在漏洞,并最终提高使用大语言模型构建的人工智能系统的安全性和可靠性。这一标准也是蚂蚁集团基于大模型安全产品“蚁天鉴”AI 安全检测体系的应用实践,与全球生态伙伴交流编制而成。蚂蚁从 2015 年起就积极投入可信 AI 技术研究,目前已建立了大模型综合安全治理体系。2023年,我们自研了业界首个大模型安全一体化解决方案“蚁天鉴”,用于 AIGC 安全性和真实性评测、大模型智能化风控、AI 鲁棒和可解释性检测等。此外,我们在公司内成立了科技伦理委员会和专门团队来评估和管理生成式 AI 的风险,公司所有 AI 产品均需通过科技伦理评测机制,确保 AI 安全可信。作为标准参与单位代表,蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强受邀参与并进行了发言。
他表示,生成式 AI 将释放巨大的生产力,但也要对它带来的新风险高度警惕。大型科技公司应在促进生成式 AI 安全和负责任的发展中有所担当,利用其资源、专业知识和影响力推动最佳实践,构建一个优先考虑安全、隐私、可靠和伦理优先的生态系统。比如,通过制定行业标准与指南,为开发和部署生成式 AI 系统的开发者和机构提供清晰指导;投入研发并开放保障生成式 AI 安全的工具,形成产业共治。我们也将持续推进 AI 安全和科技伦理的建设,以可信 AI 技术对抗 AI 带来的新风险,让大模型应用安全可信可持续,并能为所有人带来更大的利益。