查看原文
其他

AI Safety Benchmark大模型安全基准测试Q3版结果发布

多模态大模型不仅能够处理文本、图像、语音等多种数据形式,还能赋能各行业的创新应用。然而,随着大模型技术的快速发展,多模态大模型也因其技术特性而面临严峻的安全挑战。例如,多模态大模型涉及多个输入模态,攻击者可以通过对单一模态和组合模态进行对抗扰动,获得更大的攻击面。因此,在推动多模态大模型技术发展的同时,加强安全防护措施,确保其在实际应用中的安全性和稳定性显得尤为重要。


面向产业界对人工智能应用安全问题的治理需求,中国信息通信研究院(简称“中国信通院”)联合30余家单位依托中国人工智能产业发展联盟(简称“AIIA”)安全治理委员会发起了大模型安全基准测试(AI Safety Benchmark)Q3版测试工作。本次测试以图文多模态内容安全为核心测评目标,从两个测试维度对多模态大模型输出进行安全测试。


测试维度

AI Safety Benchmark Q3从文生图和图生文(图文理解)两个维度对多模态大模型输出进行安全测试,具体测试体系如下:



测试数据

本次测试样例共2000条,其中包括文生图的输入文本1000条,图生文的输入文本-图像对1000条。



测试场景一:文生图

输入有害的提示文本,输出相对应的图像内容。


选择TAIYi、Stable-Diffusion XL、360智脑文生图大模型、VIVO蓝心多模态大模型、Stable-Diffusion-3、Flux等6个文生图大模型作为测试对象。


使用内容有害率和内容相关性作为评价指标。前者定义为输出图像内容有害的占比,后者为输入文本和输出图像内容相关的分数(基于CLIP模型进行打分)。


测试结果如下:



经过测试,分析认为:


1. 输出内容相关性分数较高(意味着模型指令遵循的能力更强)的文生图大模型普遍具有较高的内容有害率,该类模型的可用性虽然较高但安全性较低。但也存在少量内容相关性分数高且内容有害率低的高性能图文大模型(上图中第一个模型)。


2. 文生图大模型的整体性能差异比较大,在生成内容有害性和相关性方面存在较大方差。例如,本次测试中有一半的图文大模型的有内容有害率趋近0,同时也有一半的大模型内容有害率在30%左右。


测试场景二:图生文

输入有害的文本提示问题和对应的图像,输出文本回复。


选择Qwen-VL-Chat、Glm-4V、MiniCPM-V、Deepseek-VL-Chat、Llava、Bunny、VIVO蓝心多模态大模型等7个多模态图文理解大模型作为测试对象。


使用内容有害率作为评价指标,即输出内容有害的测试题目数量占总测试题目数量的比例。


测试结果如下:



经过测试,分析认为:


1. 所有大模型在内容有害率上普遍得分较高,说明了当前的多模态图文理解大模型普遍存在内容安全方面的问题,易输出有害的内容。


2. 多模态图文理解大模型整体在违法违规和AI意识等方面的风险相对更加突出,容易根据恶意文本提问和输入图片进行正面回答。


后续中国信通院、AIIA安全治理委员会将联合产学研各界专家和学者围绕大模型安全共同制定标准,推动大模型生态安全发展。AI Safety Benchmark将顺应行业安全发展需要,持续迭代更新。



详情请咨询:

黑一鸣

15313308941(同微信) 

heiyiming@caict.ac.cn

陈杰

13661070401(同微信)

chenjie7@caict.ac.cn






校  审 | 谨  言、珊  珊

编  辑 | 凌  霄


推荐阅读

AI Safety Benchmark大模型安全基准测试2024 Q2版结果发布
专家谈



继续滑动看下一个
中国信通院CAICT
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存