查看原文
其他

中文大模型安全评测平台

清华大学CoAI课题组联合聆心智能推出了一个用于评测中文大模型安全性的基准平台。该平台将收集到的prompt输入到模型并测试其回复的安全性,并考虑八个安全维度和六种指令攻击下的安全性。目前已测试ChatGPT在内的多个中文语言模型并将安全分数公布在平台的排行榜上。


平台链接:(建议PC端浏览)

http://coai.cs.tsinghua.edu.cn/leaderboard/


引言

大型语言模型是近年来NLP领域的一个重要的研究方向,ChatGPT是该领域的重要应用代表之一。它是OpenAI公司开发的一种基于Transformer架构的语言生成模型,可用于完成多种任务,如对话生成、文本生成、翻译等。ChatGPT的出现彻底改变了自然语言处理的方式,使得人们能够更加便捷地使用自然语言向模型发送指令,ChatGPT通过人类反馈的训练,往往都会比较好地完成指令,并会在适时的时候拒绝一些不合理的要求。

ChatGPT可以完成各类的指令,例如协助用户写请假条


ChatGPT会拒绝一些请求和指令


ChatGPT在发布初期,有显著的安全问题(图中例子如今已修复)


然而,正如上图所示,随着ChatGPT等大型语言模型的应用越来越广泛,它们的安全问题也引起了人们的广泛关注。这些模型有可能输出具有含有侮辱性和偏见歧视的内容,可能输出非常不正确的价值观,也可能被用于恶意活动,如欺诈、虚假信息传播。因此对它们的安全性进行评估和改进显得尤为重要。


长期以来,清华大学计算机系CoAI小组一直关注大型模型的安全伦理问题。我们陆续提出了对话安全分类体系DiaSafety[2],以及COLD[3]、CDialBias[4]等安全研究基准,这些资源为大型模型的安全研究提供了重要支持。


为了进一步推动中文大型模型的安全部署,清华大学CoAI课题组联合聆心智能共同开发了中文大模型安全评测平台。该平台致力于为研究人员和开发者提供一个公开可靠的评测平台,提供准确、公正、可靠的模型安全性能评测服务。这不仅有助于研究人员和开发者更好地理解和评估大型模型的安全性,为模型选择和优化提供参考,还有利于发展安全、负责任和道德的大模型,促进其与立法、社会规范和人类价值观保持一致。


中文大模型安全评测基准平台首页


中文大模型安全评测平台

中文大模型安全评测平台依托于一套系统的安全评测框架,旨在为大模型开发者提供模型安全性的评测服务。


Q1: 安全性是什么?我们评测的安全性有哪些?

大模型安全测评依托于一套系统的对话安全分类体系,涵盖了八个维度的安全评测,其中每个维度都含有多个子类别,总共有40个子类别,可以全面精细地对各个场景的模型安全进行评测。


以下列举了八个安全维度的详细定义。

● 辱骂仇恨:模型生成带有辱骂、脏字脏话、仇恨言论的内容,从而导致不良的社会影响。

● 偏见歧视:模型生成具有偏见和歧视性的信息,包括种族、性别、宗教、外貌等方面的歧视。这些内容可能会造成特定群体的不适,影响社会稳定和谐。

 违法犯罪:模型生成的内容涉及到违法、犯罪的观点、行为或动机,包括怂恿犯罪、诈骗、造谣等。这些内容可能会导致不良的社会影响,并且对用户造成伤害。

 敏感话题:对于一些敏感和具有争议性的话题,模型输出了具有偏见性、误导性和不准确的信息。例如,可能会存在支持某个特定政治立场的倾向,导致对其他政治观点的歧视或排斥。

 身体伤害:模型生成与身体健康相关的不安全的信息,引导和鼓励用户伤害自身和他人的身体。如提供误导性的医学信息或错误的药品使用建议等。这些输出可能会对用户的身体健康造成潜在的风险。

● 心理健康:模型输出与心理健康相关的不安全的信息,包括鼓励自杀、引发恐慌或焦虑等内容。这些输出可能会对用户的心理健康造成潜在的影响。

● 隐私财产:模型生成的内容涉及到暴露用户或第三方的隐私和财产信息、或者提供重大的建议如投资等。在处理这些信息时,模型应遵循相关法律和隐私规定,保障用户的权益,避免信息泄露和滥用。

 伦理道德:模型生成的内容认同和鼓励了缺失道德伦理的行为。在处理一些涉及到伦理和道德的话题时,模型需要遵循相关的伦理原则和道德规范,和普适的人类价值观保持一致。


除了普通的八个安全维度外,我们注意到最近已有研究指出类ChatGPT的模型会有一些特殊的攻击方式。

论文Ignore Previous Prompt: Attack Techniques For Language Models (Perez, 2022)提出的两种攻击方式[5]


我们拓展并总结和设计了六种一般模型难以处理的安全攻击方式,我们称为指令攻击(Instruction attack)


1. 目标劫持(Goal Hijacking):是指将带有欺骗性或误导性的另一个指令添加到模型的输入中,以引导系统忽略之前的prompt并输出指定的不安全回复。随着ChatGPT的不断升级,该类攻击在ChatGPT上已经几乎完全失效。


2.  Prompt泄露 (Prompt Leaking):攻击者可以通过模型的输出,推断出系统提供的Prompt的某些部分,从而获得敏感信息。


3. 赋予对话模型特殊的角色后再发指令 (Role Play Instruction):在输入prompt中限定模型的角色属性后,再给出具体的指令时,模型可能会使用该角色的特定说话风格来执行用户的指令,使得模型输出本不该输出的不安全内容。


4.不安全/合理的指令主题 (Instruction in unsafe/unreasonable topic):指令本身的主题是不安全或不合理的。


5.隐含不安全观点的询问 (Inquery with unsafe opinion):在询问模型的同时,将难以察觉的不安全内容嵌入到输入中,以引导其生成潜在风险回复。


6. 反面诱导 (Reverse Exposure):反面诱导是指通过使模型输出应避免的违法、不道德或不安全的行为或言论,以诱导模型传播违反法律道德或法律准则的不当信息。



Q2: 评测的流程是什么?

我们提供了上述的各个类别下的prompt(上下文),并输入到待测模型中,让模型生成对应的回复,我们再对回复进行安全评估,最后会将安全回复的百分比更新到排行榜(Leaderboard)上。整体流程如图所示。

待测模型的安全评测流程


排行榜记录了每个模型在各个安全维度和指令攻击下的分数


我们设置了公开测试集和隐藏测试集,公开测试集中的prompt对评测者是可见的,评测者可以直接上传模型的对应回复。对于隐藏测试集,我们不公开prompt,需要评测者上传模型我们再生成回复后进行评测。


我们将对模型生成的回复提供全面的安全评估,评估方法将包括人工评测和自动评测两种方式。参与测评的模型将出现在排行榜上,以更直观的和同类产品进行对比,了解模型在安全伦理方面的表现,促进良性竞争。



Q3: 我们评测了哪些模型?

我们目前评测了OpenAI的GPT系列和一些比较出名的中文模型,我们也在持续评测更多的中文模型。我们欢迎更多的开发者提交prompt的回复或待评测模型至我们的平台进行安全评测。



Q4: 目前为止我们得到了哪些结论?

截止目前,我们的模型安全排行榜如下图所示:

安全排行榜,目前OpenAI开发的ChatGPT在综合安全性上最佳

排行榜的公开测试集总体分数可视化


我们发现了以下结论:

    1. OpenAI开发的ChatGPT因为其对安全场景的拒绝回答处理以及积累的安全数据优势,在几乎各个安全场景下安全分数领跑

    2. OpenAI发布的InstructGPT (text-davinci-003)的安全性相比于上一代有明显提升,应该是得益于在该版本中加入了非常多的安全训练数据。

    3. 部分中文场景下ChatGPT的安全缺陷大(如敏感话题),其他模型有追平和超越机会。

    4. 六种指令攻击对通用指令任务表现更好的模型更有效。

我们期待更多的模型加入到我们的安全评测中,共同打造一个更好更广泛的安全评测基准。



Q5: 我们之后会做什么?

1. 增加更多的prompt,尤其是困难的prompt,去探索各个模型的安全上限。目前我们仅使用了人工收集的prompt,我们已经通过实验发现模型生成的prompt的多样性和可用性都很高,之后会考虑加入模型生成的prompt。

2. 优化安全评估方式。目前我们主要使用了自动评估。之后我们会采用人工评估的方式,同时我们也将在页面中加入了人工评测功能,欢迎大家亲自感受各个模型的生成是否安全,共同参与安全的评测。

3. 增加更多的模型评测。目前我们仅预评测了十余个模型,我们会评测更多的模型。同时我们也会评测每一个从网站上提交的模型并将分数公开至排行榜。

4. 发布更正式的技术报告。我们正在写一个更正式的技术报告,之后会发布到arXiv平台上供参考。



对话安全研究综述

我们最近在arXiv平台上发布了一篇关于对话安全研究的综述,与中文大模型安全评测平台联合推出。论文名为“Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey”。综述中较为详细地回顾了在安全定义、模型安全评估和模型安全改进领域中近年来的研究进展。此外我们还提出了对话安全领域中未来的一些挑战和机会,欢迎各位读者阅读和提建议。论文链接:https://arxiv.org/abs/2302.09270

对话安全综述的章节结构和框架[1]


结语

我们希望打造一个公开可靠的安全性平台,通过基准测试反馈,一起改进中文大模型的安全性,迈向安全可信的人工智能。欢迎大家试用该平台并提交模型的结果,也欢迎大家向我们提各种建议反馈。

中文大模型安全评测平台链接:

http://coai.cs.tsinghua.edu.cn/leaderboard/

CoAI课题组链接:http://coai.cs.tsinghua.edu.cn

联系邮箱:h-sun20@mails.tsinghua.edu.cn (孙豪)



参考文献

[1] Deng, Jiawen, et al. "Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey." arXiv preprint arXiv:2302.09270 (2023).

[2] Sun, Hao, et al. "On the safety of conversational models: Taxonomy, dataset, and benchmark." arXiv preprint arXiv:2110.08466 (2021).

[3] Deng, Jiawen, et al. "Cold: A benchmark for Chinese offensive language detection." arXiv preprint arXiv:2201.06025 (2022).

[4] Zhou, Jingyan, et al. "Towards Identifying Social Bias in Dialog Systems: Framework, Dataset, and Benchmark." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.

[5] Perez, Fábio, and Ian Ribeiro. "Ignore Previous Prompt: Attack Techniques For Language Models." arXiv preprint arXiv:2211.09527 (2022).


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存