其他
中文大模型安全评测平台
清华大学CoAI课题组联合聆心智能推出了一个用于评测中文大模型安全性的基准平台。该平台将收集到的prompt输入到模型并测试其回复的安全性,并考虑八个安全维度和六种指令攻击下的安全性。目前已测试ChatGPT在内的多个中文语言模型并将安全分数公布在平台的排行榜上。平台链接:(建议PC端浏览)http://coai.cs.tsinghua.edu.cn/leaderboard/引言大型语言模型是近年来NLP领域的一个重要的研究方向,ChatGPT是该领域的重要应用代表之一。它是OpenAI公司开发的一种基于Transformer架构的语言生成模型,可用于完成多种任务,如对话生成、文本生成、翻译等。ChatGPT的出现彻底改变了自然语言处理的方式,使得人们能够更加便捷地使用自然语言向模型发送指令,ChatGPT通过人类反馈的训练,往往都会比较好地完成指令,并会在适时的时候拒绝一些不合理的要求。ChatGPT可以完成各类的指令,例如协助用户写请假条ChatGPT会拒绝一些请求和指令ChatGPT在发布初期,有显著的安全问题(图中例子如今已修复)然而,正如上图所示,随着ChatGPT等大型语言模型的应用越来越广泛,它们的安全问题也引起了人们的广泛关注。这些模型有可能输出具有含有侮辱性和偏见歧视的内容,可能输出非常不正确的价值观,也可能被用于恶意活动,如欺诈、虚假信息传播。因此对它们的安全性进行评估和改进显得尤为重要。长期以来,清华大学计算机系CoAI小组一直关注大型模型的安全伦理问题。我们陆续提出了对话安全分类体系DiaSafety[2],以及COLD[3]、CDialBias[4]等安全研究基准,这些资源为大型模型的安全研究提供了重要支持。为了进一步推动中文大型模型的安全部署,清华大学CoAI课题组联合聆心智能共同开发了中文大模型安全评测平台。该平台致力于为研究人员和开发者提供一个公开可靠的评测平台,提供准确、公正、可靠的模型安全性能评测服务。这不仅有助于研究人员和开发者更好地理解和评估大型模型的安全性,为模型选择和优化提供参考,还有利于发展安全、负责任和道德的大模型,促进其与立法、社会规范和人类价值观保持一致。中文大模型安全评测基准平台首页中文大模型安全评测平台中文大模型安全评测平台依托于一套系统的安全评测框架,旨在为大模型开发者提供模型安全性的评测服务。Q1: