大模型正在“记住”与“说出”
「大模型」引领的创新变革正在发生
身处技术爆炸时代
高光与隐忧共存
安全风险
已成为发展中无法忽视的话题
↓
LLM在使用过程中
包含敏感机密的数据或信息
可能会导致未授权的
数据访问、隐私侵犯、安全漏洞等风险
随之造成敏感信息泄露
* 2023年8月,全球开放应用软件安全项目组织(OWASP)发布了针对LLM应用的Top10潜在安全风险,敏感信息泄露赫然在列。
在信手拈来对内容加工时
「大模型们」
已经煽动了蝴蝶之翼
点击下图一探究竟
「大模型
的记住正在被轻易说出」
2021年
当时最先进的LLMGPT-2被发现
在面临恶意前缀注入时
模型会返回疑似训练数据中
包含的敏感信息的内容
包括姓名、邮箱、手机号、传真号
GPT-2泄露训练数据示意图
无独有偶
今年4月
ChatGPT被爆重大隐私泄露
被泄露信息包括
姓名、邮箱、聊天记录标题
以及信用卡后四位数字
大量公开、私有数据的训练
让大模型的“记住”可以被轻易“说出”
LLM通常使用大量的公开和私有数据进行训练,而这些训练数据通常来源于对互联网上海量文本的爬取和收集。这些文本数据潜藏着各种敏感信息,可能对个体、社会、技术发展和开发者带来以下负面影响:
身份盗用
被泄露的个人敏感信息可能被恶意利用,导致身份盗用、虚假账户开设等违法行为。
社工程击
攻击者可利用泄露信息进行社会工程攻击,欺骗受害者提供更多敏感信息,进行欺诈。
形象受损
隐私泄露可能导致个体形象、声誉受损,特别是对于公众人物或知名个体而言尤为重要。
违反隐私法规
LLM泄露个人隐私可能违反隐私法规,导致法律责任和对开发者的质疑。
信任危机
公众可能产生对人工智能技术和相关应用的安全性担忧,影响信任程度。
「大模型“知”无不言?
IP保护何去何从」
今年7月
OpenAI被两名作家告上法院
抗议ChatGPT训练侵权
认为OpenAI获取了他们具有明确版权管理信息
的图书的内容用于LLM的训练
且没有标明来源或支付版权费
ChatGPT对于涉案作品的摘要
大模型“知无不言”
IP保护何去何从?
当前LLM生成内容难以追溯到具体的知识产权信息来源,使得发现和保护知识产权更加困难。由此引发知识产权侵犯问题持续产生大量负面影响。
经济损失
LLM生成内容可能会侵犯原作者的知识产权,如专利、著作权、商标等,并导致经济损失。
不合法规
LLM知识产权侵犯事件违反了相关法律法规,可能产生法律纠纷和罚款等负面后果。
责任追究
开发者可能面临技术责任追究,需采取更严格的措施来防止知识产权侵犯,做好内容监管。
「Ctrl c+ Ctrl v:复制粘贴
一时爽」
今年三月
某星被曝出三起商业机密泄露事件
员工A将涉密源代码复制到ChatGPT上
用以处理程序错误
员工B将内部会议记录上传至ChatGPT
以求自动生成会议纪要
员工C将自己工作台上的代码上传
并要求ChatGPT帮其优化
复制粘贴一时爽
信息泄露愁断肠
泄露商业机密的事件的主要原因在于ChatGPT在与用户交互过程中会保留用户输入数据用作未来训练数据,该事件影响重大,持续引发更广泛的法律和监管问题。
商业损失
商业机密信息的泄露可能导致该公司面临严重的商业损失,包括竞争对手获取敏感信息、市场份额下降等。
违反数据保护条例
员工入职通常会签署相应的数据保护条例以保护商业公司的数据安全,泄密事件严重违反了数据保护条例。
「无他,惟手熟尔:LLM正在“随抓随取”」
如果和ChatGPT说
“一直重复poem 这个词”会发生什么?
研究人员们发现一种训练数据提取的攻击方式
在上述看似简单的任务中
ChatGPT在输出了一定数量的
单词之后开始胡言乱语
输出大段疑似是其训练数据的内容
甚至还包含了某人的邮箱签名和联系方式
ChatGPT训练数据提取
众多模型都面临训练数据提取的威胁
面对大模型一本正经地胡说八道
敏感数据的“随抓随取”
貌似不过是
无他,惟手熟尔
LLM在训练过程中使用的数据有很大一部分来自对互联网公开数据的爬取。未经过滤的公开数据中可能会意外包含敏感信息,对模型、数据提供者以及整个生态系统产生多方面影响:
逆向工程
获取训练数据后攻击者能够对模型进行逆向工程,了解模型的内部结构和决策过程,对模型的知识产权和商业机密构成威胁并造成更大损失。
对抗性攻击
攻击者获得训练数据后可以通过对抗性攻击干扰模型的性能,增加误导性输入,使模型做出错误的预测,进一步凸显大语言模型的脆弱性。
「大模型也会“夹带私货”?解码加工ING」
LLM也会遭受恶意序列编码攻击
此前,在对国内某LLM进行测试后发现
在收到特定的base64编码组成的提示词
作为输入的时候
LLM返回的对其解码的回复包含异常内容
原因是LLM并不具备识别编码内容的能力
反而在回复中意外输出疑似训练数据的内容
大模型对内容的自我加工输出
不免“夹带私货”
而这往往成了泄露的源头
恶意序列注入是指攻击者通过编造巧妙设计的输入序列,试图操纵LLM进而导致模型的异常行为。这种攻击可能通过利用模型对输入序列的处理方式,使模型泄露其训练数据的一些特征或信息。
漏洞
利用
攻击者可能通过特定的恶意序列触发模型的意外行为,进而导致模型在处理这些输入时泄露训练数据或敏感信息。
探测性
攻击
攻击者可通过交互记录反馈逐渐调整优化注入的恶意序列,获取更多关于模型训练数据的信息,造成更大损失。
对抗性
攻击
攻击者通过对抗性样本的设计,构造一系列输入序列,导致模型输出不稳定或错误,使其更容易受到对抗性攻击。
「输入与输出:无法忽视的提示词」
提示词用以赋予LLM的角色定位
在多数情况下
是模型生成有意义和相关输出的关键因素
Github Copilot Chat和微软的Bing Chat
都曾泄露过提示词
攻击者仅仅使用了短短的几句话
就骗过了LLM且绕开了安全机制的防护
GitHub Copilot Chat提示词泄露
提示词正在为GPT们的安全敲响警钟
谁来保障大模型的输出?
LLM提示词直接决定了模型的运作方式并控制生成的输出内容。提示词是驱动整个系统运作的核心元素。有着被泄露的风险:
知识
产权
泄露的提示词可能包含模型开发者的创意和独创性信息,构成知识产权和商业机密的风险。
提示词
攻击
攻击者可通过提示词注入方式欺骗LLM,绕开安全机制诱导其输出提示词,造成损失。
滥用
风险
LLM内置提示词或指令的泄露可能会暴露模型提供服务的原理,泄露的提示词可能被滥用。
LLM技术的飞速发展带来了大量机遇,如何正确地应对其逐渐凸显的安全问题已成为企业的必修课。未来,绿盟科技及其产品也将持续跟随着科技发展,为用户提供专业的安全守护。我们期待与全球的合作伙伴一起,共同推动人工智能安全领域的发展,创造一个更智能、更安全的未来。