查看原文
其他

如何守护AIGC中的数据安全?探索隐私计算和区块链的应用!





AIGC是人工智能发展的最新成果之一,也是当今最热门的话题之一。各种衍生的AIGC应用正在逐渐进入人们生活的各个领域,对人们的日常生活带来了难以想象的影响。但是影响越大,使用AIGC服务可能会引发安全性或隐私问题也越需要被重视。近日,中山大学发布了一篇关于《AIGC中对隐私和安全的挑战及其补救措施:探索隐私计算、区块链潜在应用》的全面阐述论文,讨论了可能来自AIGC的安全问题,其中包括:用户的输入数据泄漏、模型攻击、数据爬取和生成内容的不安全性,本文选取部分内容作分享。

AIGC的相关法规有哪些?

AI大模型的高速发展离不开底层技术支持和应用场景迭代。大模型作为AGI时代的曙光,相关厂商也将迎来广阔的发展空间。本报告将呈现从发展现状、驱动因素洞察AI大模型厂商竞争与发展关键点,并推演竞争格局的逻辑分析过程:近年来,世界各国都提出了关于AIGC使用及由此产生的数据安全和隐私问题的法律和规定。Chatgpt的普及标志着AIGC模型的蓬勃发展。AIGC模型的快速发展及其强大的生成能力使各国更加关注数据安全和隐私问题。用于训练AIGC模型的数据可能包含敏感信息,如个人身份信息、医疗记录和财务信息。如果这些敏感信息泄漏,将给个人和组织带来巨大的风险。2019年,英国航空公司因违反GDPR公开用户信息而被罚款近2亿英镑。GDPR是保护个人对其信息的权利并确保信息在使用过程中不被泄露的重要法律依据。此外,中国陆续颁布了数据安全法、个人信息保护法、网络安全法,以确保个人数据在网络流通过程中的安全性。2022年,中国颁布了《数据20条》,提出构建以数据为基础的制度,以更好地发挥数据要素的作用,并规范正确使用数据要素。对于AIGC,各国已经注意到其强大的生成能力,因此提出了对其使用的限制。2018年,中国信息通信研究院发布了关于AIGC的白皮书,肯定了AIGC是迈向数字文明新时代的不可或缺的支持力量,并从政府、行业、企业、社会等方面对AIGC的发展给出了建议。2023年,中国互联网信息办公室发布了《关于征求生成式人工智能服务管理办法(征求意见稿)意见的通知》,提出了从各个方面规范使用AIGC算法,保护用户的权益和数据安全。

AIGC的技术风险有哪些?

除了每个国家发布的相关法律和规定,从技术的角度看,可能出现许多来自AIGC的隐私和安全问题,隐私安全受到威胁的可能性持续增加。因此,迫切需要提出解决方案,以保护在AIGC下的数据隐私安全。01技术的恶意应用

AIGC的快速发展引发了对深度伪造技术的担忧,该技术使用基于AI的技术生成接近真实的照片、电影或音频,这些可以用来描述不存在的事件或个人。深度伪造技术的出现使得篡改或生成高度真实且无法区分的音频和视频内容成为可能,这最终无法被观察者的肉眼区分。一方面,伪造的内容可以误导其他人相信生成的假信息,如果不防止,肯定会给国家安全、公民和企业的权益带来新的风险,并在社会发展中引发潜在的危机。另一方面,伪造的内容对个人隐私和安全构成潜在威胁,例如,恶意用户可以使用这些图像进行欺诈和其他非法活动。02内容的质量问题质量差内容意味着内容不够真实或甚至有毒。当AI生成的内容不够真实时,很容易让用户认为AIGC生成能力有限,并对AIGC模型本身产生负面印象,这阻碍了AIGC模型的发展。当AI生成的内容是有毒的,它可能对人类的认知产生影响,这涉及到道德和伦理问题。伦理是AIGC技术发展中不能忽视的一个方面,涉及到AI和人类社会之间的价值观、道德、法律观念等问题。AI生成内容的潜在毒性是指AI生成的内容存在偏见,即,AIGC可能生成违反社会价值的内容,因此它很容易成为许多恶意人士的工具。03模型的安全问题恶意用户可以利用AIGC模型的漏洞攻击模型,并向输入数据中添加有意的干扰信号以欺骗AIGC模型的行为。这可能导致模型生成错误的输出,或者以有意的方式生成误导信息。并且,使用模型反向传播攻击也可能从一些输出中推断出用于模型原始训练的数据,这可以引发数据的泄露甚至国家安全。



AIGC面临的隐私与安全挑战作为一种新兴的内容生成方法,AIGC正在越来越多的领域得到使用。然而,如图2所示,AIGC中存在一些隐私和安全的挑战。生成型AI模型可能会利用用户数据作为进一步迭代的训练数据,这引起了关于用户数据隐私的重大关注。此外,由生成型AI模型生成的内容难以控制,可能含有虚假和欺骗性的内容,对用户给予错误的引导,或者含有歧视性和偏见性的内容,可能导致不良的社会影响。生成型AI模型本身也可能被恶意用户攻击,导致一些隐私和安全问题。我们将介绍AIGC中的隐私和安全挑战,这些是在AIGC的实际应用中不可忽视的重要问题。01

数据的隐私安全挑战

在使用AIGC的服务时,用户不可避免地会将他们的一些个人数据上传到AIGC的服务器,而在数据流通过程中存在一些安全风险。
  • 个人数据的安全:将个人敏感数据直接上传到生成性AI模型是一种有风险的做法。大型语言模型(LLM)复杂性高、预训练中使用的数据量大,这意味着AIGC具有更高的数据泄露风险。目前,还没有足够有效的手段来保护用户的个人数据不被侵犯。在最近流行的ChatGPT中,OpenAI尚未在技术上实现对用户隐私的有效保护。也就是说,它们几乎不可能从提供给ChatGPT的数据中删除所有用户的个人信息。
  • 身份认证与访问控制:大型生成式AI模型的强大能力使其能够快速学习用户隐私数据。然而,通过AIGC服务将这些数据毫无保留地呈现给所有用户,会带来严重的安全问题。身份认证和访问控制能够限制具有不同身份的用户访问特定的数据。然而,目前AIGC服务中缺乏相应的限制措施。包括微软和亚马逊在内的公司已经警告他们的员工不要与ChatGPT分享内部机密信息,因为已经出现了ChatGPT的输出与企业机密内容密切相关的情况。
02

生成内容的质量挑战

AIGC具有一定程度的随机性,人类无法完全控制AI生成的内容。因此,人工智能生成的内容具有安全风险。具体来说,AI生成内容的威胁可被归纳为四个方面方面:事实上的失真、观点上的偏见、高度的伪装性和对版权的威胁。
  • 事实上的失真(Distrortion):AIGC失真指的是生成与事实相悖的内容,产生虚假信息并误导用户。这样的内容会影响到信息的准确性,并可能对用户的决策产生负面影响。
  • 观点上的偏见(Bias):AIGC的偏见包括与人类价值观不一致、对特定群体的成见或歧视,这可能损害社会和谐并加剧不同群体之间的冲突。
  • 高度的伪装性(Camouflage):通过对大量数据的持续迭代训练,AIGC模型可以产生与人类创造的内容非常相似的内容。这意味着,人类可能无法辨别合成的内容和人类创造的内容,这可能导致一系列问题,包括陷害、恶意欺诈、政治操纵等。
  • 对版权的威胁(Copyright):现有的AIGC技术可以生成精美的艺术作品,但这些作品是否应该受到版权保护一直是有争议的。在过去,作品创作曾经是是人类主导的技能,机器作者的概念不能适用于版权法。由于人工智能生成的作品在法律上的模糊性有近年来,对人工智能生成的作品的版权问题存在一些疑问和争议。
03

恶意用户的威胁挑战

并非所有的AIGC用户都是善意的,AIGC模型本身可能会受到恶意用户的攻击,从而进一步威胁到AIGC的隐私和安全。常见的攻击类型包括以下几种:
  • 模型逆推攻击(Model Inversion Attack):模型逆推攻击从已经训练好的AIGC模型中提取训练数据,目的是为了获得模型背后的敏感数据,如个人身份信息和商业秘密。
  • 成员推理攻击(Membership Inference Attack):成员推理攻击是一种针对隐私的攻击方法,旨在通过观察特定样本是否被用作模型的训练数据,推断出模型所产生的样本或输出。攻击者可以利用这些推理结果来披露用户隐私信息或窃取敏感数据。成员推理攻击是对AIGC模型的一个严重威胁。
  • 投毒攻击(Poisoning Attack):投毒攻击的目的是故意制造并注入恶意的数据样本,使AIGC模型在生成内容时产生误导性或有害的结果。
  • 模型提取攻击(Model Extraction Attack):目的是从AIGC模型中提取敏感信息或重建模型的内部结构,这可能导致模型滥用,并对模型的版权构成威胁。

AIGC隐私和安全的应对措施

生成式AI正在迅速发展,并且与人类社会的联系越来越密切。这种发展趋势也暴露出AIGC的隐私和安全问题。因此,如何将现有的隐私计算和各种安全技术应用到生成式AI成为了今天必须面对的主题。数据的隐私和安全是让AIGC更好地服务于人类社会的关键之一。只有正确处理由AIGC带来的隐私和安全问题,我们才能推动生成式AI的可持续发展。01

用技术保护数据安全

AIGC相关的企业和研究人员试图以各种方式保护用户数据隐私。除了较为直接的方法,如向用户提供警告信息之外,隐私计算等技术也已成为AIGC中隐私保护的重要工具。其中最有代表性的方法联邦学习和区块链。
  • 联邦学习(Federated Learning):在AIGC服务的生命周期中,用于训练的大规模数据集和用户的私人信息需要得到保护。由于AIGC应用与互联网高度集成,用于AIGC模型训练的数据发生在边缘服务器和移动设备上,它们对各种威胁隐私的攻击的防御能力较弱。最近,已经有几个分布式学习框架可用于隐私保护。联邦学习可以被用来在移动设备上进行模型微调和推理,以满足保护隐私的要求。联邦学习在训练期间不传输原始数据,而是传输本地模型,这可以为AIGC网络的运行提供隐私和安全的保证。
  • 区块链(Blockchain:基于分布式账本技术的区块链可以用来探索一个安全可靠的AIGC服务供应框架,记录资源和服务交易,鼓励节点之间的数据联网服务,记录资源和服务交易,鼓励节点之间的数据共享,并形成一个值得信赖的AIGC生态系统。图8展示了区块链在AIGC系统中扮演的角色。
02

控制生成内容的质量

确保AIGC应用安全的最直接的方法是评估和控制这些生成性内容。目前的解决方案从AIGC的三个主要角度出发:事实性(Factuality)、毒性(Toxicity)和可识别性(Identifiability)。表2按照上述三个分类,以时间顺序罗列了相关的工具与具体方法:03

保护AIGC的版权

AIGC的知识产权问题,特别是版权侵权问题之所以备受关注,其根本原因在于AIGC模型的形成和完善依赖于大量的训练数据,而用于训练的数据往往包含受版权法保护的内容。可用于保护AIGC知识产权的技术有:区块链、数字水印、对抗性扰动和机器遗忘学习等。以一种通过添加扰动,来防止作品被AIGC模型模仿的方法作为例子[6]。版权保护系统对艺术家的原始作品进行微小的扰动,这种扰动是人眼无法察觉的。但当AIGC模型在这种扰动后试图模仿作品的风格时,它将被误导,生成的作品属于目标风格而不是原始风格。图9展示了这种方法的过程。此外,版权保护对于社交网络中的AIGC溯源也至关重要。有无版权保护机制的区别。例如使用Encoder-Decoder框架[7]对AIGC施以扰动,能使得AIGC在社交网络中能够被溯源。

抵御针对AIGC模型的攻击

AIGC的快速发展离不开深度生成模型(DGM)。生成模型综合了我们可以在世界范围内观察到的数据,并生成各种内容。这为AIGC提供了技术基础。但这些生成模型很容易受到各种攻击。这使得AIGC模型的隐私和安全面临严重风险。目前已经出现了大量可以保护AIGC模型的防御策略。这些策略主要尝试解决针对深度生成模型的成员推理攻击、模型提取攻击和逃逸攻击等,内容如表3所示。

总结与展望

ChatGPT的爆红出圈宣告了生成式人工智能(AIGC)时代的到来,但其给用户带来的隐私和安全问题也日渐显露,成为当下亟待解决的问题之一。通过回顾AIGC的发展历程、背景技术和典型例子,我们意识到了解决AIGC中隐私与安全的问题的紧迫性:数据安全的失控,势必会对大模型时代的安全产生巨大威胁。想应对新时代的挑战,就要先系统梳理面临什么新问题:AIGC面临的数据安全威胁包括流通数据的隐私、生成内容的质量与安全、版权和恶意用户的攻击等。幸运的是,已有的隐私计算等技术为人类应对上述挑战提供了可能性,可使用的技术包括区块链、联邦学习、数字水印和差分隐私等。这些技术为人类的隐私保护提供了有力武器,以应对包括AIGC工具在内的生成式模型的隐私和安全挑战。然而,目前AIGC中隐私和安全问题的解决方案还不够成熟,而大模型的快速发展正给AI领域带来了许多新的挑战。当下的AIGC发展就好比一个潘多拉魔盒:打开魔盒,各种眼花缭乱的新鲜事物呈现在人们的眼前,给人们带来了无限遐想;另一方面,魔盒里光怪陆离的场景又可能在无形间对人类社会带来难以预料的威胁。应对生成式模型的隐私挑战,人类还有很长一段路要走;守护AIGC中的数据安全,也是所有研究者的共同责任。

论文作者:Chuan Chen, Zhenpeng Wu, Yanyi Lai, Wenlin Ou, Tianchi Liao, Zibin Zheng

论文链接:https://arxiv.org/abs/2306.00419

本文由“开放隐私计算”综合整理,转载请注明来源,分享仅供学习参考,如有不当,请联系我们处理(下载论文可点击阅读原文)

END

6月17日,OpenMPC社区将联合华为昇思MindSpore开源社区举办【AIGC与数据安全】线上主题沙龙,沙龙会邀请来自北京航空航天大学、华为MindSpore实验室、原语科技和浙江理工大学的四位专家和学者,分别从AIGC的技术发展、应用实践、数据安全几方面展开讨论,探讨AIGC技术的创新应用过程中遇到的数据安全问题。

如您感兴趣,可点击以下海报参与:

热门文章:




隐私计算头条周刊(06.05-06.11)


讲师招募|欢迎加入“隐私计算共学计划”


招募丨社区研究院第一期MPC相关书籍翻译工作启动


盘点丨美国隐私计算技术的发展现状和应用案例


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存