其他
如何守护AIGC中的数据安全?探索隐私计算和区块链的应用!
AIGC的相关法规有哪些?
AI大模型的高速发展离不开底层技术支持和应用场景迭代。大模型作为AGI时代的曙光,相关厂商也将迎来广阔的发展空间。本报告将呈现从发展现状、驱动因素洞察AI大模型厂商竞争与发展关键点,并推演竞争格局的逻辑分析过程:近年来,世界各国都提出了关于AIGC使用及由此产生的数据安全和隐私问题的法律和规定。Chatgpt的普及标志着AIGC模型的蓬勃发展。AIGC模型的快速发展及其强大的生成能力使各国更加关注数据安全和隐私问题。用于训练AIGC模型的数据可能包含敏感信息,如个人身份信息、医疗记录和财务信息。如果这些敏感信息泄漏,将给个人和组织带来巨大的风险。2019年,英国航空公司因违反GDPR公开用户信息而被罚款近2亿英镑。GDPR是保护个人对其信息的权利并确保信息在使用过程中不被泄露的重要法律依据。AIGC的技术风险有哪些?
除了每个国家发布的相关法律和规定,从技术的角度看,可能出现许多来自AIGC的隐私和安全问题,隐私安全受到威胁的可能性持续增加。因此,迫切需要提出解决方案,以保护在AIGC下的数据隐私安全。01技术的恶意应用数据的隐私安全挑战
在使用AIGC的服务时,用户不可避免地会将他们的一些个人数据上传到AIGC的服务器,而在数据流通过程中存在一些安全风险。个人数据的安全:将个人敏感数据直接上传到生成性AI模型是一种有风险的做法。大型语言模型(LLM)复杂性高、预训练中使用的数据量大,这意味着AIGC具有更高的数据泄露风险。目前,还没有足够有效的手段来保护用户的个人数据不被侵犯。在最近流行的ChatGPT中,OpenAI尚未在技术上实现对用户隐私的有效保护。也就是说,它们几乎不可能从提供给ChatGPT的数据中删除所有用户的个人信息。 身份认证与访问控制:大型生成式AI模型的强大能力使其能够快速学习用户隐私数据。然而,通过AIGC服务将这些数据毫无保留地呈现给所有用户,会带来严重的安全问题。身份认证和访问控制能够限制具有不同身份的用户访问特定的数据。然而,目前AIGC服务中缺乏相应的限制措施。包括微软和亚马逊在内的公司已经警告他们的员工不要与ChatGPT分享内部机密信息,因为已经出现了ChatGPT的输出与企业机密内容密切相关的情况。
生成内容的质量挑战
AIGC具有一定程度的随机性,人类无法完全控制AI生成的内容。因此,人工智能生成的内容具有安全风险。具体来说,AI生成内容的威胁可被归纳为四个方面方面:事实上的失真、观点上的偏见、高度的伪装性和对版权的威胁。事实上的失真(Distrortion):AIGC失真指的是生成与事实相悖的内容,产生虚假信息并误导用户。这样的内容会影响到信息的准确性,并可能对用户的决策产生负面影响。 观点上的偏见(Bias):AIGC的偏见包括与人类价值观不一致、对特定群体的成见或歧视,这可能损害社会和谐并加剧不同群体之间的冲突。 高度的伪装性(Camouflage):通过对大量数据的持续迭代训练,AIGC模型可以产生与人类创造的内容非常相似的内容。这意味着,人类可能无法辨别合成的内容和人类创造的内容,这可能导致一系列问题,包括陷害、恶意欺诈、政治操纵等。 对版权的威胁(Copyright):现有的AIGC技术可以生成精美的艺术作品,但这些作品是否应该受到版权保护一直是有争议的。在过去,作品创作曾经是是人类主导的技能,机器作者的概念不能适用于版权法。由于人工智能生成的作品在法律上的模糊性有近年来,对人工智能生成的作品的版权问题存在一些疑问和争议。
恶意用户的威胁挑战
并非所有的AIGC用户都是善意的,AIGC模型本身可能会受到恶意用户的攻击,从而进一步威胁到AIGC的隐私和安全。常见的攻击类型包括以下几种:模型逆推攻击(Model Inversion Attack):模型逆推攻击从已经训练好的AIGC模型中提取训练数据,目的是为了获得模型背后的敏感数据,如个人身份信息和商业秘密。 成员推理攻击(Membership Inference Attack):成员推理攻击是一种针对隐私的攻击方法,旨在通过观察特定样本是否被用作模型的训练数据,推断出模型所产生的样本或输出。攻击者可以利用这些推理结果来披露用户隐私信息或窃取敏感数据。成员推理攻击是对AIGC模型的一个严重威胁。 投毒攻击(Poisoning Attack):投毒攻击的目的是故意制造并注入恶意的数据样本,使AIGC模型在生成内容时产生误导性或有害的结果。 模型提取攻击(Model Extraction Attack):目的是从AIGC模型中提取敏感信息或重建模型的内部结构,这可能导致模型滥用,并对模型的版权构成威胁。
AIGC隐私和安全的应对措施
生成式AI正在迅速发展,并且与人类社会的联系越来越密切。这种发展趋势也暴露出AIGC的隐私和安全问题。因此,如何将现有的隐私计算和各种安全技术应用到生成式AI成为了今天必须面对的主题。数据的隐私和安全是让AIGC更好地服务于人类社会的关键之一。只有正确处理由AIGC带来的隐私和安全问题,我们才能推动生成式AI的可持续发展。用技术保护数据安全
AIGC相关的企业和研究人员试图以各种方式保护用户数据隐私。除了较为直接的方法,如向用户提供警告信息之外,隐私计算等技术也已成为AIGC中隐私保护的重要工具。其中最有代表性的方法联邦学习和区块链。联邦学习(Federated Learning):在AIGC服务的生命周期中,用于训练的大规模数据集和用户的私人信息需要得到保护。由于AIGC应用与互联网高度集成,用于AIGC模型训练的数据发生在边缘服务器和移动设备上,它们对各种威胁隐私的攻击的防御能力较弱。最近,已经有几个分布式学习框架可用于隐私保护。联邦学习可以被用来在移动设备上进行模型微调和推理,以满足保护隐私的要求。联邦学习在训练期间不传输原始数据,而是传输本地模型,这可以为AIGC网络的运行提供隐私和安全的保证。
区块链(Blockchain):基于分布式账本技术的区块链可以用来探索一个安全可靠的AIGC服务供应框架,记录资源和服务交易,鼓励节点之间的数据联网服务,记录资源和服务交易,鼓励节点之间的数据共享,并形成一个值得信赖的AIGC生态系统。图8展示了区块链在AIGC系统中扮演的角色。
控制生成内容的质量
确保AIGC应用安全的最直接的方法是评估和控制这些生成性内容。目前的解决方案从AIGC的三个主要角度出发:事实性(Factuality)、毒性(Toxicity)和可识别性(Identifiability)。表2按照上述三个分类,以时间顺序罗列了相关的工具与具体方法:保护AIGC的版权
AIGC的知识产权问题,特别是版权侵权问题之所以备受关注,其根本原因在于AIGC模型的形成和完善依赖于大量的训练数据,而用于训练的数据往往包含受版权法保护的内容。可用于保护AIGC知识产权的技术有:区块链、数字水印、对抗性扰动和机器遗忘学习等。以一种通过添加扰动,来防止作品被AIGC模型模仿的方法作为例子[6]。版权保护系统对艺术家的原始作品进行微小的扰动,这种扰动是人眼无法察觉的。但当AIGC模型在这种扰动后试图模仿作品的风格时,它将被误导,生成的作品属于目标风格而不是原始风格。图9展示了这种方法的过程。抵御针对AIGC模型的攻击
AIGC的快速发展离不开深度生成模型(DGM)。生成模型综合了我们可以在世界范围内观察到的数据,并生成各种内容。这为AIGC提供了技术基础。但这些生成模型很容易受到各种攻击。这使得AIGC模型的隐私和安全面临严重风险。目前已经出现了大量可以保护AIGC模型的防御策略。这些策略主要尝试解决针对深度生成模型的成员推理攻击、模型提取攻击和逃逸攻击等,内容如表3所示。总结与展望
ChatGPT的爆红出圈宣告了生成式人工智能(AIGC)时代的到来,但其给用户带来的隐私和安全问题也日渐显露,成为当下亟待解决的问题之一。通过回顾AIGC的发展历程、背景技术和典型例子,我们意识到了解决AIGC中隐私与安全的问题的紧迫性:数据安全的失控,势必会对大模型时代的安全产生巨大威胁。想应对新时代的挑战,就要先系统梳理面临什么新问题:AIGC面临的数据安全威胁包括流通数据的隐私、生成内容的质量与安全、版权和恶意用户的攻击等。幸运的是,已有的隐私计算等技术为人类应对上述挑战提供了可能性,可使用的技术包括区块链、联邦学习、数字水印和差分隐私等。这些技术为人类的隐私保护提供了有力武器,以应对包括AIGC工具在内的生成式模型的隐私和安全挑战。然而,目前AIGC中隐私和安全问题的解决方案还不够成熟,而大模型的快速发展正给AI领域带来了许多新的挑战。当下的AIGC发展就好比一个潘多拉魔盒:打开魔盒,各种眼花缭乱的新鲜事物呈现在人们的眼前,给人们带来了无限遐想;另一方面,魔盒里光怪陆离的场景又可能在无形间对人类社会带来难以预料的威胁。应对生成式模型的隐私挑战,人类还有很长一段路要走;守护AIGC中的数据安全,也是所有研究者的共同责任。论文作者:Chuan Chen, Zhenpeng Wu, Yanyi Lai, Wenlin Ou, Tianchi Liao, Zibin Zheng
论文链接:https://arxiv.org/abs/2306.00419
本文由“开放隐私计算”综合整理,转载请注明来源,分享仅供学习参考,如有不当,请联系我们处理(下载论文可点击阅读原文)
END6月17日,OpenMPC社区将联合华为昇思MindSpore开源社区举办【AIGC与数据安全】线上主题沙龙,沙龙会邀请来自北京航空航天大学、华为MindSpore实验室、原语科技和浙江理工大学的四位专家和学者,分别从AIGC的技术发展、应用实践、数据安全几方面展开讨论,探讨AIGC技术的创新应用过程中遇到的数据安全问题。
如您感兴趣,可点击以下海报参与: