查看原文
其他

吴博峰:大模型数据隐私与资产安全在抖音集团的应用实践丨数据合规论坛经典演讲

吴博峰 律新V品
2024-08-26


律新社编者按

随着人工智能技术的飞速发展,大模型数据隐私与资产安全逐渐成为社会各界关注的焦点。在这一背景下,如何确保技术进步与数据保护的平衡,如何在保障用户隐私的同时实现数据的高效利用,是摆在我们面前的一道难题。尤其在如抖音集团这类大型互联网企业中,大模型的广泛应用不仅提升了用户体验,也带来了一系列安全和隐私方面的挑战。

2024年6月30日,“循规而行·数据致远——2024数据合规法律服务发展论坛”召开,火山引擎隐私计算产品总监吴博峰“大模型数据隐私与资产安全在抖音集团的应用实践”主旨演讲。他从技术的角度出发,结合抖音集团的实践经验,对大模型的生命周期管理、数据安全体系构建以及隐私保护技术的发展进行了全面的阐述。吴博峰先生的主题分享整理如下:


我在抖音集团主要负责隐私计算和大模型安全,工作偏向技术领域。技术和法律是相辅相成的,法律专家负责架构上层建筑,技术人员则负责底层基础设施的建设,二者紧密结合,共同为各行各业在数据安全和合规应用方面作出贡献。

接下来,我将围绕抖音集团的实践,探讨大模型在国内外的应用现状及其引发的安全问题,展示抖音集团如何利用技术手段解决或者降低安全风险,并展望这些技术在更加广泛的行业中的应用前景。


一、大模型发展现状与风险洞察

对于大模型安全的应用背景,审视过后我们会发现,越来越多的公司已经发展出很多大模型智能应用,这些应用帮助我们在日常工作中显著提高了效率。

然而,这些大模型智能应用的使用过程是否存在安全隐患?众所周知,AI应用的安全性问题在过去几年中一直是行业专家们非常关注的问题。我们团队对大模型整个生命周期的各个环节进行了一些探索性分析。从数据准备到大模型最终对外服务,包括数据准备、预训练、精调及部署服务等环节。我们观察到,大模型的整个生命周期包含多个环节,因此在每个环节都可能出现与数据安全和隐私相关的问题。

例如,在预训练和精调阶段,既然与数据密切相关,那么这些数据可能是跨域的、跨机构的,这时候数据的问题、数据的合规问题就可能显现出来。又如,在数据对外服务环节,我们会发现,如果用户与大模型的基础服务商进行交互,用户的提问数据是否有可能被泄露。同时,大模型在输出给用户答案时,是否可能产生模型幻觉等问题。

为了解决大模型在整个生命周期服务过程中可能出现的问题,我们团队提出了相应的解决方案。


二、Jeddak大模型安全方案

本方案大致分为两个体系,首先是内生数据安全体系,其次是环境与基础架构安全体系。内生数据安全体系的核心并非阻止数据流通,而是在数据流通过程中,通过密码学手段对所有可加密的数据进行加密,以确保在跨机构、跨端应用数据时实现内生数据安全。关于环境与基础架构安全体系,无论是大模型的构建、训练还是服务过程中,我们希望将大模型的全生命周期置于一个安全、可信的环境中。如果这个环境能够经受审计,那么其中的所有数据也将不会有较大的数据安全风险。

大模型的内生数据安全体系可以分为三个部分。第一部分是信息混淆与加密:对于用户与大模型交互过程中产生的提问数据,我们采用向量加密技术进行保护。第二部分是关于预训练模型过程中的数据流通问题:许多高价值数据的供给方担心数据合规问题,导致其数据流通意愿较低。为了解决这一问题,我们提出了数据合成技术,即通过技术手段生成符合大模型需求但与数据供给方元数据无直接关联的数据。此外,隐私计算也是我们团队的主要研究方向。在此,我主要向大家汇报两个方面:一是通过联邦学习技术实现跨机构数据融合,同时确保不同机构的真实原始数据不会暴露给对方;二是提出一种更安全合规的技术——全密态机器学习,确保所有参与方的数据在密文状态下进行处理。尽管全密态机器学习理论上可行,但其运行效率较低,若要实现工业级大规模应用,还有很长的路要走。第三部分是模型的输入输出管控与增强:在模型提问过程中,用户的输入数据是否能得到保护,以及模型输出给用户答案时,输出内容是否能得到合理管控,这些都是我们需要考虑的问题。

首先是模型的安全推理问题。用户在使用大模型时,可能不断向模型提供与其相关的知识或数据,但用户可能不希望大模型服务商使用其数据。为此,我们提出了近距离加密技术,该技术可以在保护用户提问数据不被大模型服务商获取的同时,保证用户获得的推理结果损失小于3.5%。

此外,我们还在抖音集团进行了实践,发现该技术已具备推广和应用的条件。接下来就是如何将基础大模型与行业数据结合,形成符合行业应用的行业大模型。我们采用了联邦精调技术,实现了数据不出域但能获得优质模型的目标。实验表明,基于联邦精调技术得到的行业大模型,准确率损失约等于2%,可以说是无损的。

在模型服务过程中,作为行业大模型的服务商或技术提供方,为了确保模型输出没有明显风险,通过探索和研究,在抖音集团推出了大模型隐私护栏服务。该服务像防火墙一样,对用户输入和模型输出进行了有效管控。实验结果表明,有害内容拦截率达到约95%,同时确保了模型输出结果的准确性。

关于数据合成技术,我们发现,通过数据合成生成的“假数据”具有很高的价值。这些数据在模型训练和推理中的效果与原始数据非常接近,具有商业性和推广价值。

最后,我还想分享两个在抖音集团生动的实践:AI原生联邦学习和全密态机器学习。AI原生联邦学习与传统联邦学习的区别在于,它与AI基础设施进行了融合,能够实现大规模的样本实时性训练。全密态机器学习则是基于多方安全计算技术,即使数据为密文,也能产生与原始数据相近的模型效果。然而,这项技术扩大应用的瓶颈主要是效率,需要进一步探索如何提高计算能效。


通过内生数据安全体系,我们解决了大模型数据安全保护问题。此外,我们还基于环境与基础架构,将大模型相关基础设施置于可信环境中,确保数据安全。


三、总结与展望

如果大语言模型要在抖音集团乃至更广泛的行业和应用领域中融入我们的生活,安全问题是一个必须解决的关键点。没有安全保障,每一位用户在使用过程中都可能会有不同程度的担忧。

此外,正如我刚才向大家汇报的,我们所做的初步工作表明,尽管这些技术在抖音集团的某些场景中已经取得了成功,并创造了业务价值,但若要实现规模化应用,为更多行业机构带来价值,它们还需要与更多行业伙伴进行技术交叉融合。例如,密码学与GPU的结合、联邦学习与AI基础设施的结合等,这样才可能使这些技术在整个行业内得到更广泛的应用。

 ↓扫码观看演讲视频↓


相关阅读

加“数”信任基建 撬动万亿市场!2024数据合规法律服务发展论坛隆重举行

数据合规领域“品牌之星”闪耀登场!律新社《精品法律服务品牌指南(2024):数据合规领域》重磅发布

“守正创新”:数据合规管理新次元丨律新社2024数据合规领域见解洞察

探索合规之道 精算数据机遇!律新社《数据合规法律服务调研报告(2024)》发布

数据合规是技术活、管理活还是艺术活?7位行业精英支招企业如何炼“数”成“金”丨律新观察

孔祥俊:商业数据保护的实践反思与立法展望丨数据合规论坛经典演讲

张继红:数据出境的法律合规——现状、实践及趋势|数据合规论坛经典演讲

李华:释放数据要素价值——新质生产力的开启与赋能|数据合规论坛经典演讲



END


了解更多行业干货

欢迎关注律新社新媒体矩阵

商务合作

 lvxinnews@126.com

继续滑动看下一个
律新V品
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存