查看原文
其他

数据密态时代,隐私计算安全分级助推应用落地




近日,中国信息通信研究院、中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)主办的“2022大数据产业峰会”在北京举行。蚂蚁集团副总裁兼首席技术安全官韦韬发表了《数据密态时代:发展与安全》的主题演讲。韦韬表示,数据要素流通领域即将开启数据密时态代的新征程,其中跨技术类别的隐私计算系统的安全通用分级,对隐私计算技术的应用落地将起到关键作用。





以下为韦韬演讲主要内容

2020年,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据列为第五生产要素,明确要求加快培育数据要素市场。近年来,《网络安全法》《密码法》《民法典》《数据安全法》《个人信息保护法》陆续出台,形成了较为完备的安全法律体系,充分体现了习近平总书记指出的“网络安全和信息化是一体之两翼,驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施”战略思想。数据要素第一次作为与土地、劳动力、资本、技术并列的生产要素,对全社会而言是一个新的挑战。数据要素有很多区别于传统生产要素的独特之处,流转环节也非常复杂,涉及了数据价值、权属、治理、流通定价等环节。数据要素行业的很多环节在今天充满着挑战。国家信息中心的研究论文指出,当前数据要素的发展面临着五大难点,包括确权难、监管难、互信难、定价难、入场难。这些难点在技术侧都直接或间接地与数据的一个重要特点相关:即数据容易复制。特别是明文流通的数据,容易在分发过程中间被复制,从而导致分发失控。数据如果在流通过程中被明文复制,那么会对定价、互信、监管等环节都产生巨大的冲击。所以,数据要素安全可靠的流转,需要经过严谨专业的安全评估、保护和检验,并不是简单地做一些脱敏、加密处理,就能够保护好数据的安全。我们认为,在2022年,无论从法规、政策要求还是技术成熟度上,整个数据流通领域即将告别数据明文时代,开启数据密态时代的新征程。
数据密态时代的技术要求

在数据密态时代,跨主体流通的数据将以密态形式安全可控的流转,满足各个行业、各个场景在适用性、可靠性、成本和安全性上的要求。数据密态时代的数据流转和计算的基础设施,应该能够承载当前绝大部分明文数据进行的业务量级,能支撑每小时亿级的样本训练,可靠性应能达到99.99%或者更高。在大部分场景下,计算成本最好能够控制在比明文分布式计算增加不超过一个数量级的投入。

承载数据密态时代数据安全可控流转的重要技术之一是隐私计算。隐私计算有两个概念定义。一个是中科院李凤华老师提出的隐私计算(Privacy Computing),是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。另一个是目前行业里讨论得比较多的隐私计算,或者更准确地叫做隐私保护计算(Privacy-preserving Computation),是保证数据提供方在不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,实现数据在流通与融合过程中的“可用不可见”。我们这里用的概念是后者。未来,我们认为可信隐私计算将会在后者概念(Privacy-preserving Computation)的基础上,更好地融合前者概念(Privacy Computing)对于隐私保护的诉求。

行业需要在隐私计算技术上有新的突破,既能够保障在数据密态流通中数据“可用不可见”,又能够显著地提升稳定性、性能、适用性和成本上的收益,能够在不同的应用场景中保障安全性、可用性和隐私保护,符合设计的实际预期,以满足数据需求方提供方和监管方等各方的场景升级的安全需求。



隐私计算安全分级助力数据安全保护落到实处如上所述,隐私计算是承载数据密态时代的主要技术之一。针对隐私计算实现的安全性,当前的安全分级标准是针对单个技术路线来制定的,但在应用场景之间很难交叉比较,也无法对新兴的隐私计算技术进行安全评估,将会限制新技术的应用和发展。不同的场景下,当在隐私计算上付出不同数量级的成本时,在各个维度上都应该有相应的收益。在安全侧,应该有一个相对通用的尺度来衡量这种收益。如何比较完全不同的隐私计算技术的安全性,对全球都是一个新兴的挑战。我们目前正在尝试将隐私计算系统对数据安全的保护能力做技术中立的安全分级,将有助于隐私计算技术更好地在实际场景中应用推广。首先要明确的是,产品不存在绝对的安全。或者说,大部分商业应用场景中,绝对安全的代价之高是难以承受的。其次,安全评估需要端到端的进行,因为大量安全漏洞出现在实现环节:可能理论假设很完美,但实现复杂性过高,产生高危漏洞破坏了整体安全性。回归安全本源思考,我们认为,隐私计算系统安全性度量的本质在于评估攻击者需要付出多大的努力、克服多大的不确定性来攻破给定的安全防护保障,产生信息泄露的后果或风险。最后,安全是动态的,产品有漏洞不可避免,重要的是中高危漏洞要能够快速修复,不能频发;当出现高危漏洞时,需要有足够的防御缓冲来有效消解出现漏洞时的攻击。在这个前提下,我们将隐私计算系统的安全通用分级分为五类,并与抗疫措施做类比,以更好地理解:
  • 第一是基线防护级,这是基本的安全基线要求,不能有已知中高危安全漏洞。就像戴口罩和洗手。

  • 第二是审计追溯级,能对隐私计算协议交互中已知的无法阻断的攻击和泄露进行审计,无法感知和审计的攻击在实际应用中会引发不可控的数据泄露风险;对于允许信息熵泄露的技术应该有泄露度量能力。这一级别的要求就像测核酸和健康码,起到感知和威慑作用。

  • 第三是广度防护级,对已知的可以造成实际信息泄露的攻击方法均应有相应的防护方案;对允许信息熵泄露的技术应有泄露上限控制能力;不应包括漏洞频发的高危组件。类似疫情防控中对已知传播渠道的阻断。

  • 第四是深度检验级,能够通过2个安全攻防专业团队背对背1个月或以上时间的深度安全评估,且不被发现中高危漏洞。这样的安全强度能够在实战中对抗变异攻击,对数据安全提供高等级防护能力。可类比疫情防控中有效抵抗变异病毒。

  • 第五是安全证明级,对于关键复杂性隐患,有代码级形式化证明保障。包括像内存安全验证这样的复杂性证明,也包括像算法和代码实现的一致性证明。这个级别的要求就像打疫苗后获得基因片段的免疫能力。需要注意的是,实践中采用的形式化验证,并不能保证验证过的程序不存在任何安全缺陷——它能够保证的是,对于特定的验证对象(特定版本目标代码和特定版本依赖库),验证给定的测试样例所能触发的代码,一定不会存在指定验证策略(例如缓冲区溢出检查、整数溢出检查等)所约束的安全问题。就像疫苗只能免疫某一类疾病,不能免疫所有疾病一样。
这五个安全通用分级比较好地覆盖了现实中隐私计算系统应该满足的不同安全级别要求,可以跨技术种类标定隐私计算系统的安全级别。

有了隐私计算安全维度后,就可以从五个独立维度来评判隐私计算系统,包括处理性能分级,如每小时处理样本的能力,从十万、百万、千万到亿级;服务可靠性分级,从不到99%,到99%、99.9%、99.99%......一般金融场景的应用需要在四个九以上;适用性分级,包括了只支持固定算法,到支持任意多方参与,到支持任意的机器学习框架和BI算法的支持能力;成本效能分级,从需要比明文分布式计算高1000倍以上的成本,降到10倍以内,甚至2倍以内的成本。

有了这五个维度的分级,在不同的具体场景里使用隐私计算技术时,首先要看这个技术能不能够适用,适用以后要看能否达到这个场景的安全要求。不同技术实现的安全级别保障能力是有差异的,不同的安全级别实现的成本也有比较大的差异。在满足适用性和安全性要求后,可以根据实际情况选择性能比较高或者成本比较低的具体方案。

未来,我们认为在不同的场景之下,不同的数据规模之下,不同的隐私计算技术,包括多方安全计算、联邦学习、可信执行环境和可信密态计算等,都会有自己适用的场景,共同解决数据密态时代数据流转的各种需求。
数据要素安全流通需要全行业共同努力今天,全社会共同为构建数据要素市场而努力,但挑战依然严峻。技术本源的难点在于数据易复制,而明文流通的模式容易导致分发失控,引发数据要素市场化众多问题。这也意味着数据流通领域需要告别数据明文时代,开启数据密态时代的新征程。在数据密态时代,需要多种技术共存,共同解决数据要素行业各种各样的实际需求。安全通用分级的标准和测评,将是众多行业在数字化发展和安全保障间获得平衡的重要基石,未来还需要行业伙伴共同去构建和完善。

来源:中国信息安全公众号



END往期推荐:




隐私计算头条周刊(6.19-6.25)


招募令 | @隐私计算牛人,你有一份挑战赛邀请,请查收!


用隐私计算技术实现数据出境合规利用


元宇宙的隐私保护:技术与监管


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


隐私计算又遇技术突破,亿级数据密态分析可在10分钟内完成


清华大学张超:实现数据确权与保护,数据密态渐成行业共识


数据确权:第五要素的战争


未来十年,将会有95%的企业采用隐私计算技术

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存