阿里云安全产品总监路放:云上数据安全流通解决方案
凌云时刻
编者按:2021年9月17日,阿里云用户组(AUG)第二期线下活动在南京召开。阿里云安全产品总监路放和现场20家南京企业的技术骨干们探讨了数据流通中的安全问题,并分享了在数据安全的情况下如何实现数据流通的解决方案。本文根据路放的演讲内容整理而成。
随着《数据安全法》和《个人信息保护法》的出台,国家和社会对数据安全的管理制度严谨且明确,要治理,也要流通。
要把数据当作一个生产要素,去产生更多的价值。但数据一旦被泄露,很快会被复制,复制成本极低且影响极大。例如前几年某旅游公司泄露的数据,目前暗网仍然在售卖,它还包含了大量的个人隐私信息,对企业和社会都造成了很大危害。
那怎么样才能解决数据流通瓶颈,让数据安全流通呢?
数据安全需要提前防御
如图所示,数据具有着不一样的特点,所以数据安全不能从传统意义上理解,不能用防火墙的思维去看单点的防护。这里我们从DSMM模型(数据安全能力成熟度模型)出发,数据可以分为采集、传输、存储、使用、交换、销毁这几个阶段,这是数据的生命周期,企业对数据的访问肯定要从它的生命周期各个阶段去看。如果数据泄露出去了是很难销毁的,所以在数据安全领域,最重要的还是前置的安全,也就需要企业在最早期就把数据的安全做起来。
今天要谈的数据流动,是数据在使用和交换的阶段需要进行安全的流通,采用阿里云的DataTrust隐私计算技术,来做到数据流通中安全的保护。
数据安全保护可采用隐私计算技术
为多方数据合作构建数据安全融通的环境
可以看下阿里整个隐私增强计算产品的架构图(如上),目前这个隐私计算技术分为三个关键的技术点:
FL联邦学习 MPC多方安全计算:这个领域有相对出名的旗帜人物,就是清华大学的姚期智院士,也是华人唯一获得过图灵奖的院士。他最早提出的安全多方计算技术。
TEE技术:是依托于硬件的机密计算技术,通过处理器里的特殊安全指令,可以把数据在仅处理其可见的安全模式下进行运算。
综上,这三种技术目前是广泛认可的。用一个名词总结就叫隐私计算,它可以用于联合风控、联合营销,还有各种政府委办之间的数据分析。
隐私增强计算的基本原理
这是更细节的原理,图中的A、B是两个不同的机构或公司,即两个不同的数据方。参与方A有自己的数据,但是它不能把这个数据明文分享给B;参与方B也同样有自己的数据,但不想给到A。这里存在的问题就是如果没有一个机制,那它们的数据就不能分享出来,只能自己算。我们的隐私计算产品可以解决这个问题,在A的域中对数据进行加密,可以保证在加密的状态下仍然进行运算。
可以简单理解成运算是基本的算子,就像数学的加减乘除一样,一旦有了这些算子,客户就可以完成更高级的运算,最后推导出机器学习这样复杂的运算。隐私计算根本上解决的问题就是:明文数据中绝对不会出A和B各自的独立域,但是计算的加密因子可以直接运算,能够得到运算的结果。
而且,这个结果可以分享给两方,从而实现数据在完全不出域的情况下,得到想要的数据结果,这就是数据的“可用而不可见”。也就是客户拥有系统和数据的完整控制权,原始的数据不出域。
多方数据安全融合的过程
数据安全融合需要先创建一个数据的项目,通过邀请的授权,把参与这个项目的人邀请进来。刚才举例的是两方,也完全可以扩展到多方合作。通过对数据的授权来产生任务,这里需要强调的是,这个数据的授权仅限于对数据的使用权限,并不会把明文数据传递给对方。
安全数据融合的解决方案
这里就是依托于刚才讲的底层技术搭建成的一个完整的解决方案:
基础安全仍然是永远需要的。
中间这层蓝色的就是刚介绍的隐私增强计算,它采用安全多方计算的方案,将双方的样本进行一个对齐。根据客户的场景,用不同的技术不同的运算量与性能去适配不同的场景,在样本对齐之后可以有两种选择的方式,一是可以通过联邦学习的方式,二是可以通过可执行环境的方式,对这些数据进行一个联合的建模。建模之后,就可以进行一个整体的联合分析。
再上一层就是算法模型。这里有深度学习、线上回归这些机器学习算法,而且不仅限于机器学习,还支持其他算法,例如统计相关的各种算法。
再往上就是应用层,可以去应用到各种场景。比如说联合营销、风控等业务应用。
阿里云安全能力的认证
在这里跟大家同步下阿里云获得的一些证书和资质,阿里云安全这一部分是保持国际领先地位的。这个是美国Gartner的一个安全评测,我们在Gartner的可信执行环境上得到了一个High的评分。这个评分横比是美国几家著名的企业,阿里云这个评分高于AWS和谷歌,和微软持平。同时,阿里云这款产品也参与了很多标准的制定,是最早在信通院获得4个证书认证的产品。
隐私增强计算技术的应用场景
最后可以看下整个产品的应用场景,这里列了4个领域。先说一下零售,零售需要去做联合的营销,就需要更多的数据去建立模型,比方说消费者的画像以及使用习惯。数据越多,营销会更精准。此外,在各个政府的机构和委办需要采用数据安全的方案,整个数据的治理流程意义也是很大的。在金融方面,主要是联合风控。还有在医疗,现在很多联合的诊疗和制药,企业都大量应用了各种数据,在做AI制药方面的探索。
再举一个精准化营销的案例。品牌商有自己的数据,包括订单信息等,但是可能需要客户更精准的画像,用来判断消费者的类别,例如客户消费的水平等,这样可以更精准地推荐商品。
品牌商通过第三方数据加持,可以让机器学习出更好的决策树模型来做推广和推荐。这里最大的问题就是第三方的数据是不可能明文分享的,也就是前面说的数据流通和数据安全的矛盾。在这个场景里,通过阿里云DataTrust产品隐私计算的技术,打破数据的孤岛,让数据产生安全的流动,从而获得真实的业务价值。
↓↓↓