查看原文
其他

数据共享=隐私泄露?“隐私计算”说:No

腾云 腾云 2021-05-19


既要让大数据创造价值,进而为生活创造更多的便利,又要把个人隐私“锁”得严严实实。在很多人看来,这可能是天方夜谭。


但对于网络安全从业者来说,这并非无解,而是一道需要数学、密码学、计算机科学等知识来寻找答案的应用题。


其中的一个答案,便是“隐私计算”。



分享人 | 老鹰
互联网安全专家、IDF实验室创始人
文 | 林偕
腾云特约作者


隐私计算在最近几年越来越受到关注。
在《打破数据孤岛:如何实现“可用不可见”的数据融合?》一文中,腾云介绍过的联邦学习在数据融合领域的应用,就是隐私计算的典型例子。
数据孤岛真实存在。一方面,出于商业利益、隐私保护等考量,数据在不同企业间形成了数不清“数据岛群”,岛屿间相互割裂,甚至岛屿内部数据也无法高效流通。数据的价值释放举步维艰。
但数据本身具有极强的网络效应,通俗地说,数据融合的“性价比”颇高,是典型的“1+1>2效应”。如果Facebook、Twitter、Google等巨头愿意共享自身数据,那么每一家在精准营销、信息推荐等方面的能力都将得到提升。
而除了互联网行业内的数据融合之外,跨行业、跨场景的合作更有助于弥补彼此的短板。
当下,除了一些大型科技公司之外,大多数公司其实并不具备完整的数据变现能力,短板明显:数据分析公司有很强的建模能力、分析能力,但缺少数据和算力;传统公司有自身的业务数据,但在建模、数据处理等能力方面比较落后;各大云厂商有着强大的计算资源,但缺少行业积淀。合作是大势所趋。
正是在这样的背景下,隐私计算站在了“风口”上。


隐私计算广义上是指面向隐私保护的计算系统与技术,涵盖数据的生产、存储、计算、应用等信息流程全过程。
它的优点很明显:不泄露原始数据,可以在保护数据安全的前提下,实现多个维度数据的跨界融合,有助于破解数据保护与利用之间的矛盾。
在Gartner发布的2019年技术炒作周期(hype cycle)曲线报告中,首次将隐私计算列为处于启动期的关键技术。
国外的科技巨头早已看到隐私计算的巨大市场空间。
2017年初,微软亚研院就与外部学者联合,利用差分隐私技术研发的PrivTree,可以通过数学的方式对个人的地理位置信息模糊化处理,同时还能在整体上维持数据集的整体精度。
2019年,谷歌公布了差分隐私库的开源版本,以使其合作伙伴更好保护用户和自身的隐私数据。


隐私计算离我们的生活并不遥远。
2016年,苹果公司在全球开发者大会上首次提出了差分隐私技术(Differential Privacy),从iOS 10开始,苹果使用差分隐私技术,在个人使用模式的小样本中注入数学噪音,在不影响个人隐私的前提下,帮助发现大批量用户的使用模式,从而增强用户体验。
从2018年开始,国内的大型科技公司接连入局,资本市场也保持高度关注。这条赛道常常被认为蕴藏着新的平台型机会——在满足数据合规的基础之上,谁能率先实现数据源的有效融合,帮助需求方高效地提取可用数据,进而释放数据价值,谁就有成为大平台的机会。


中国官方早在2016年就将隐私计算技术提上了发展日程。
2016年底,工信部发布的《大数据产业发展规划(2016-2020年)》提出,支持企业加强多方安全计算等数据流通关键技术的攻关和测试验证。2019年9月,工信部发布《工业大数据发展指导意见(征求意见稿)》,提出在工业领域积极推广隐私计算技术以促进工业数据安全流通。
针对隐私计算的一系列问题,腾云独家采访了互联网安全专家、IDF实验室创始人黑客老鹰。以下为经过编辑的采访实录。


腾云:隐私计算涵盖了非常多的技术,我们可以对它进行哪些分类?
老鹰:从软硬件上,主要可以分为硬件保护和软件保护两个主要方向:可信硬件和安全多方计算。
按照使用场景来划分,第一类是混淆运算,包括差分隐私、联邦学习等。它们解决的问题,简单来说,就是大家想用数据,但又不希望把数据粗暴地暴露出去,即数据的“可用不可见”问题。
比如,当我们按照偏好划分人群,不需要每个人的原始数据然后打标签。而只是在结果层面形成标签,这实际是一种数据脱敏的做法。混淆运算的过程,更多是一种纯粹数学意义上的运算。
第二类,如区块链等隐私计算方法,它的特点是,在数据使用过程中,区块链溯源保证数据的真实性,使其不被篡改、加工。解决的是隐私数据使用方式不当的问题。
举例来说,你可以选择把你的信息以加密方式都存在区块链上,当你需要用你的信息去填各种表格的时候,可以直接用加密方式提供。对方拿到了加密后的个人信息,就可以直接拿到区块链上去验证。这样对方既可以确保你信息的真实性又免于直接拿到你的信息。
第三类,是多种隐私计算方式的结合。特别是在金融、医疗等高价值元数据的洼地。这些领域的特点是,高价值数据是多维、分散的,盈利主体往往需要具有行业深度的多维度数据,才能准确刻画高价值人群画像。
以医院的病历数据举例,随着信息化的推进,医院已经积累了许多临床医疗的数据。如果这些数据可以开放出来,被制药公司、学术机构进行研究,可以帮助我们更好地探索疾病和治疗手段。
我相信在新冠疫情全球流行的当下,每一位医生、病毒研究人员、疫苗开发人员都希望获取全球各地的病历数据,这毫无疑问将加快疫苗研发的速度。
对于金融领域来说,精准的用户画像非常重要。而仅仅依靠分析收入水平来识别用户是远远不够的,比兔,虽然一些人群工资高,但却很繁忙,没有时间进行相关消费;再比如银行发信用卡的场景,银行不能仅依据分期、还款等财务指标,还需要其他属性的社会指标作为补充,综合分析个人信用,这就涉及到不同机构、企业之间的数据融合问题。
因此,在高价值元数据多方流动的情况下,必须防止泄露、保证流通可靠性。此时需要用到多种隐私计算方式,还需结合如数据加密、数据权限审核、数据使用过程审计等安全手段。


腾云:差分隐私是在当下提的比较多的概念,以这项技术为例,能否给大家科普一下隐私计算的工作原理?
老鹰:差分隐私,通俗的说,是通过技术手段为元数据增加噪音,但这些噪音不会影响数据的使用。这些噪音可以大大降低数据的使用风险。
我们都有这样的经验,在数据收集的过程中,人们往往不愿意回答涉及隐私或不方便正面回答的问题,就算回答了,人们也希望数据使用者无法直接将数据定位到某个具体的回答者。
为了解决这种担忧,一种简单有力的方式就是在数据收集过程中加入一定的随机化,使得数据的一些整体统计值在单独一个回答者的回答发生变化时并不会有显著的改变。因为这种对隐私的保护建立在个体变动的层级上,因此就被称为“差分隐私”。
今年下半年,美国人口普查就要用到混淆运算,就是以差分隐私的方法来统计人口。
美国人口普查局要对3.3 亿美国居民进行人口普查。普查数据比较真实有效,因为政策制定者和学者在进行立法或者研究时需要基于这些数据进行分析,但相关法律又规定,人口普查局必须确保这些数据无法被用以“定位”到任何个人。
过往的人口普查是基于统计学的抽样调查。当统计员拿着问卷上门做登记,统计信息又涉及年龄、地理位置、家庭成员等隐私信息,很多人非常抗拒。因而传统的人口普查只能在物理上锁定抽样对象,但是数据流通中噪音过大,单个样本的价值不高。
差分隐私可以解决这个问题。人口普查局在数据中加入了一种“噪声”,它可能会更改一部分人的年龄或人种信息,但它同时又能保持每个年龄或种族群体的总数不变。加入的噪声越多,对数据进行去匿名化就越困难。如此,统计者既可以精准统计,又不会出现大范围数据泄露。苹果和 Facebook 已经使用这种方法来收集聚合数据。
微软也有一个地图项目应用到了差分隐私,他们把地图分为多个区域,然后给用户具体的GPS定位做了漂移。在一些场景下,APP运营商并不需要知道人们的具体位置,可能大概知道某个街道位置,不一定非要定位到具体是哪栋楼。
如果微软的差分隐私方法得到普及,以后就可以在手机层面安装类似的工具接口。APP运营商如要调用位置信息,会得到一个经过差分隐私处理的模糊位置。在关乎公共利益的用途时,相关部门还是可以调用真实信息。


腾云:很多分析人士认为,隐私计算领域存在平台型的机会。那么,要建立一个安全、高效的第三方隐私计算平台,应该具备哪些条件?
老鹰:第一个条件,运营方需有合法的数据渠道。获取正规渠道,需通过法律授权,签订与政府或者商业公司之间的双方协议,或者对数据做了规定处理。在一些领域,仅是获取数据就存在困难,如医疗健康数据。这类数据存储于各个医院中,没有打通,一是因为牵涉多方利益,另一个是数据流动的风险颇高。
为提高数据获取方的风险意识,我认为可以采取类似银行保证金的做法——储户在银行存钱,是要在央行放保证金的。那么,获取数据是不是也可以在相应的官方机构设置类似“保证金”?我觉得是一个思路。
第二个条件,是技术能力,尤其是要有基于场景化的输出能力。各公司应该是基于一些细分垂直领域发展其技术能力,并形成一套模型方法,与使用方充分协同。而不能只是把数据简单处理之后就导出给使用者,这样简单粗暴的做法会有许多遗留风险。
第三个条件,数据治理要多方制衡。数据源源、商业公司、政府监管部门,要形成一套多方制衡的机制。
监管方也需要加强对整个数据处理流程的监管。比如,设置数据产业的从业资格考试,如退出行业一定时间则剥夺职业资格;加强对经手数据人员的监管考评,整个业务过程应有完善的监控审计,数据从何处来到何处去,全流程都可以找到其流通记录。如此可以提升从业人员的职业道德,和对风险的认知。


腾云:《经济学人》曾在今年上半年推出了数据主题专刊,其中一篇文章提到了数据交易所、数据俱乐部等第三方组织,这似乎越发成为全球市场的一种潮流。您对这样的第三方交易机构怎么看?
老鹰:数据只有流动才有价值。从数字化转型的角度来讲,当数据资产越来越多成为个人资产的一部分,首先要解决的一个问题就是数据的定价。
有了交易所,数据可以更高效、便捷地定价,数据流通便畅通无阻。此时,不同垂直类数据公司可以交换数据,促进数据资源的横向合理流动。
当然,数据资源既然要在交易所交易,自然需要制定数据的安全、流动规则,并对其进行合理定价,这可能意味着一个新的商业模式。交易所可以把拥有数据的用户纳入进来,用户知道数据为谁使用,并且拥有数据的分红权。我个人认为交易所是必要的。
2015年《促进大数据发展行动纲要》明确提出“要引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为等一系列健全市场发展机制的思路与举措”。
国内已形成了一批数据交易所,例如贵阳大数据交易所发展会员数目突破2000家,已接入225家优质数据源,经过脱敏脱密,可交易的数据总量超150PB,可交易数据产品4000余个,涵盖三十多个领域,成为综合类、全品类数据交易平台。但从发展来看,其模式和数据交换交易量还存在挑战。
据官方媒体报道,我国产生的数据量将从2018年的约7.6ZB增至2025年的48.6ZB,数据交易将迎来战略机遇期,特别是疫情期间,在公共卫生健康等领域,超大规模的数据采集和交换匹配需求十分强烈。
而国内最近公安部发布的CTID数字身份证架构标准以及司法存证区块链等技术标准的实践探索,也客观为为数据交易关联、交易模式和查询办法的落地、规划与立法修订创造了条件。
但需要强调的是,数据交易所的风险监管与安全,应该采取银行类的风控标准予以强化与强制,需要对数据交易的全生命周期管理制订一系列符合中国国情的详细策略,并结合修订中的相关数据安全条例,与现有法律充分结合。 
往期回顾 

喜欢本文?快点“在看”支持一下↓↓

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存