查看原文
其他

深度详谈 | 数字化转型需要考虑哪些泄露风险与技术需求

本秋 同态科技 2022-11-05

本文字数:4821,阅读时长大约9分钟


2022年4月20日,为了落实加快数字化发展、建设数字中国的战略部署,上海市人民政府办公厅印发了《上海城市数字化转型标准化建设实施方案》,着力推进数字化转型相关标准研制与推广应用,推动数字经济与实体经济融合发展。
那么当企业进行“数字化转型”之前,需要先对可能存在的泄露风险以及相应的技术支撑能力有一个初步的了解。


所谓数字化,“是将许多复杂多变的信息转变为可以度量的数字、数据,再以这些数字、数据建立起适当的数字化模型”,那么套用在企业之上,即是实现系统化、通用化的方案,探寻该领域具有规律性的促进发展道路,并使其形成可复用的生态模式。

形象的来说,在当下的大数据时代,我们无需依赖于某个“冰山一角”去推测“整个冰山”的大小,而是可以将整个冰山一览无余地呈现在面前,这种对整体“冰山”大数据的掌控使我们能够趋利避害,安全航行。使我们快速把握事物的整体、相互关系和发展趋势,从而做出更准确的预判、更科学的决策,并依赖于此做出更精准的行动。

IDC预测,在2025年的全球数据量将高达175ZB。其中,中国数据量预计将在2025年增至48.6ZB,一跃成为全球最大的数据圈。因此,在如此规模的大数据蓝海中,一套安全、高效的新的数据机制尤为重要。“数字化转型”正是在这样的背景之下,为了更好融合多方数据而进行商业模式改革的一种途径。基于大数据治理的技术,挖掘精准治理、多方协作的数据应用新模式,借助数字技术赋力于人,从而创造商业与社会价值。




01数据安全是基础

然而,在数字化大张旗鼓的同时,后端的数据治理更应小心。虽然单条的身份、轨迹、视频等信息碎片看起来并不具备特别的价值,但是当数据量扩充后,将特定个体的不同信息拼接起来,再通过大数据分析,就可以得到很多重要的信息。

根据《数据安全法》等相关法规的要求,商家必须对所收集的数据负安全责任。掌握的数据越多,担负的责任就越大。这一规则,对人脸识别单位来说同样适用。

截至去年底,中国网民已经达9.89亿。网购、网约车、网上银行等互联网服务已经全方位介入现实生活。人们为了获取便利高效的服务,已习惯录入自己的姓名、电话、住址、银行卡号等隐私信息。从某种意义上讲,在大数据技术的背景下,绝大部分数据是经由用户“知情-同意”后提供。

除了商家之外,人们在各种社交媒体上发布的动态和信息会在不经意间暴露自身的敏感信息,这也使个人信息更容易“公开”。中国科学院数据与通信保护研究教育中心主任荆继武说:“有80%的人的个人信息都曾经录入过,这是大概的统计,大部分人的信息已经在网上了。我们发现大量的公司在发展过程当中,保护手段还没有做得太好。很多用户也担心自己的信息被泄漏,这也达到了80%,说明我们百姓的网络安全意识在提高。”

随着定位技术的高速发展以及物联网、大数据和人工智能等技术的不断发展与应用,无论是移动社交应用,还是涉及人们衣食住行的定向营销,都存在个人数据外泄的风险。数据的使用与搜集都具有高度隐蔽性,但结合强大的数据分析能力,便让众多用户无形中成为“被监控”的对象。于是数据使用便利的同时,让渡的是隐患重重的消费者隐私安全,甚至是国家安全。

以网约车为例,一些网约车企业在长期的业务开展中,积累了海量的出行数据与地图信息。除此以外,从车联网方面考虑,汽车在使用过程中的摄像头、传感器等,都涉及到从公共交通到个人隐私数据的安全问题,消费者的个人隐私、企业的商业机密乃至国家安全,都有可能受到严重威胁。

▲图 | 安全419

“美国国家安全局以及网络巨头的关系正是计算能力和海量数据的结合,因此全球大部分数据都掌握在他们手中。”全国信息安全标准化技术委员会委员谈剑峰介绍,大量的数据在网上是没有保护的。据统计,2021年全球数据泄露总量创历史记录同比增加了68%。其中,涉及到公民敏感信息的个人身份信息泄露仍高居首位,政务、医疗、能源、金融、电信及交通等行业高价值特殊敏感数据泄露风险加剧,云、端等数据安全威胁居高不下,特别是勒索软件的高度猖獗。




02数据融合中的风险

以美国最大的互联网提供商之一,美国在线(AOL)为例。在 2006 年8月, AOL 公开了一份匿名的搜索记录,其中包括 65 万个用户的数据,总共 20M 条查询记录。 

在这些数据中,用户的姓名被替换成了一个个匿名的 ID,但是纽约时报通过这些搜索记录,找到了 ID 匿名为4417749的用户在真实世界中对应的人。ID 4417749 的搜索记录里有关于“60岁的老年人”的问题、“Lilburn地方的风景”、还有“Arnold” 的搜索字样。通过上面几条数据,纽约时报发现 Lilburn 只有14个人姓Arnold,最后经过直接联系这14个人确认 ID 4417749 是一位62岁名叫 Thelma Arnold的老奶奶。


▲图 | Wiki4All

最后,虽然 AOL 紧急撤下数据,发表声明致歉,称其为“搞砸”,但是因为隐私泄露事件,AOL遭到了起诉,最终赔偿受影响用户总额高达五百万美元。 

▲图 | Dr. Dataman


同年,美国最大的影视公司之一 Netflix举办了预测算法的比赛(Netflix Prize),要求在公开数据上推测用户的电影评分。Netflix 将数据中唯一可识别到用户的信息抹去以保证用户隐私。但是来自The University of Texas at Austin 的两位研究人员表示通过关联 Netflix和 IMDb(互联网电影数据库)数据记录即可识别到匿名用户的身份。最终在2010年,Netflix 因隐私原因停止这项比赛,并因此受到总计九百万美元的高额罚款。


那究竟什么技术才可以保障数据的安全性不受影响呢?




03量化重标识风险

《信息安全规范 个人信息去标识化指南》(GB/T 37964-2019)中给出了常用的几个去标识化技术路径。为了将重标识风险的量化保证纳入目标,我们先取其中的K-匿名化模型(k-anonymity)来举例说明。

简单来说,k-anonymity是通过参数k,指定用户可承受的最大信息泄露风险;要求公开的数据中包含的个人信息至少 k-1 条不能通过其他个人信息确定出来。也就是公开数据中的任意准标识符信息,相同的组合至少存在 k 次。

假设一个公开的数据进行了 2-anonymity 保护。如果攻击者通过查询数据集中的年龄、邮编和性别等信息,想确认用户A的家庭住址,那么结果会发现数据里至少有两个人具有相同的年龄、邮编和性别,从而起到保护用户隐私的作用。
k-anonymity的方法主要有两种:
01删除对应的数据列,用*代替02用概括的方法使之无法区分

比如把年龄这个数字概括成一个年龄段。对于邮编这样的数据,如果删除所有邮编,研究人员会失去很多有意义的信息,所以可以选择删除最后一位数字.

k-anonymity的优势主要有三点:
01无法确认某个人是否在公开的数据中02无法确认某个人是否有某项敏感属性03无法确认某条数据对应的哪个人

这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露


但是,k-anonymity可以阻止身份公开,却无法防止属性公开。因此对于同质攻击和背景攻击难以抵抗。在同质攻击下,除了准标识符,敏感属性的值也完全相同,此时攻击者可以轻易获取想要的敏感属性结果。而背景攻击则需要攻击者具有一定的专业知识储备,存在较高概率获取到用户的隐私信息。




04兼顾数据安全与流通共享

对于数据安全的防护仍需要结合当前数字化转型的大背景,关注在数据流动和使用状态中的数据保护;这一点不同于以前防火墙式的静态保护,数据安全治理更倾向于动态保护。

一方面,《数据安全法》的出台,对于数据安全的保障力度和执法强度有积极促进作用,也预示着我国数据开发与应用将全面进入法治化轨道。在原有基础上,扩大了向境外提供数据的监管适用情形,即第36条规定:

"

非经中华人民共和国主管机关批准,境内的组织、个人不得向外国司法或者执法机构提供存储于中华人民共和国境内的数据。

"此条涵盖了中国境外的司法或者执法机构要求提供存储于中国境内的数据,有助于更好地封堵境外机构的“长臂管辖”。

另一方面,《数据安全法》既要数据安全,也保护数据的交易和流通,鼓励使用大数据创新,鼓励使用数据驱动业务,完成数据在各企业之间的安全共享。因此,在法律层面之外,技术领域需要构筑技术领先、自主创新的数据基座,确保数据基础设施安全可靠。强化数据安全领域关键基础技术的研究与应用,加强密码技术基础研究,推进密码技术的成果转化,确保基础软件自主可控。

这样看来,密码技术是企业进行“数字化转型”的首要之选。虽然不能完全肯定地说,加密能防止所有网络攻击,但这种技术使得黑客窃取数据的难度与成本提升以减小风险。

我们从以下五个方面来讨论数据加密在数字化转型中的优势: 始终提供数据的安全性:一般来说,当数据从一个位置移动到另一个位置时,安全性是最薄弱的。数据在传输或静态时进行的加密工作,使其成为理想的解决方案,无论数据存储在哪里或如何使用。加密应该是在任何时候存储所有数据的标准,无论它是否被视为“重要”。⭕ 加密数据保持完整性:黑客不只是窃取信息,他们也可能通过改变数据实施欺诈行为。虽然可能技术人员改变加密的数据,但收件人的数据还是能够检测到其漏洞,这将遭遇一个快速响应的网络攻击。⭕ 加密保护隐私:加密是用来保护敏感的数据,包括个人的个人信息。这有助于确保匿名性和保密性,减少犯罪分子和政府机构的监视机会。加密技术如此强大,以至于一些政府试图限制加密,但这样将不能保证公司或个人的隐私的有效性。⭕ 加密是合规性的一部分:很多行业都有严格的合规性要求,以帮助保护存储那些个人信息的组织。HIPAA,FIPS和其他规定依赖安全的方法,如加密来保护数据,企业可以使用加密技术来实现全面的安全性。⭕ 加密保护跨设备数据:多设备与和移动设备是人们生活的一大组成部分,而从设备到设备的数据传输是一个冒险的命题。加密技术可以帮助保护存储数据的所有设备,即使在传输过程中。而采用的额外的安全措施,如先进的身份验证,将有助于阻止未经授权的用户。

同时,由于黑客逐渐精明与熟练,加密技术也需要同步发展。安全专家们近年来在加密领域的的技术进步包括:EllipticCurve加密(ECC),同态加密,量子计算等。

其中,同态加密将允许在加密的数据上直接计算,而无需解密步骤。因此在兼顾数据的安全与流通共享方面,我们选取《信息安全规范 个人信息去标识化指南》中——同态加密为例进行说明。

同态加密方案最有趣的地方在于,其关注的是数据在流通、使用中安全。也就是说,基于同态加密所赋予的对加密数据进行处理的能力,其他人可以在不进行解密的情况下,直接使用加密数据进行加减乘除、统计分析、“跑模型”等数据操作,并且整个过程不会泄露任何原始内容。同时,拥有密钥的用户对处理过的数据进行解密后,得到的结果与明文计算无异。

同态加密 的主要优势在于:


❖ 权责分明。由于数据源内部最终计算得到的中间值是加密的,且数据源无法解密。因此在进行数据交换共享过程,数据源不存在中间值泄漏风险,保证权责分明。


❖ 内控安全。在外包计算场景下,对数据库进行加密,使数据对外包厂商不可见的同时完成外包密文计算,有效降低内控风险。


❖ 可支撑场景拓展率高。数据统一汇聚后,随着数据量的上涨,由量变产生质变,复杂的数据应用场景需要原有数据保护的拓展;而同态加密只需要将运算符号进行替换,对原有业务流程无需改动,因此可以随场景一起拓展,无需额外定制。


❖ 模型安全。针对机器学习场景下,模型参数在加密传输后可直接进行运算迭代,无需额外解密步骤,防止模型泄露而导致的数据安全问题。



总的来说,同态加密可以实现数据所有权和使用权完美分离,并确保数据全生命周期的安全可信,从而可以实现数据驱动的数字化转型的同时,遵守数据隐私的有关规定。

总结

虽然技术路径不同,大多去标识化技术都可以在保证用户的个人隐私的前提下,对实际应用和研究能够提供有价值的数据,完成一定条件下的匿名化处理,尽量贴近合规监管需求。

在大数据的时代中,也希望各公司在利用数据提供更好的服务,完成数字化转型的同时,能保护好用户的个人隐私。相信隐私保护技术会越来越受到重视,并更多地从POC阶段落地商业化应用。







原文首发于:本秋(techie_tuesday)


—END—


深度详谈 | 关于密码和八类商用密码典型应用分析同态加密技术(HE)中的六个数据合规疑问同态应用 | 从密码朋克到隐私计算,在线隐私该如何保障?


点分享

点收藏

点点赞

点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存