前文回顾:数仓深度 | 数据治理之 数据脱敏
随着互联网的发展,数据带来的深刻影响和巨大商业价值逐渐受到人们的重视,商业决策也越来越依赖于数据的支持。但事情都具有两面性,大数据在为社会带来便利的同时,也带来了诸多安全隐患,其中最受关注的无疑是客户数据安全。据《中国个人金融信息保护执法白皮书(2020)》的不完全统计,截至2020年10月25日,中国人民银行开出的行政处罚单里,涉及“个人金融信息”的罚单共181张,罚款金额合计超过人民币1.8亿元。近几年全球数据泄漏事件层出不穷,各国对数据保护要求也越发严格,我国近期也发布了《中华人民共和国数据安全法》,聚焦数据安全领域的风险隐患,提出建立数据分类分级、安全风险评估、应急处置等制度。企业在使用数据进行分析拓展业务的同时,必须保障客户隐私数据安全,而数据脱敏技术是企业同时满足这两个需求的有效手段。本文将为大家简单介绍业界常见的数据脱敏方式及在金融行业的应用举例。01
数据脱敏是一种保护敏感信息的技术手段,在不影响数据分析的准确性的前提下,对原始数据中的敏感字段进行处理,从而降低数据的敏感度,降低个人隐私泄露的风险。数据脱敏可以分为静态脱敏和动态脱敏。静态脱敏是指对敏感数据进行变形、替换、或屏蔽处理后,将数据从生产环境导入到其他非生产环境进行使用,例如需要将生产数据导出发送至开发、测试等环境。动态脱敏会对数据进行多次脱敏,更多应用于直接连接生产数据的场景,在用户访问生产环境敏感数据时,通过匹配用户IP或MAC地址等脱敏条件,根据用户权限采用改写查询SQL语句等方式返回脱敏后的数据。例如运维人员在运维工作中直连生产数据库,业务人员需要通过生产环境查询客户信息等。说到数据保护,大多数人第一时间想到的便是加密技术。很多时候大家可能会对数据脱敏与数据加密这两个概念产生疑问,认为数据加密是数据脱敏的一种方式,但其实这是两种完全不同的技术,适用于不同的目的。数据脱敏技术并不需要对所有信息进行加密,数据脱敏保存了数据原有的格式,在不需要解密的条件下,降低数据敏感度。因此,脱敏技术兼顾了数据安全与数据使用,脱敏后的数据依然可以用于分析和测试。数据加密技术则涉及到通过算法对数据进行可逆的变形或转换从而隐藏原始信息,大多数加密算法(如对称加密、非对称加密)都是可逆的,密文可以通过密钥被还原。数据加密更多适用于长期数据储存或数据传输,因为被加密后的数据将无法使用。02
在数据脱敏的过程中,需要根据不同的数据使用场景,选择相应的数据脱敏方式。较为常见数据脱敏方式包括数据替换、掩码屏蔽、随机化、泛化、平均化、偏移取整。本节将以下图数据为例,介绍上述几种数据脱敏的方式。
1.掩码屏蔽:使用*掩盖部分数据,如保留身份证前6位代表地区信息的数字,其余用*代替,被掩码屏蔽的部分可以根据需要进行调整。2.数据替换:使用虚拟值替换真实值,如设置一个常数将所有数据进行替换。下图使用数据替换方式,将所有手机号统一替换为“13900800900”。3.随机化:使用随机数据代替真实值,如随机生成客户姓名代替真实值。
4.泛化:在保留数据局部特征的情况下,对数值型字段进行归类后替换原有数值,使原有数据特征被模糊化。如根据借记卡余额数值分为 “<5万”, “5-10万”, “10-15万”等区间,并将其替换原有的借记卡余额数据。5.平均值:针对数值型数据,计算它们的平均值后,将脱敏值在均值附近随机分布,在改变数值的情况下不改变数据总值和均值。以借记卡余额为例,对借记卡余额做平均值处理后,余额总数不变,但脱敏后的数据在均值97602.97附近。6.偏移取整:将数据中的数字随机进行位移,从而改变原始数据。以开户时间为例,经过偏移取整后,开户时间2015-07-26 15:03:24变成了2017-06-25 15:00:00。03
数据脱敏在金融机构中的应用广泛,主要分为数据统计测试需要和分析需要。
通常选择掩码屏蔽和数据替换这两种方式。由于测试数据是要在测试中使用的,为达到测试的目的,脱敏后的数据也需要保留原本的数据特征。一些敏感信息,如身份号、手机号等,都是具备明显的特征的,脱敏时保留这些数据特征才能更准确地进行测试,而掩码屏蔽和数据替换都能一定程度上保留这些数据特征。随机化虽然可以最大程度上使数据脱敏,但由于数据为随机生成,所以脱敏后的数据无法保证数据的原有特征,在一些需要数据真实性的使用场景具有局限性,更多适用于系统性能测试。为保证获取的数据可以用于分析研究,需要脱敏后的数据也具备分析价值,确保数据的业务特征不丧失,且主外键保持一致,数据之间的逻辑关系也要保留。这种情况下,对于数据中的主外键可采用随机化的方式,使用随机数字替代主键。首先需要建立一个包含脱敏前后主键的对照表,将对照表与原表通过脱敏前主键关联,并用脱敏后主键值替换原值。在与其他表关联前,也要先使用对照表替换需要关联表中的外键,以保证主外键的唯一性和一致性。在完成主外键替换后,需将对照表删除,以保证数据的安全。另一方面,对于需要进行统计分析的数值性数据,泛化、平均值、偏移取整这三种方式更适用。当用户并不需要具体每一条数值,只需要对数据样本整体进行统计分析,根据不同的分析需要可以对脱敏字段进行不同的处理。比如若用户需要统计某月日均AUM,则可对数据进行平均值处理,使客户每日AUM在均值附近随机分布。如此处理后,既不影响用户分析结果,又保护了对客户资产数据。数据脱敏的方式众多,且根据不同的使用目的涉及到的脱敏方式也不同。面对日益增加的数据量、愈加复杂的使用场景、和逐渐提高的数据要求,手工脱敏效率低且难度大。如今随着脱敏技术的完善,自动脱敏产品也越来越多。相比传统的手工脱敏方法,专业的脱敏工具可以做到自动识别敏感字段,自动识别用户身份,针对用户权限进行不同程度的脱敏,从而大幅提高脱敏效率。同时,自动脱敏工具的脱敏算法丰富,可以进行更有效便捷的脱敏,确保脱敏数据的主外键一致、业务关联一致、多次脱敏结果一致,保持数据间的逻辑关系。04
金融机构掌握了大量的敏感信息,比如客户的身份信息、账户信息和密码、资金信息和一些个人行为信息。由于金融机构特殊的行业性质,对数据安全性的要求较其他行业更为严格和审慎。而金融机构在诸多工作场景,如开发、测试、数据分析挖掘过程中,都需要使用这些真实的数据信息,数据脱敏可以帮助金融机构在数据保护与数据可用性之间找到平衡。通过数据脱敏,可以有效防止企业内部对敏感数据的滥用和未经脱敏的数据从企业流出的情况,减少金融机构职员利用工作之便进行违法活动的可能性,避免数据泄露为金融机构带来的损失。
数仓之路 学习路线
面试系列 大佬访谈
点击上面文字即可跳转专题
扩展阅读:【阿里巴巴大数据之路】资料,公众号后台回复“666”,转发即可下载。