好用VS能用 | 细谈数据脱敏产品的价值差异
差异 · 1
敏感数据发现与“精确”敏感数据发现
1. 多种内容混合的字段脱敏
对于“由多种内容混合在一起“的字段,数据脱敏产品能否准确辨别其中每种数据的类型,同时给出类型占比以供使用者参考抉择?2. 无法判别敏感属性的字段脱敏
对于“从数据特征上无法判别敏感属性”的字段,在传统数据脱敏产品的发现逻辑中往往容易被忽略,从而导致敏感数据的泄露;其实处理得当的话,此类数据是能够进行识别的,可通过以下两种方式进行:其一,对属于某种集合范围内、能够被枚举概括的数据,可将这些集合全部列出作为数据字典保存;当遇到这类“落到字典中”的数据时,即可以此辨别其是否为敏感数据。例如:中国的省市区划、企业和机构的行政部门、股票证券行业的上市公司代码等,均可通过此类逻辑进行敏感数据发现。
差异 · 2
数据脱敏与“高度仿真”数据脱敏
1. 内容仿真
基础的内容仿真,要求脱敏后数据从“数据类型、长度、格式、内在逻辑和语义”等特性上均与原始数据保持一致,不会对脱敏后数据的使用场景造成无法识别或产生歧义等问题。通常来说,市面上多数脱敏产品通过内置规则,可针对身份证、姓名、银行卡、手机号、地址等常见字段实现上述最基础的仿真要求。但当客户面对五花八门的使用场景时,想要实现脱敏后数据的“高度仿真”,就需要更加灵活的产品技术能力提供支撑。例如:在某制造行业中,对于制成品的批次号需要进行脱敏,但批次号是由生产日期、车间号、流水线号和操作者相关信息共同组成的,这种行业级的数据显然已超出一般数据脱敏产品内置规则的默认范围,这时就需要安全厂商的数据脱敏产品能够对数据按位数进行切分,并基于切分的结果对各段配置脱敏规则。比如:对于日期段,可采用标准的日期脱敏规则;对于车间号、流水线号这种有范围的数据,要能基于数据字典进行脱敏;最终还要将各段组合成完整的脱敏后数据。
2. 区间、比例仿真
进阶一步的数据仿真,除对内容进行仿真外,还要求脱敏后的整列数据能够满足某些特征,以避免这些脱敏后数据被分发到分析统计场景后,因为失真降低其实用性。例如:金融行业客户需要对储户的储蓄金额进行分析,但若拿到的脱敏后数据与原始数据相差过大,将会导致统计分析结果大大失真,因而需要脱敏产品的算法能够将金额数据划分区间长,并能以“就近随机”的方式完成脱敏;而高校客户在统计生源分布比例时,即便拿到的已是将“北京市脱敏成上海市,天津市脱敏成江西省”这样的非真实数据,也还是希望“同一省市生源数据的比例”是不变的等等。
3. 关联仿真
关联仿真则是更进一步的数据仿真,要求脱敏后数据与其所在行的其他数据能够保留一定的关联关系或运算关系。当身份证号、出生日期、年龄三个字段出现在同一个表中,则天然存在“身份证中间8位数据与出生日期一致,且当前年份减去出生日期即为年龄”这一逻辑关系。在这种情况下,就要求脱敏后数据也要保持这种关联关系,否则在分发到开发测试场景后极易造成业务系统出现逻辑异常;
而在制造行业,一张表中常存在“产品单价、折扣率、实际价格”三个字段,且存在“产品单价x折扣率 = 实际价格”这一逻辑关系。在这种情况下,如果对价格数据进行脱敏,那么要求脱敏后数据仍能保留上述运算关系,这就需要脱敏产品能够通过表达式精确处理此类行业内特定的数据逻辑关系;
再以证券行业为例,同一张表内常存在“证券号码、上市地区、企业名称”等存在对应关系的数据,并且要求在对证券号码或企业名称进行脱敏后,三者的逻辑关系依然能够对应。为此,脱敏产品需要能够针对多列数据字典,实现精确且保障效率的关联仿真脱敏运算。
差异 · 3
脱敏运算与“高性能”脱敏运算
其一,是利用数据库特性完成数据抽取与入库逻辑。例如:以“数据库并行加载机制或load机制”替换“通过JDBC读写数据”,这种方式会令数据脱敏产品的开发复杂程度大幅提升,但与此同时也会带来大规模数据脱敏性能的提升。
其二,是数据脱敏产品能够提供平行扩展的集群化部署运算能力,从而通过扩展运算节点的数量,成倍扩展数据脱敏产品的运算能力。