查看原文
其他

什么是数据脱敏?

The following article is from 热罐小角 Author hotcan


4月12号推特上有个叫@Bank Security的账号发了一条消息,说有人在卖中国多个的银行用户数据,只卖美元3999。包括姓名、年龄、地址、电话号码、身份证号、存款金额、所办业务等金融数据等等。

  



我果断去Twitter上看了一眼,果不其然。截图里的敏感信息已经被挡住了,不过Twitter上还都是明文,名字电话身份证都清清楚楚,还有什么CEO的公司,行业,业务情况,家庭住址什么的一应俱全。在示例里展出的银行客户会不会被吓出一身冷汗,反正我是细思极恐的。

 

昨天神州数码TDMP数据脱敏系统在华为鲲鹏ARM服务器上拿到了认证

 


 

今天我想聊的是这个TDMP数据脱敏系统到底是用来干啥的。数据脱敏是数据库安全技术的一种,英文是Data Masking(DM),直接过来翻译过来可以是数据屏蔽,英文里也可以用Data Obfuscation,数据混淆。但是不知道为什么翻译成中文就成了数据脱敏(Data Desensitization)。好吧,可能是为了混淆吧,一个蛮清楚的名字就这么被混淆了。不过没关系,我们继续用国内的“数据脱敏”这个名词来称呼他。




 什么是数据脱敏?(What)


数据脱敏是隐藏原始数据与修改的内容(字符或其他数据)的过程。对数据脱敏的原因主要是为了保护个人身份信息,敏感个人数据或者商业数据,也就是刚才我们在推特上看到的那些客户信息。

 

数据脱敏最大的要点,在隐藏了数据之后,数据必须要保持可用,而且看上去也要像真的一样,否则我们就直接把这些信息都改成ABCD就好了。


比如某个人叫张三,要把他改成李四。手机号码也要变成不存在的号码,但是还是得有11位,不能变成字母。身份证号和信用卡号也要符合规则,比如身份证特定几位必须是生日,信用卡的奇偶校验那一位必须是正确的,否则将会变成无效卡号等等。

 

上面这个还是简单的,数据脱敏还需要在各个级别上都让数据有意义,比如混淆地址,必须要保证是一个正确的地址,而且还要让邮政编码是正确的,这通常会跨数据库的多个字段。又比如某个人力资源系统里,一个员工的职位是工程师,那么这个职员关联到的另外一张工资表上的工资,不可以是一千万,否则就出了大笑话。还比如说某个呼叫中心的客户接到了银行的客户投诉,这个客户如果是一个VIP客户,就必须要匹配到客服数据库里面的相关客户等级和服务。

 

所以数据脱敏主要的工作不是把数据藏起来,而是把数据弄得跟真的一样,还不能是真的。

 





我们为什么要做数据脱敏呢?(Why)


我说了,数据脱敏是数据库安全里的一个技术,主要是为了数据库安全。就像我们上面举的银行客户数据泄露的例子,如果核心数据库能做到完全不能对外访问,读取的都是脱敏的数据,那么这种敏感信息泄露的事情就不会发生。

 

当然以上的讲法是不现实的,毕竟生产系统还是要使用真实数据的,在很多情况下开发工程师或者运维工程师要做系统测试,做软件开发,都需要用到相关数据。直接把生产系统数据给开发人员,风险是非常大的,万一这个工程师对公司有怨念,或者对领导有想法,或者人品不好,就很容易把数据泄露出去,造成巨大的损失。

 

为了避免这个问题,我们在测试环境当中,就必须使用脱敏之后的数据,而不是真实的生产数据。尤其是对数据安全要求比较高的金融医疗等行业。比如根据支付卡行业数据安全标准(PCI-DSS),还有医疗行业的HIPAA标准和欧洲通用数据保护条例(GDPR),数据脱敏都是必不可少的。

 

随着云计算的快速发展,数据脱敏对更多的行业也越来越重要。如果我们的生产数据放在IaaS,PaaS或者SaaS上,数据必须要保证安全。随着DevOps流程的更加成熟,软件开发流程(SDLC)里也需要加上数据脱敏的内容。

 




那么数据脱敏有谁在玩呢?(Who)


按照Gartner的说法[1],数据脱敏可以分为静态数据脱敏(SDM),动态数据脱敏和非结构化/半结构化编校 (USR),分别用在静态数据,数据传输和日志数据等领域的安全,细细看来,在每个领域都有很多巨头玩家。像微软啊,IBM,Informatic,Oracle,博通啥的都在里面。

 




神州数码的TDMP牛在哪里?


不看不知道,一看吓一跳,玩法其实是站在巨人的肩膀上做点具体和本地化的工作。

 

正如我一开始说的,要把假的做成假的很容易,要把真的改成假的也很容易,但是要把真的改成假的,还得像真的,就很难了。

 

上面那些玩家都是牛哄哄的全球大公司,不过在中国这个市场,“安能辨我是雌雄”好像是个核心竞争力。

 

其次是和大厂一起搞。什么意思呢?Microsoft,Oracle这些公司做这个很多年了,技术上很专业,但是核心的规则和逻辑,在不同的行业却各有不同。我们能建立在他们的基础上,用核心的逻辑,更新他们的数据脱敏算法,从而达到效果更好,数据更真实,效率更高的优点。


此外,我们所有的代码都是自己一行一行打出来的,不是开源的复制过来改改,所以所有的代码可以挖到每一行的原理和逻辑。

 

当然吹牛谁都会,我说的别人也都能说。鉴于这事情我们干了将近十年,在各银行金融机构的实验田里秒杀了无数竞争对手,昨天又有了华为鲲鹏的认证,目测大概又能甩开竞争对手几百米。

 

当然,这事情还得不断跑下去,稍微歇一歇就会被人赶超,要创新,就是得不停锻炼身体不停跑。听张文宏医生的话,多喝牛奶多吃鸡蛋,打好基础长期在舒适区外奋斗,在这数据安全的路上小跑下去,保证自己以后“不会因为碌碌无为而悔恨,也不会因为虚度年华而羞耻。


注释:

  1. Gartner, “Market Guide for Data Masking”,25 November 2019 - ID G00369703



免责申明:

本公众号内容仅供参考,如需转载,请您注明出处和保持信息完整性。如有未注明作者及出处信息或图片,请版权所有者联系我们,我们将及时补上,感谢您的辛勤创作。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存