查看原文
其他

什么是数据脱敏?

hotcan 热罐小角 2022-07-03

点击蓝字关注,一起探讨更好玩的IT世界


 

4月12号推特上有个叫@Bank Security的账号发了一条消息,说有人在卖中国的银行用户数据,包括80万条上海银行客户,46万条兴业银行信用卡客户,20.2万条上海理财VIP客户,10万条浦发银行客户,还有90万条农业银行客户的信息,只卖美元3999。包括姓名、年龄、地址、电话号码、身份证号、存款金额、所办业务等金融数据等等。

 

 



我果断去Twitter上看了一眼,果不其然。截图里的敏感信息已经被挡住了,不过Twitter上还都是明文,名字电话身份证都清清楚楚,还有什么CEO的公司,行业,业务情况,家庭住址什么的一应俱全。在示例里展出的银行客户会不会被吓出一身冷汗,反正我是细思极恐的。

 

昨天我们的TDMP数据脱敏系统在华为鲲鹏ARM服务器上拿到了认证,其实就是对ARM重新编译适配了一遍,改改配置搞搞兼容就差不多了。如果再仔细一点的话,可以在编译器上对ARM芯片和架构做点优化,这样效率会更好一点。我以前在Intel的很多同事有些在做在SSE指令集上进行编译优化的事情,大同小异。

 


 

今天我想聊的是这个TDMP数据脱敏系统到底是用来干啥的。数据脱敏是数据库安全技术的一种,英文是Data Masking(DM),直接过来翻译过来可以是数据屏蔽,英文里也可以用Data Obfuscation,数据混淆。但是不知道为什么翻译成中文就成了数据脱敏(Data Desensitization)。好吧,可能是为了混淆吧,一个蛮清楚的名字就这么被混淆了。不过没关系,我们继续用国内的“数据脱敏”这个名词来称呼他。




 什么是数据脱敏?(What)


数据脱敏是隐藏原始数据与修改的内容(字符或其他数据)的过程。对数据脱敏的原因主要是为了保护个人身份信息,敏感个人数据或者商业数据,也就是刚才我们在推特上看到的那些客户信息。

 

数据脱敏最大的要点,在隐藏了数据之后,数据必须要保持可用,而且看上去也要像真的一样,否则我们就直接把这些信息都改成ABCD就好了。


比如某个人叫张三,要把他改成李四。手机号码也要变成不存在的号码,但是还是得有11位,不能变成字母。身份证号和信用卡号也要符合规则,比如身份证特定几位必须是生日,信用卡的奇偶校验那一位必须是正确的,否则将会变成无效卡号等等。

 

上面这个还是简单的,数据脱敏还需要在各个级别上都让数据有意义,比如混淆地址,必须要保证是一个正确的地址,而且还要让邮政编码是正确的,这通常会跨数据库的多个字段。又比如某个人力资源系统里,一个员工的职位是工程师,那么这个职员关联到的另外一张工资表上的工资,不可以是一千万,否则就出了大笑话。还比如说某个呼叫中心的客户接到了银行的客户投诉,这个客户如果是一个VIP客户,就必须要匹配到客服数据库里面的相关客户等级和服务。

 

所以数据脱敏主要的工作不是把数据藏起来,而是把数据弄得跟真的一样,还不能是真的。

 





我们为什么要做数据脱敏呢?(Why)


我说了,数据脱敏是数据库安全里的一个技术,主要是为了数据库安全。就像我们上面举的银行客户数据泄露的例子,如果核心数据库能做到完全不能对外访问,读取的都是脱敏的数据,那么这种敏感信息泄露的事情就不会发生。

 

当然以上的讲法是不现实的,毕竟生产系统还是要使用真实数据的,在很多情况下开发工程师或者运维工程师要做系统测试,做软件开发,都需要用到相关数据。直接把生产系统数据给开发人员,风险是非常大的,万一这个工程师对公司有怨念,或者对领导有想法,或者人品不好,就很容易把数据泄露出去,造成巨大的损失。今年2月微盟系统被运维工程师删数据库的事情还记忆犹新。所以啊,虽然码农都是那个背锅的,但是千万不要得罪码农,随便在代码上做点手脚,就能让公司吃不了兜着走了。

 

为了避免这个问题,我们在测试环境当中,就必须使用脱敏之后的数据,而不是真是的生产数据。尤其是对数据安全要求比较高的金融医疗等行业。比如根据支付卡行业数据安全标准(PCI-DSS),还有医疗行业的HIPAA标准和欧洲通用数据保护条例(GDPR),数据脱敏都是必不可少的。

 

随着云计算的快速发展,数据脱敏对更多的行业也越来越重要。如果我们的生产数据放在IaaS,PaaS或者SaaS上,数据必须要保证安全。随着DevOps流程的更加成熟,软件开发流程(SDLC)里也需要加上数据脱敏的内容。

 




那么数据脱敏有谁在玩呢?(Who)


按照Gartner的说法[1],数据脱敏可以分为静态数据脱敏(SDM),动态数据脱敏和非结构化/半结构化编校 (USR),分别用在静态数据,数据传输和日志数据等领域的安全,细细看来,在每个领域都有很多巨头玩家。像微软啊,IBM,Informatic,Oracle,博通啥的都在里面。

 




我们的TDMP牛在哪里?


好吧,他们都那么牛,你这么个搬砖头的公司能做出什么东西来?不看不知道,一看吓一跳,我们的玩法其实是站在巨人的肩膀上做点具体和本地化的工作。

 

正如我一开始说的,要把假的做成假的很容易,要把真的改成假的也很容易,但是要把真的改成假的,还得像真的,就很难了。

 

上面那些玩家都是牛哄哄的全球大公司,不过在中国这个市场,“安能辨我是雌雄”好像是个核心竞争力。我们玩真真假假的套路已经好几千年了,作假像真的水平我敢说也远远领先于那些全球厂商。

 

其次我们其实是帮着大厂一起搞。什么意思呢?Microsoft,Oracle这些公司做这个很多年了,技术上很专业,但是核心的规则和逻辑,在不同的行业却各有不同。我们能建立在他们的基础上,用核心的逻辑,更新他们的数据脱敏算法,从而达到效果更好,数据更真实,效率更高的优点。


此外,我们所有的代码都是自己一行一行打出来的,不是开源的复制过来改改,所以所有的代码可以挖到每一行的原理和逻辑。

 

当然吹牛谁都会,我说的别人也都能说。鉴于这事情我们干了将近十年,在各银行金融机构的实验田里秒杀了无数竞争对手,昨天又有了华为鲲鹏的认证,目测大概又能甩开竞争对手几百米。

 

当然,这事情还得不断跑下去,稍微歇一歇就会被人赶超,要创新,就是得不停锻炼身体不停跑。听张文宏医生的话,多喝牛奶多吃鸡蛋,打好基础长期在舒适区外奋斗,在这数据安全的路上小跑下去,保证自己以后“不会因为碌碌无为而悔恨,也不会因为虚度年华而羞耻。


关于TDMP数据脱敏系统,欢迎大家随时留言索取更多详细资料。


注释:

  1. Gartner, “Market Guide for Data Masking”,25 November 2019 - ID G00369703



END


曾今,伏案只识技术世界

而后,抬头遍历创业之艰

现如今

不惑之年

以创业者眼光,再探技术世界

长按二维码关注,一起窥探云上世界

🔻


关于作者

Hotcan,80后技术老炮儿

云计算和数字化技术的创业者

创业公司被收购之后,负责云和数字化转型业务




历史文章





免责申明:

本公众号不以盈利为目的,内容仅供参考,我们对发布的信息不作任何保证和承诺。如需转载,请您注明出处和保持信息完整性。如有未注明作者及出处信息或图片,请版权所有者联系我们,我们将及时补上,感谢您的辛勤创作。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存