查看原文
其他

大数据智能下数据脱敏的思考

The following article is from 科技导报 Author 王红凯,刘勇等


 电话:010-58330898 手机:18501361766

微信:tech99999 邮箱:qianyanjun@techxcope.com



来源:科技导报

作者:王红凯,龚小刚,叶卫,陈超,马新强,姚进强,刘勇



大数据时代下,海量数据中蕴藏的价值得以挖掘,但也带来隐私信息与关键性敏感数据保护方面的困难。数据脱敏技术是解决这一问题的重要手段之一。传统的脱敏方法人工干预大,配置成本高,对用户的专业素养要求高。

为解决这一问题,如果将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力相结合,则无需过多人工干预,会显著加强数据脱敏系统的可靠性和易用性,在保证安全性的同时,实现易学习、免配置、自动脱敏和自适应脱敏算法等功能。

相关概念及内涵


数据脱敏是在保存数据原始特征的同时改变其数值,从而保护敏感数据免于未经授权而被访问,同时又可以进行相关的数据处理,可以在保留数据意义和有效性的同时保持数据的安全性,并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用,并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。

传统的数据脱敏工作流程,一般如图所示

传统数据脱敏系统工作流程


传统数据脱敏系统的敏感数据发现和关联关系识别,一般都是通过人工配置和正则表达式匹配来实现的。

规则式脱敏系统示意


其识别准确程度主要取决于正则表达式的规则设置是否精准合理。然而性能与准确性不可兼得:正则匹配规则越简单,系统性能越好,识别率相对较差;而复杂的正则规则下提升了识别率,但系统性能却有所下降,对人工配置的经验和技术要求较高,一般业务人员难以胜任。

大数据时代下的数据脱敏系统机制


大数据时代下的数据脱敏系统设计提供多种预置算法库,包括映射、随机、散列和加密四大类,每一大类中都包含若干算法。系统可以根据用户的业务需求,灵活搭配,使针对敏感数据的脱敏能够满足数据原始属性、可重复性、可逆性、关联性、可追踪性以及准确性要求。其一般原型工作流程逻辑如图所示。

数据脱敏系统工作逻辑流程图


系统实施步骤可以分解为:

(1)收集用户当前业务系统需求进行数据模型分析,建立系统原型及使用环境;

(2)对用户当前业务系统数据进行智能数据分析,通过机器自学习识别出当前业务系统敏感数据,进行自动聚类,提出敏感数据分类分级规则方案;

(3)对智能发现的敏感数据进行关联关系分析以及数据变形规则分析,同时对系统进行分析;

(4)根据第3步的分析,对用户权限、脱敏规则、脱敏数据表、脱敏函数、脱敏数据关联关系及脱敏流程进行配置,导入到系统原型;

(5)对敏感数据进行数据的变形工作,包括脱敏函数库的自定义、扩展及丰富;

(6)进行脱敏数据的分发,包括数据加载到其他库、 数据加载到本地库、 数据在线脱敏使用;

(7)通过脱敏后的结果对系统原型支撑技术进行验证。


大数据智能化背景下的数据脱敏技术分析


基于人工智能的敏感数据自动分类和识别、机器学习的数据关联关系识别和保持、用户使用模型学习的智能自适应脱敏算法等三个角度,本文对大数据背景下的数据脱敏进行了技术分析。

典型案例实验分析



文章以一个典型的运营商应用业务场景中的数据脱敏作为案例进行了实验分析。该案例采用智能自适应脱敏算法在海量运营商用户中随机抽取36万个用户的静态属性表、套餐开通数据表、Top10APP使用数据表,月流量语音使用数据表总共 31列的属性中进行智能自适应脱敏。

讨论


文章指出随着目前大数据与人工智能的飞速发展,数据脱敏将面临诸多挑战:


如何将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力有机结合;

如何利用大数据智能分析及人工智能建模算法从传统的静态脱敏方式到自适应的动态脱敏模式转变,有效满足多模态数据交互流量的不断增长和复杂多变的安全处理业务场景需求,例如在电力、运营商这种关乎国计民生的行业的应用;

如何应对大数据智能化场景下用户信息透明导致的数据所有权及使用权的伦理问题,仅仅依赖智能化的技术是否能使数据脱敏评价机制的可靠性、敏感数据准确识别方法多样性及数据治理体系的全面性达到预期目标。

结论


最后,文章从技术、需求和法治、管理机制方面提出了数据脱敏的3点思考和建议:

  • 辩证地认识数据脱敏安全问题;

  • 多媒体数据的隐私保护与脱敏会成为未来数据脱敏领域的重点方向;

  • 数据脱敏问题还需要与法律法规、管理机制等层面进行联动。


全文详见《大数据智能下数据脱敏的思考》,论文发表在《科技导报》2020年第3期。


一网打尽系列文章,请回复以下关键词查看:
创新发展习近平 | 创新中国 | 创新创业 | 科技体制改革 | 科技创新政策 | 协同创新 | 科研管理 | 成果转化 | 新科技革命 | 基础研究 | 产学研 | 供给侧
热点专题军民融合 | 民参军 | 工业4.0 | 商业航天 | 智库 | 国家重点研发计划 | 基金 | 装备采办 | 博士 | 摩尔定律 | 诺贝尔奖 | 国家实验室 | 国防工业 | 十三五 创新教育 军工百强 试验鉴定 | 影响因子 | 双一流 | 净评估
预见未来预见2016 |预见2020  | 预见2025预见2030  | 预见2035 预见2045  | 预见2050
前沿科技颠覆性技术 | 生物 仿生 | 脑科学 | 精准医学 | 基因 |  基因编辑 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 太赫兹 | 云计算 | 物联网 互联网+ 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 不依赖GPS导航 | 通信 5G | MIT技术评论 | 航空发动机 | 可穿戴 氮化镓 | 隐身 | 半导体 | 脑机接口 | 传感器
先进武器中国武器 | 无人机 | 轰炸机 预警机 | 运输机 | 直升机 战斗机 | 六代机 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 反无人机 | 防空反导 潜航器
未来战争未来战争 | 抵消战略 | 水下战 | 网络空间战 | 分布式杀伤 | 无人机蜂群 | 太空战 反卫星
领先国家美国 | 俄罗斯 | 英国 | 德国 | 法国 | 日本 以色列 | 印度
前沿机构战略能力办公室 | DARPA 快响小组 | Gartner | 硅谷 | 谷歌 | 华为 阿里 | 俄先期研究基金会 | 军工百强
前沿人物钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云 | 奥巴马 | 特朗普
专家专栏黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 易本胜 李德毅 | 游光荣 | 刘亚威 | 赵文银 | 廖孟豪 | 谭铁牛 | 于川信 | 邬贺铨
全文收录2017文章全收录 | 2016文章全收录 | 2015文章全收录 | 2014文章全收录
其他主题系列陆续整理中,敬请期待…… 



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存