数据安全 | 大数据时代,如何有效预防数据泄露?
大数据有两种形式:
结构化格式,包含数字、日期等的行和列组织。 非结构化格式,包含社交媒体数据、PDF 文件、电子邮件、图像等。 据估计,目前高达90%的大数据都是非结构化格式。
保障大数据安全需要考虑3个节点:
在执行数据传输过程中,将数据从源位置移动进行存储或实时提取(通常在云端)。 保护大数据通道存储层中的数据(如 Hadoop 分布式文件系统) 确保输出数据(如报告和仪表盘)的保密性,这些数据包含通过Apache Spark等分析引擎运行时收集到的。
使用最初设计时并未考虑安全性的开源框架(如 Hadoop); 依赖分布式计算来处理数据集,这意味着有更多系统可能出现问题; 确保从端点收集的日志或事件数据的有效性和真实性; 控制内部人员对数据挖掘工具的访问并监控可疑行为; 难以运行标准安全审计; 保护非关系NoSQL 数据库。
静态数据和传输数据的可扩展加密对于跨大数据管道实施至关重要。可扩展性是这里的关键点,除了NoSQL之类的存储格式外,还需要跨分析工具集及其输出加密数据。加密的威力在于,即使威胁者设法拦截数据包或访问敏感文件,实施良好的加密过程会使数据无法读取。
获得访问控制权可以针对一系列大数据安全问题提供强大的保护,如内部威胁和过度特权。基于角色访问可以控制对大数据管道多层访问,比如,数据分析师可以访问 R 等分析工具,但他们不可以访问大数据开发人员使用的工具,例如 ETL 软件。最小权限原则是访问控制的一个很好的参考点,它将访问权限限制为仅访问执行用户任务所必需的工具和数据。
大数据工作负载所需的固有大存储量和处理能力,使大多数企业可以将云计算基础架构和服务用于大数据。尽管云计算很强大,但是暴露的 API 密钥、令牌和错误配置也是云计算中值得关注的风险。如果有人将 S3 中的AWS数据湖完全开放,并可供互联网上的任何人访问怎么办?通过自动扫描工具快速扫描公共云资产,以查找安全盲点,从而更容易降低风险。
在复杂的大数据生态系统中,加密的安全性需要一种集中的密钥管理方法,以确保对加密密钥进行有效的策略驱动处理。集中式密钥管理还保持了对从创建到密钥轮换的密钥治理的控制。对于在云中运行大数据工作负载的企业,自带密钥 (BYOK) 可能是实现集中密钥管理的最佳选择,无需将加密密钥创建和管理的控制权移交给第三方云提供商。
在大数据管道中,数据接收来源很多,且有恒定流量,其中包括来自社交媒体平台的数据和来自用户端点的数据。网络流量分析,提供了对网络流量和任何潜在异常的可见性,例如来自物联网设备的恶意数据或正在使用的未加密通信协议。
在大数据的背景下,内部威胁对公司信息的机密性构成挑战。有权访问分析报告和仪表盘的恶意内部人员可能会向竞争对手泄露信息,甚至提供登录凭据进行销售。内部威胁检测,就是检查常见业务应用程序的日志,例如 RDP、VPN、Active Directory 和端点。这些日志可以揭示值得调查的异常情况,例如意外的数据下载或异常的登录时间。
威胁搜寻,是主动搜索潜伏在网络中未被发现的威胁。这个过程需要经验丰富的网络安全分析师,利用来自现实世界的攻击、威胁活动的情报或来自不同安全工具的相关发现,制定关于潜在威胁的假设。大数据实际上可以通过发现大量安全数据中隐藏的表现来改进威胁追踪工作。作为提高大数据安全性的方法,威胁搜寻同时也会监控数据集和基础设施,搜寻受到威胁的工件。
监控大数据日志和工具时会产生大量信息,而这些信息通常会出现在安全信息和事件管理 (SIEM) 解决方案中。由于产生太多的信息,容易导致SIEM 解决方案出现误报,使分析师接收到过多的警报。所以在理想状态下,某种事件响应工具应该是可以为安全威胁提供上下文,从而实现更快、更有效的事件调查。
需要特别注意的是,未经授权的数据传输的风险,因为一旦发生数据泄露且是在可复制大量潜在敏感资产的大数据管道中,就给了犯罪分子可乘之机。检测数据泄露需要对出站流量、IP 地址和流量数据进行深入监控。防止数据泄露应密切关注来自代码和错误配置中发现有害安全错误的工具,以及数据丢失预防和下一代防火墙。同时也应该注重对员工进行相关数据安全的教育和意识提升。
参考资料:
https://securityboulevard.com/2022/06/10-essentials-for-big-data-security/
来源:安胜
热文
【媒体报道】“双碳”背景下城市如何可持续发展?国投智慧城市创新研究院专家这么说热文
展“智慧应急”,览“科技成果”,7月14日美亚柏科在第三届厦门应急展等你!热文
号外号外!2022“网信柏鹭杯”开始报名啦!热文
滕达:初心不改助数字腾飞,侨海报国达强国愿景