其他
隐私计算:数据匿名化的优点和缺点
什么是数据匿名化?
数据匿名化技术
数据屏蔽数据屏蔽涉及创建数据的一个虚假但结构相似的版本。通过修改技术来实现,如洗牌、简单的单词或字符替换、加密或屏蔽某些数据。例如,字母“R”可以通过替换屏蔽变成“L”,或者信用卡号可以被屏蔽为“**** **** **** **** 1126”。 伪匿名化伪匿名化是从数据集中删除标识符并替换为伪名称的过程。这种匿名化技术的主要目标是确保特定数据除非与另一组信息相结合,否则无法与可识别的个人匹配。伪匿名化数据的简单方法是用假名(伪名)替换个人的姓名。例如,如果用户在注册时提交姓名“Jane”,则主数据库可以简单地将其存储为“Person 2647”。将Person 2647与Jane的映射算法可以存储在另一个安全数据库中。 泛化泛化是删除数据的更具体方面以减少其可识别性的过程。这实际上就像缩小放大镜,隐藏了更精细的细节,但仍保持了用于分析的高准确性。例如,如果有一个数据集,其中包含每个人的年龄,可以使用类别进行泛化,如21到25和26到30。还可以通过删除房屋和街区号码而保留街道名称、城市或邮政编码来泛化地址。 数据交换数据交换是一种简单的匿名化方法,涉及将数据某一列中的属性与同一列中的其他属性进行交换。这意味着在此过程结束时将得到一个混洗的数据库,不会透露任何自然人的具体信息。
数据匿名化的优缺点
数据匿名化的优点
防止数据滥用根据2021年Verizon数据泄露调查报告,数据匿名化有助于防止授权访问敏感数据的用户无意中滥用或暴露数据。 易于实施匿名化主要使用简单的算法来交换、泛化、伪匿名化或屏蔽特定数据。这使得该过程成本效益高、快速且容易实施。 作为损害控制措施没有系统是100%防不胜防的,所以始终需要准备可能的渗透。但在这种情况下,数据匿名化可以帮助保护敏感数据,因为对攻击者来说,数据不会有太多意义。该过程还有助于在数据库泄露中减少数据损失。 符合法规欧洲联盟的GDPR要求在欧盟居民的数据必须进行伪匿名化/匿名化,数据不再被分类为个人数据,可以在不违反合规法规的情况下用于更广泛的目的。 提高业务绩效由于匿名化数据可以在不违反合规标准的情况下进行分析和使用,企业可以利用数据了解他们的用户并提供更好的服务。 保护业务和品牌声誉数据匿名化是组织保护敏感、个人和机密数据的重要任务的一部分。这些信息的丢失或泄露可能导致信任和市场份额的可能损失。
数据匿名化的缺点
分析不够准确减少存储和分析的数据细化程度会导致信息不够有意义和洞察不够准确。 不维护数据关系数据匿名化减少了数据的细化程度和准确性,因此在某些情况下破坏了数据点之间的关系。失去的关系对于任何人工智能或数据科学活动都至关重要,匿名化数据在可获得的效用方面受到限制。 仅适用于聚合数据数据匿名化仅在需要汇总数据的情况下有用,这些方法的目标是对数据集执行统计分析。该技术不能用于分析个体记录级数据,其中个人可识别的数据对分析非常重要。在其他情况下,比如在健康研究中,这意味着如果分析显示特定主体面临致命疾病的高风险,就无法识别出那个个体以通知他们发现并将这一重要信息传达给健康受到威胁的个人。数据匿名化还使数据无法用于定向优惠的个性化,因为连接洞察力与个人的能力已经被破坏。 隐私风险仍然存在大多数数据匿名化形式都可以通过获取外部数据集来逆向工程。例如,在伪匿名化的情况下,如果内部人员已经可以访问伪匿名化的数据,他们只需要访问伪匿名数据库就可以对整个数据集进行去匿名化。 无法在多个数据源之间链接数据在某些情况下,人们希望在多个数据库之间记录级别上链接数据,例如,将来自基因组数据库、临床数据库和可穿戴设备数据库的患者数据进行合并。或在金融科技场景中,将银行、电信公司和保险公司的个人数据进行链接。但在匿名化的情况下,这是不可能的,记录链接的关键就是这些技术消除的标识符。 在协作设置中无法控制数据使用匿名化技术不允许数据所有者对一旦匿名化并传输给第三方后如何使用数据有任何控制。一旦第三方收到匿名化数据,它可以以多种方式使用,包括重新识别数据,就像著名的Netflix数据去匿名化丑闻中发生的那样。
作者:Tova Dvorin原文:https://dualitytech.com/blog/data-anonymization-techniques-pros-and-cons/
热门文章: