隐私计算：数据匿名化的优点和缺点

Original Tova Dvorin 开放隐私计算

2024-09-16

数据分析是如今商业社会业务运营的核心工具，节省成本的同时还可以深入了解用户偏好，通过定制产品来收获最大化收益。然而，企业持有的大量数据是用户的私有数据，可能会危及用户的隐私安全。因此全球范围内已经制定实施了一些相关法律法规，例如《通用数据保护条例》（GDPR）、1996年的《健康保险可移植性和责任法案》（HIPAA）和《加州消费者隐私法》（CCPA）。

在保护数据隐私的各类方法中，数据匿名化是经常采用的一种方法，可以在不损害用户隐私和安全的情况下使用其持有的信息。本文将探讨数据匿名化这种方法的缺点和优势。

什么是数据匿名化？

数据匿名化是一种去除或哈希化与个体相关联的各种数据点的过程。这个过程使组织能够存储和交换用户数据，可以用于分析、可视化或与第三方分享，同时不会暴露数据与特定个人的任何联系。

数据匿名化通常会尽量保留更多的数据，匿名化的数据往往与原始数据集相似，但粒度较低。例如，如果收集完整的出生日期（月/日/年），可以通过隐藏月份和日期，只保留年份来进行匿名化，从而不暴露个人可识别信息（PII）。

数据匿名化技术

以下是如今常用的一些数据匿名化技术。

数据屏蔽数据屏蔽涉及创建数据的一个虚假但结构相似的版本。通过修改技术来实现，如洗牌、简单的单词或字符替换、加密或屏蔽某些数据。例如，字母“R”可以通过替换屏蔽变成“L”，或者信用卡号可以被屏蔽为“**** **** **** **** 1126”。
伪匿名化伪匿名化是从数据集中删除标识符并替换为伪名称的过程。这种匿名化技术的主要目标是确保特定数据除非与另一组信息相结合，否则无法与可识别的个人匹配。伪匿名化数据的简单方法是用假名（伪名）替换个人的姓名。例如，如果用户在注册时提交姓名“Jane”，则主数据库可以简单地将其存储为“Person 2647”。将Person 2647与Jane的映射算法可以存储在另一个安全数据库中。
泛化泛化是删除数据的更具体方面以减少其可识别性的过程。这实际上就像缩小放大镜，隐藏了更精细的细节，但仍保持了用于分析的高准确性。例如，如果有一个数据集，其中包含每个人的年龄，可以使用类别进行泛化，如21到25和26到30。还可以通过删除房屋和街区号码而保留街道名称、城市或邮政编码来泛化地址。
数据交换数据交换是一种简单的匿名化方法，涉及将数据某一列中的属性与同一列中的其他属性进行交换。这意味着在此过程结束时将得到一个混洗的数据库，不会透露任何自然人的具体信息。

假设有如下数据库：

数据可以如下所示交换以匿名：

数据匿名化的优缺点

数据匿名化的优点

防止数据滥用根据2021年Verizon数据泄露调查报告，数据匿名化有助于防止授权访问敏感数据的用户无意中滥用或暴露数据。
易于实施匿名化主要使用简单的算法来交换、泛化、伪匿名化或屏蔽特定数据。这使得该过程成本效益高、快速且容易实施。
作为损害控制措施没有系统是100%防不胜防的，所以始终需要准备可能的渗透。但在这种情况下，数据匿名化可以帮助保护敏感数据，因为对攻击者来说，数据不会有太多意义。该过程还有助于在数据库泄露中减少数据损失。
符合法规欧洲联盟的GDPR要求在欧盟居民的数据必须进行伪匿名化/匿名化，数据不再被分类为个人数据，可以在不违反合规法规的情况下用于更广泛的目的。
提高业务绩效由于匿名化数据可以在不违反合规标准的情况下进行分析和使用，企业可以利用数据了解他们的用户并提供更好的服务。
保护业务和品牌声誉数据匿名化是组织保护敏感、个人和机密数据的重要任务的一部分。这些信息的丢失或泄露可能导致信任和市场份额的可能损失。

数据匿名化的缺点

分析不够准确减少存储和分析的数据细化程度会导致信息不够有意义和洞察不够准确。
不维护数据关系数据匿名化减少了数据的细化程度和准确性，因此在某些情况下破坏了数据点之间的关系。失去的关系对于任何人工智能或数据科学活动都至关重要，匿名化数据在可获得的效用方面受到限制。
仅适用于聚合数据数据匿名化仅在需要汇总数据的情况下有用，这些方法的目标是对数据集执行统计分析。该技术不能用于分析个体记录级数据，其中个人可识别的数据对分析非常重要。在其他情况下，比如在健康研究中，这意味着如果分析显示特定主体面临致命疾病的高风险，就无法识别出那个个体以通知他们发现并将这一重要信息传达给健康受到威胁的个人。数据匿名化还使数据无法用于定向优惠的个性化，因为连接洞察力与个人的能力已经被破坏。
隐私风险仍然存在大多数数据匿名化形式都可以通过获取外部数据集来逆向工程。例如，在伪匿名化的情况下，如果内部人员已经可以访问伪匿名化的数据，他们只需要访问伪匿名数据库就可以对整个数据集进行去匿名化。
无法在多个数据源之间链接数据在某些情况下，人们希望在多个数据库之间记录级别上链接数据，例如，将来自基因组数据库、临床数据库和可穿戴设备数据库的患者数据进行合并。或在金融科技场景中，将银行、电信公司和保险公司的个人数据进行链接。但在匿名化的情况下，这是不可能的，记录链接的关键就是这些技术消除的标识符。
在协作设置中无法控制数据使用匿名化技术不允许数据所有者对一旦匿名化并传输给第三方后如何使用数据有任何控制。一旦第三方收到匿名化数据，它可以以多种方式使用，包括重新识别数据，就像著名的Netflix数据去匿名化丑闻中发生的那样。

总结而言，数据匿名化的主要优点是在对聚合或个体数据进行分析时，它是一种简单、廉价的保护隐私的方式。然而，在大多数情况下，缺点远远超过了优点。数据匿名化产生的结果不够准确，不允许数据链接。它也不够安全，容易实现重新识别。此外，它也不允许对数据和模型的使用进行任何控制，也不能保护数据和模型的知识产权。然而，也许数据匿名化最具挑战性的方面是当人们想要与第三方合作时。匿名化后，无法在多个数据库之间链接数据。同样，在汇总匿名化数据的情况下，无法删除重复数据并创建有偏差的数据集。

数据匿名化技术被许多数据隐私法规明确要求或接受，但这并不意味着它们是安全的，这实际上取决于所希望获得的分析和效用类型。隐私增强工具和技术的选择需要根据具体情况进行考虑，但应谨慎使用数据匿名化，因为它已被证明很容易被破坏。寻求从数据中获取更多价值的数据驱动型企业需要一个综合性的隐私保护数据协作平台，该平台允许根据组织和数据源的需要灵活选择和组合多个隐私增强技术（PETs）。