编者按
合成数据是指通过人工或机器算法生成的数据,其应用范围广泛,包括计算机视觉、自然语言处理、语音识别等领域。在训练 AI 模型时,开发人员通常需要大量、准确标记的数据集。然而,收集和标记这些具有数千甚至数百万个对象的大型数据集可能非常耗时且昂贵。相比之下,合成数据可以显著降低生成训练数据的成本,更重要的是可以生成罕见场景,对模型的训练至关重要。 本文是对Michal S Gal 与 Orla Lynskey论文《合成数据:数据生成革命的法律影响》(Synthetic Data: Legal Implications of the Data-Generation Revolution)第五章“对数据隐私的影响”(EFFECTS ON DATA PRIVACY)的编译,为方便阅读,对脚注与内容进行了删减。 数治君此前发布的系列文章如下,可点击查看: 数据与人工智能(一) : 合成数据的特点及其应用 数据与人工智能(二):合成数据市场实践
隐私法规管辖个人信息的处理,试图在各种利益之间之间取得社会福利增强的平衡,包括基本人权和数据效用,这两者都可能使数据持有者、个人和整个社会受益。本节将确定合成数据对这种平衡的影响,并研究将现有隐私法律应用于这种数据所面临的挑战。技术变革,已经打断了隐私法促进的利益校准。合成数据进一步破坏了这种平衡。此外,合成数据的视角揭示了许多存在于我们当前的隐私损害法律概念中的问题。
合成数据可以潜在地促进数据安全、数据最小化和数据质量等原则。 合成数据为个人数据提供了额外的安全层。由于合成数据是按需生成的,通常具有特定用途,因此它减少了数据持有者收集过多数据的动机。最后,通过增加收集到的数据不可用的数据集,合成数据可以促进数据准确性。鉴于这些优点,数据隐私监管机构已经建议在某些情况下使用合成数据代替收集到的数据。
一些计算机科学家认为,在某些情况下,合成数据相对于其他增强隐私技术可以改善隐私-效用权衡 。效用要求在数据集中保留不同特征之间的关系和每个特征的值分布。最佳平衡将保护隐私,同时也允许对数据进行分析以实现社会价值。例如,在医疗背景下,应该能够处理患者信息以保护隐私,同时仍然使提供者挖掘数据以了解疾病和新治疗方法的见解成为可能。许多现有技术降低了数据的准确性和效用。一些计算机科学家声称,合成数据可以显著重新校准这种反向关系,通过“保持大部分有价值信息和原始数据的统计完整性,同时降低重新识别风险”。因此,它可能作为收集到的数据的相对准确的代理,但具有较低的隐私风险。
但是,当收集的数据用于生成合成数据集时,总会存在某种风险,即模型本身或数据集可能会间接泄漏一些原始个人数据 。值得注意的是,试图保留收集数据的所有统计属性的合成数据也保留了在异常情况下将数据与特定人员联系起来的风险。因此,虽然合成数据可能会显著降低重新识别风险,但并不总是某些人所建议的隐私-效用权衡的改变者。 更根本地,即使个人和受保护的个人数据之间不存在直接联系,合成数据也可能会造成隐私危害。在水平数据关系的背景下,这种直接联系在大多数隐私法律中都是必需的。 因此,合成数据强调了现有挑战,即数据隐私法律的有效性:其一:在教义上,合成数据是否被隐私法律所涵盖;其二:从规范的角度来看,在广泛使用合成数据的世界中,现有的法律是否足以保护隐私免受侵害,同时又不会对数据流动造成不必要的伤害 。
合成数据是否被隐私法律所涵盖?匿名数据在全球范围内逃避了数据隐私框架的适用。这产生了一些观点,即合成数据是匿名数据,因此不在隐私法律的适用范围之内。 这种说法应该被拒绝。与其他匿名化技术一样,确定合成数据是否侵犯数据隐私法律需要根据现有法律标准进行特定上下文的评估。合成数据是否被隐私法律所涵盖需要首先 考虑它是否在隐私法律的实质范围内,其次 考虑它是否可以通过以符合法律要求的方式去标识化而被带到这个法律框架之外。许多隐私法律的关注重点和它们定义“可识别个人信息”的方式都意味着即使将其应用于收集的数据,其适用范围也可能受到限制。为了说明这一点,我们首先简要介绍了定义数据隐私法律适用范围的关键术语。然后,我们将此分析应用于两种类型的合成数据。在两种情况下,我们都将分析合成数据是否在隐私法律适用范围内。 美国没有单一的隐私法律,意味着没有定义其适用性的统一概念。最接近的等效物是可识别个人信息,这个概念定义了许多联邦和州隐私法规的范围和界限。 2018年加利福尼亚消费者隐私法案(CCPA)(2021年修订)以开放式方式定义个人信息,即“能够与特定消费者或家庭直接或间接关联或合理关联的信息”。 现在将这些法律应用于我们的第一个案例,使用有关个人的收集数据作为输入之一在数据生成器或比较器中生成合成数据 ,以提高所得到的合成数据集的质量。在这种情况下生成的合成数据是否受到隐私法的保护取决于哪种可识别个人信息定义适用。 乍一看,CCPA对可识别个人信息的定义最有可能将这种合成数据纳入其范围。同时,CCPA排除了去标识化数据的适用。去标识化数据被定义为不能合理地与特定消费者联系起来的信息,前提是企业已经实施了技术和组织保障措施以防止重新识别。因此,关键是合成数据是否可以合理地与特定个人或家庭联系起来。修正案澄清了这种联系存在的情况,即当人们可以从数据中推断出有关某个消费者或家庭的信息时。 技术文献表明,如果使用收集的数据生成合成数据,则仍然存在一种风险,即可以通过推断或将合成数据与其他数据集链接来将其链接回个人。然而,问题在于要投入多少时间和精力才被认为是合理的以防止重新识别 。这是一个法律和政策问题,必须由法院和立法者来确定。除了这个合理性要求之外,CCPA现在还要求组织保障措施,例如公开承诺不逆转去标识化过程,除非有必要验证去标识化。因此,使用个人收集的数据生成的合成数据集仍然可能属于CCPA的范围。 其他法定可识别个人信息定义对于第一种合成数据的的适用甚至更加值得怀疑(假设数据没有被充分去标识化)。《儿童在线隐私保护法》(以下简称“COPPA”)将“个人信息”定义为“在线收集的有关个人的可识别信息”。它提供的一系列示例表明,COPPA不太可能适用到我们第一种合成数据。 采用“具体”方法的其他法律也不太可能涵盖使用收集的数据生成的合成数据。1996年《健康保险便携性和责任法》(以下简称“HIPAA”)规定,只要从数据集中删除了十七个指定的标识符,就为共享受保护的健康信息提供了一个安全港。如果整个数据集都被人工生成的数据替换,那么合成数据不太可能包含这些真实标识符。 对于第一种合成数据,使用同义反复定义可识别个人信息的方法也可能不适用 。这可以通过《视频隐私保护法》(以下简称“VPPA”)来说明。它将可识别个人信息定义为包括“识别一个人已经从录像带服务提供商请求或获得了特定视频材料或服务的信息”。这个定义被狭义地解释为排除了那些可识别而不是已经被识别的个体 。在Hulu隐私诉讼中,Hulu向Facebook提供Hulu用户观看的内容的URL地址,尽管Facebook可以将这些信息与其已经掌握的关于其用户的信息联系起来以识别他们,但法院认为,由于Hulu没有实际知道Facebook将根据披露的数据识别个人,因此没有披露可识别个人信息。在缺乏这种实际知识的情况下,这种解释使合成数据提供者能够假定这样的数据不构成可识别个人信息。 第三类隐私法律,如格兰姆-利奇-布莱利法案(以下简称“GLBA”),将公开可用信息从可识别个人信息的定义中排除(“非公开类别”)。因此,金融机构从公开可用网站上抓取的有关个人的数据,随后使用,不构成可识别个人信息。 可以看出,像CCPA这样的新一代隐私法律比早期隐私法律更加灵活和适应技术变革。相比之下,更具体的行业隐私法律在包容性不足和未能捕捉相关隐私风险以及在不考虑这种风险的情况下过于包容方面存在问题。 现在让我们将法律定义应用于第二种类型的合成数据:通过使用假设来复制收集到的数据。在这里,隐私法律的应用甚至更加值得怀疑。在上述讨论的法律中,只有CCPA和美国《数据隐私和保护法案》在其当前格式下可能适用于此类数据。 为了证明这一点,将个人数据与个人接近的程度相联系:
该文提到了五个不同类别的数据,根据与个人的相关性排列顺序 。首先是最接近个人的数据,其次是需要额外努力才能识别个人的数据。接下来的三个类别都是基于推断创建的关于自然人的信息,分别从特定个人的合成数据、第三方合成数据以及适用于一组人的合成数据集中推断出有关个人的信息 。最后一个类别细分为两种情况,分别是基于有效去识别化数据集对个人进行推断和基于模型生成的数据集对个人进行推断。在所有这些情况中,推断都能够联系到某些已知事实与个人相关。 现有法律主要关注从个人数据中获得的推论是否构成个人数据,如CCPA等规定消费者有权了解企业收集的有关他们的特定个人信息。因此,在回应知情请求时,如果推断属于使用于创建消费者档案的推断类型,它就必须被披露。最后,文章还指出由于标识符列表只是指示性列表,因此仍然可以通过广泛信息的推论来推断出个人信息。 在CCPA中,公认的“已识别或可识别”的个人可以是任何受到数据驱动推断影响的个人,这与欧盟的解释有所不同。即使完全基于人工数据生成关于个人的推断也可能仍然受到法律约束,这表明条例对隐私保护十分重视。虽然推断应该源自CCPA中列出的个人信息示例列表,但是“推断”一词被广泛定义为从事实、证据或其他信息或数据源中推导信息、数据、假设或结论。 当然,这种解释的挑战在于,它可能将隐私法的范围扩大得太广 。此外,它可能会引发第一修正案的挑战。第一修正案被解释为保护各方之间的言论,而推断构成这样的言论。特别是,私人商业行为者(可能包括进行推断的公司)的言论历来被视为受到保护的言论。各州在多大程度上可以限制数字平台的言论自由权利目前存在分歧。 上述 分析说明了任何关于数据隐私法不适用于合成数据的主张都必须被拒绝。同时,基于规则的可识别个人信息概念在很大程度上未能纳入合成数据。基于原则的方 法,如CCPA和COPPA,为适用合成数据提供了更大的空间,但很大程度上取决于它们将如何被解释。 上述分析提出了一些基本问题,即我们试图通过信息隐私法保护什么,以及我们的方法是否符合目的。在本节中,我们探讨了三个主要的规范挑战:对信息类别的关注;捕捉数据对他人的溢出效应的能力有限;和集体数据危害 。虽然此类挑战并非合成数据所独有,但合成数据的兴起将这些紧张局势和挑战推向了聚光灯下,并可能加剧它们。因此,合成数据会影响隐私法所依据的隐私和数据效用之间的平衡。
常见的传输原则(如同意和匿名化)可能不足以在合成数据时保护隐私。实际上,如果合成数据可以在不需要直接使用收集到的数据来生成它的情况下保留数据集的效用,那么这可能会绕过而不是促进现有隐私规则的目标。
数据分类带来的挑战
隐私法律保护敏感数据、非公共数据或特定类型的数据,这种方法未能捕捉到可能受到危害的所有数据类型。同时,去标识化的边界模糊没有得到充分考虑,研究表明对个人身份信息进行预测已经是可能的。而这一风险将会随着更多收集到的数据和基于这些数据的合成数据集的可用性而增加。因此,云存储在大幅降低数据存储成本的同时,可以进一步放大这一潜在风险。 传统基于类别的信息隐私保护方法存在局限性,可能的替代方案为专注于最终合成数据集。然而,这种方法存在两个主要障碍,一是需要全面改革现有的法定工具,二是重新识别风险可能会随着数据集生成器无法确定的条件而变化,并且英国数据保护监管机构认为几乎不可能预测重新识别风险 。同时,将可识别数据转化为已识别信息并不容易实现,因为可识别性概率随时间变化的事实加强了这个命题。因此,为了保护数据隐私,需要平衡检测概率、成本和财务风险、使用时可观察到的伤害水平和社会效益等多方面的因素。 现在面临两个挑战:如何保护个人数据以及数据处理对权力的动态影响 。数据隐私法通常强调处理信息的个人性质而不是可能从数据处理中产生的危害性质,并且是建立在通过保护可识别个人信息来保护每个个体隐私权的假设上的。合成数据的出现挑战了这一假设,需要重新评估所处理数据与个体之间联系的性质。因此,应该对所处理数据的性质进行重新评估。合成数据能够通过溢出效应推论学习他人的数据并加强集体数据危害。 合成数据增加了溢出数据隐私危害,并进一步挑战了现有关于数据来源的假设,这些危害是由于数据分析中的外部性造成的 。个人提供或观察到的数据可能会使得关于其他人的数据积累起来,从而剥夺了个体单独保护隐私权的权力。机器学习促进了一种推论经济,这种经济使得保护 方法超出了其承受能力,使用数据和进行概率预测的路径当前受到不充分处理。因此,需要更多工作来发展新的隐私保护方法。 此外,即使合成数据集对每个个体的信息进行了匿名化处理,但使算法能够了解群体的信息,一旦算法可以将个体与群体联系起来,它就可以对她的偏好进行知情推断。这引出了一个问题,即可识别性的概念是否足以防止对个人造成伤害,以及它是否能够捕捉到合成数据可能基于的链接或推断。这也进一步质疑了个人对自己隐私的控制的效用。因此,立法者和法院面临着一个困境:更广泛地定义或解释数据隐私法律的范围,或者看到一些数据隐私法律所促进的价值被合成数据处理所削弱。 合成数据也增加了集体数据危害。当数据分析导致可能影响一组个体(例如,一个城镇或一个国家的居民)的决策时,这些危害就会产生。一个众所周知的例子为Facebook / Cambridge Analytics惨败。累积的数据可能潜在地导致影响政治制度的操纵,从而间接影响了一组个体(所有美国公民)。合成数据的兴起凸显了这样一个事实,即即使可以增加数据集的匿名化,隐私危害也可能增加,因为现在可能有更多的非个人数据可供使用。 因此,合成数据以重大方式挑战了现有数据隐私法律的有效性,并质疑了它们的基本原理:无论其目标是保护个人的数据还是保护社会免受(某些)信息引起的伤害。 合成数据可能会增加对数据保护的理性冷漠 :如果法律不防止以可能对公民或消费者产生负面影响的方式使用合成数据,而且数据主体只有极少能力影响可能作为合成数据生成基础的数据收集,那么个人就没有投资于数据保护的动机。这可能会增加个人和集体的危害。 实际上,如果我们假设隐私法律的核心关注点是信息权力的限制,即实体从了解个人或群体的重要知识中获得的权力,那么信息的来源是直接标识符还是其代理无关紧要 。这使我们不得不问,什么应该是与个人的适当关系链接,以使信息落入我们法律保护范围内?如果我们想保护个人的隐私,这些危害需要得到解决。实际上,“重要的不是数据来自谁,而是这些数据对[一个人]说了什么,以及这种意义如何被用来对 [一个人]采取行动”。法院因此可以发现,当推断对个人产生影响时,无论该推断是从其他个人数据、第三方数据还是合成数据中推导出来的都无关紧要。 如果将隐私法扩大到包括人工数据集的会产生争议,这样做可能会授予个人对数据的访问和删除权,但也会限制数据有效性。在某些情况下,可能需要权衡推断所带来的隐私损失和益处。 个人数据保护与市场运作和创新之间关系复杂。隐私保护可以被视为市场运作的条件,并且有助于推动创新。然而,对数据使用的限制可能会限制企业开发创新产品和流程的能力。为了平衡这一矛盾,需要在个人可识别信息中施加某些收集和使用限制。但是,合成数据的出现可能导致这种平衡被颠覆,因为它既可能限制个人的保护,也可能增加竞争和创新 。因此,在寻求隐私法律范围内正确的平衡之前,其他领域的法律可能能够解决其中的一些问题。 数据信任与治理社区(TDG Community)是由下一代互联网国家工程中心搭建的数据治理领域专业交流平台,汇聚业内头部企业及高端从业人士,致力于打造开放、活跃、有行业影响力的社群生态。 TDG Community is a professional communication platform in the field of data governance operated by CFIEC. TDG Community is committed to bringing leading companies and senior practitioners together, and creating an open, active, and influential community ecology. 微信扫一扫,加入TDG Community! Scan the QR Code, join in TDG Community!
前瞻研究
01
专题报告
02
中心动态
03