查看原文
其他

企业使用AIGC时需要考虑的数据风险有哪些?

Zoe Argento 开放隐私计算 2024-01-09


近期生成式人工智能工具的爆发与隐私立法的激增在美国和全球范围内同时发生。在美国,仅不到三年时间内就有13个州通过了全面的数据保护法律。在全球范围内,大多数发达国家在过去十年内都通过了新的或更严格的隐私法律。这些法律中许多都明确地规定了对人工智能应用的监管。因此将个人数据输入生成式人工智能工具并处理其输出中的个人数据,需要应对复杂的数据保护义务。

在这个复杂领域中存在三个关键问题。

首先是将个人数据披露给人工智能工具的问题。这些披露可能会导致雇主失去对数据的控制,甚至可能导致数据泄漏。

其次,生成式人工智能服务提供的数据可能是基于违反数据保护要求的数据处理和收集,例如未经通知和适当的合法基础。雇主可能要对这些违规行为承担一定的责任。

第三,在使用生成式人工智能服务时,雇主必须确定如何根据适用法律遵守行使数据权利的要求。

与将个人数据输入生成式人工智能相关的风险

由于生成式人工智能在合成和总结信息方面表现出色,雇主可能会倾向于使用它来生成涉及人力资源数据的报告或其他产品。然而,将个人数据提交给生成式人工智能工具可能会使这些数据面临重大风险。

Acme的困境

考虑以下假设情景。Acme公司的CEO突然要求制作一份关于公司不同部门和职位的员工薪酬的PowerPoint演示文稿。人力资源主管急于取悦,但时间紧迫,于是在一个新的生成式人工智能服务上创建了一个帐户,上传了有关全球员工薪酬的关键统计数据,包括一些特定个人的薪酬数据,并请求制作一份演示文稿。

生成式人工智能服务生成了几张带有有用和清晰图形的幻灯片。人力资源主管补充了一些自己创建的幻灯片,并在第二天向CEO提供了一份关于薪酬的演示文稿。CEO感到高兴,至少那一天是这样的。

然而,一周后,一名员工告诉人力资源主管,他在互联网上发现了有关Acme员工薪酬的信息。消息迅速传开。其中被数据中的员工感到尴尬和愤怒,因为这些信息泄露了出去。更糟糕的是,一些员工因根据报告显示的收入差距提起了非法薪酬歧视诉讼。

当然,Acme的困境是一个最坏情况的假设,但这个例子说明了将个人数据提交给生成式人工智能服务所涉及的隐私危险。就像向任何第三方提供数据一样,公司必须考虑安全和控制问题。

披露风险

生成式人工智能服务可能会无意中或故意泄露用户的个人数据。例如,作为标准操作程序,该服务可能会使用用户的所有信息来优化基础模型分析数据和生成响应的方式。个人数据可能因此被纳入生成式人工智能工具中。该服务甚至可能会将查询披露给其他用户,以便他们可以看到提交给服务的问题示例。

这些做法可能并不暗中进行。事实上,使用条款可能会清楚地解释它们。因此,在向生成式人工智能服务提供任何个人信息之前,公司应仔细评估使用条款,并在可能的情况下,为其数据谈判保护条款。根据大多数数据保护制度,公司可能需要与生成式人工智能服务签署数据处理协议,其中包含法律规定的条款。

当然,获得合同保证只是保护生成式人工智能服务处理的个人信息的步骤之一。服务提供商可能同意雇主要求的所有条款,但却遭受了数据泄漏。为了降低这种风险,公司应考虑在将个人信息委托给生成式人工智能服务之前进行尽职调查。

去标识化

在将数据提交给生成式人工智能服务之前进行去标识化处理可以减少风险。与个人数据不同,去标识化的数据在很大程度上不受隐私法律的监管。

然而,大多数数据保护制度,如加利福尼亚隐私权法和欧洲通用数据保护条例,对去标识化设置了较高的标准。因此,仅仅删除名称和识别号码并不一定符合适用法律规定的去标识化标准。例如,加利福尼亚隐私权法要求企业确保去标识化数据的接收者同意通过合同不重新识别数据。

与收集和处理输入数据相关的风险

除了将公司信息提交给生成式人工智能工具的风险外,使用生成式人工智能服务收集的数据也存在风险。以一个例子来说,一家软件公司决定使用生成式人工智能来更好地了解潜在的招聘人才中的工程师资质。该公司要求从生成式人工智能服务中获取有关所在城市的软件工程师的教育和认证的报告。

为了回应这个请求,生成式人工智能服务从互联网上搜集有关当地软件工程师的数据。然后,它生成了一个包含摘要和特定个人示例的报告。在这种用例中,数据保护违规可能是由生成式人工智能服务获取信息和生成报告的方式引起的。尽管生成式人工智能服务本身最直接地对数据保护违规负责,但雇主也可能因使用生成式人工智能服务生成的报告和其他输出而承担责任。如果雇主签署了一个生成式人工智能服务充当雇主代理的服务提供商协议,这种情况更有可能发生。在这种情况下,生成式人工智能服务的行为可能可归因于雇主。

数据收集和处理可能导致数据保护违规的主要方式包括没有处理的合法依据、未提供有关收集的通知和跨国边境上的非合规个人数据转移。

合法依据

大多数世界各地的数据保护法律仅允许在有限的情况下收集和处理个人数据,例如个人同意或法律要求。在这些法律下,一家公司不能在没有合法依据的情况下从互联网上搜集数据并使用它。

根据国家不同,确立合法依据可能会是一个重大障碍。例如,在一些国家,如韩国,合法处理主要基于同意,由于难以从每个个体获得同意,收集大量的训练数据可能是不切实际的。其他国家,如巴西和欧盟成员国,允许数据处理基于公司的“合法利益”,前提是个体的权利和自由不超过公司的合法利益。

然而,尚不清楚监管机构是否会认为公司有合法兴趣从互联网上大规模获取个人数据以训练人工智能系统。例如,欧盟监管机构公开表示了担忧。事实上,意大利的数据保护机构,Garante,曾经短暂禁止生成式人工智能服务ChatGPT,部分原因是其数据收集缺乏合法依据。在美国,数据保护法律通常没有采用数据处理的合法依据的概念,但随着越来越多的州通过数据保护法律,这可能会发生变化。

通知

几乎所有的数据保护法律都要求收集和处理个人数据的组织提供有关其如何处理个人数据的通知。这些通知必须是详细的,包括使用个人数据的目的和披露给哪些方面的描述。在某些情况下,通知必须提供有关算法如何工作的详细信息。例如,在GDPR下,雇主必须向员工提供关于仅基于人工智能做出的“对他或她产生法律效果或同样显著影响他或她”的决定的通知。这可能包括有关招聘和解雇等决定的通知。在这种情况下,通知必须提供“有关所涉逻辑的有意义的信息,以及此类处理对数据主体的重要性和预期后果的意义”。鉴于大多数人工智能工具将其算法作为商业机密,雇主在使用生成式人工智能工具时可能无法提供这些信息。

从实际情况来看,如果AI服务仅仅从互联网上复制了大量个人数据,那么满足向相关个体提供通知的要求可能会成为一个难以逾越的障碍。适用的法律通常要求在收集点提供通知。在大规模数据抓取的情况下,可能没有可行的方法来联系甚至识别相关个体。美国的数据保护法律与大多数其他国家的法律不同,它们通常将公开可用的信息排除在其个人数据的定义之外。因此,从互联网上抓取数据可能不被视为收集个人数据,因为这些数据是公开可用的。然而,公司应该注意美国各州数据保护法律中公开可用定义的细微差别。

数据只有在通过政府记录或广泛分布的媒体合法提供,或者个人合法提供该信息的情况下才是公开可用的。如果信息未经个人知情或同意而变得可用,如上述关于工资记录的假设中,那么该信息仍可能是“个人数据”,并在适用的州数据保护法下受到全面保护。公司应考虑采取措施确保收集的数据是公开可用的。例如,为了增加个人同意公开其信息的可能性,他们可以确保生成式人工智能服务只从具有用户创建的个人简介和安全用户账户的网站收集数据。

最后,公司可能需要向个人提供有关处理其个人数据的通知。如果雇主从生成式人工智能服务请求关于个体的报告,例如基于服务在网上找到的有关申请人的信息的报告,那么许多数据保护法律将要求雇主向个体提供关于收集和使用报告的自己的通知。

跨境数据转移

大多数数据保护法律禁止将个人数据转移到其他国家,除非在有限的情况下。如果生成式人工智能服务从一个国家收集个人数据并将其转移到另一个国家的雇主,可能会违反第一个国家的数据保护法律。雇主应评估数据流动并采取合法的数据转移机制来解决这个问题,避免潜在的违规行为。

这可能会很复杂,因为合法的数据转移机制因发件人和收件人国家而异。许多国家已经确定了提供充分数据保护的有限国家名单。向这些充分的国家进行数据转移可能不需要任何合规障碍。然而,向其他国家的转移可能需要个人的同意,这可能是不切实际的。还有一些国家,如欧盟成员国,允许在没有同意的情况下进行数据转移,但只有在适用免准则或实施了合法的数据转移机制,如标准合同条款时才允许。

在收集和处理AI输入数据方面的隐私风险的影响

考虑到使用AI工具收集的个人数据的许多风险,雇主应该审查他们使用的工具,并协商服务协议以减少风险。在这些服务协议中,雇主应考虑要求生成式人工智能服务提供商确保在收集和处理个人数据时遵守适用的数据保护法律。作为后备措施,雇主可能需要要求提供赔偿条款,并规定生成式人工智能服务提供商应保持大额数据相关索赔的责任保险。

与收集和处理输入数据相关的风险

合法依据、通知和跨境数据转移等问题主要涉及个人数据的收集和转移方式。公司对个人数据的使用和保留引发了额外的隐私问题。

删除权

根据适用的数据保护法律,个人可能有权访问、删除、更正或停止处理他们的个人数据。删除权对生成式人工智能提出了特殊的挑战。

如果员工要求删除已经提交到AI平台以开发定制工具或微调AI的个人数据,怎么办?根据生成式人工智能系统的性质,系统可能无法真正“遗忘”数据点。人工智能通过识别训练数据中的模式来“学习”,并使用这些模式和数据点生成新内容。因此,个人数据可能嵌入在人工智能的模式中。

准确性

生成式人工智能可能因为多种原因产生不准确的内容。训练数据集以及源数据可能是错误的。此外,工具本身可能仅仅是编造信息,一些人工智能工具产生的所谓“幻觉”。大多数数据保护法律提供了纠正个人数据的权利,至少在数据不准确的程度上。在训练数据集中纠正数据引发了类似于删除数据的问题。

此外,在美国以外,几乎所有的数据保护法律都要求数据控制者确保个人数据的准确性。因此,雇主可能会在这些法律下承担责任,因为他们未对生成式人工智能工具的准确性进行审查,并依赖于这些工具生成的不准确报告。在美国,新的数据保护法律通常不会对这种准确性义务进行规定,尽管它们确实要求组织在请求时纠正不准确信息。然而,公平信用报告法要求准确性,并产生了单独的风险。

FCRA监管“消费者报告机构”以及使用消费者报告机构生成的报告的人。至关重要的是,如果生成式人工智能服务定期生成有关个人“品格、一般声誉、个人特征或生活方式”的报告,并且这些报告用于就业目的,那么这种生成式人工智能服务可能符合“消费者报告机构”的定义。FCRA是一项高度技术性、高风险的法律。它要求雇主在使用消费者报告机构生成的报告用于就业目的之前提供披露并获得授权。

除其他事项外,FCRA还要求雇主在基于报告采取不利行动之前通知个人,提供报告副本,并披露消费者报告机构的联系信息。由于其私人诉讼权和法定赔偿,针对FCRA违规的集体诉讼通常会导致数十万美元的和解。

结论

在向生成式人工智能服务提供个人数据或使用该服务中的个人数据之前,雇主应仔细考虑数据保护的影响。

关键考虑因素包括数据的来源和性质、适用的数据保护法律以及使用信息的目的。根据这些因素,雇主可能需要提供通知、获得同意、从服务提供商那里获得详细的合同保证,并实施处理数据权利请求的流程。

作者:Zoe Argento

原文:https://iapp.org/news/a/data-protection-issues-for-employers-to-consider-when-using-generative-ai/

END

热门文章:




隐私计算头条周刊(08.07-08.13)


招标 | 近期隐私计算项目招标中标42(广西电网公司、云南农业职业技术学院、中国电信)


2023全球各国隐私计算发展最新动态盘点


社区招募丨OpenMPC隐私计算课程课代表征集


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存