针对使用公开数据训练AI，韩国个人信息保护委员会发布指南

Original 数据信任与治理数据信任与治理

2024-09-16

2024年7月18日，韩国个人信息保护委员会（PIPC）发布了《关于处理公开数据以开发和服务AI的指南》（“《指南》”），旨在引导实现合法和安全的使用公开数据开发和训练AI的处理活动。

《指南》发布的背景

公开数据可以通过互联网访问，是生成式AI模型（如ChatGPT）开发的训练数据的关键组成部分。生成性AI可以通过从多个来源（包括Common Crawl、维基百科和其他网站）提取训练数据（如网络抓取）进行训练。这些公开数据可能包含地址、唯一可识别信息（UII）、信用卡号码等个人数据，因而产生了可能的隐私风险。然而，根据韩国《个人信息保护法》（PIPA），处理公开数据的法律依据不足且不明确。

在大规模处理公开数据进行AI训练的背景下，根据现行法律框架获得每个数据主体的同意并签订相关合同是不切实际的。而且，AI训练在数据处理机制上带来了重大变化，给解释和应用现有数据隐私法中的保护措施带来了挑战。

2023年8月，韩国PIPC发布了“AI时代安全使用个人数据的政策方向”。此后，PIPC与由30位AI专家组成的“AI隐私公私政策咨询委员会”进行了讨论，涉及三大分委员会，讨论了发布指南的相关内容，并征求了学术界、行业和民间社会的意见。

《指南》明确了收集和利用公开数据的法律依据，并为AI开发者和服务提供商提出了适用的保障措施。《指南》以在AI时代推动创新发展作为目标，将为企业减少隐私相关问题和解决法律不确定性的问题。

《指南》的主要内容

1. 合法性基础：“合法利益”

《指南》明确了可以基于依据PIPA第15条所规定的“合法利益”来处理公开数据进行AI训练和开发AI服务，即个人数据控制者的合法利益明显优于数据主体的权利。

为了使用“合法利益”的概念，个人数据处理者（包括AI开发者和服务提供商）需要满足三个要件：目的的合法性；数据处理的必要性；以及个人数据处理者与数据主体之间的相关利益评估。PIPC还在《指南》中提出了这三个要求的内容和适用场景。

（1）目的的合法性

确保数据处理者具有处理个人数据的合法利益。

——通过具体说明开发AI模型的目的来明确合法利益；例如，用于支持医疗诊断、进行信用评级、生成、分类和翻译文本的LLMs和其他AI模型。

（2）数据处理的必要性

确保收集和利用公开数据是必要的、适当的和合适的。

——例如，在训练支持医疗诊断的AI模型，排除与开发无关的个人收入和财产等数据。

（3）个人数据处理者和数据主体之间的相关风险评估

确保个人数据处理者的合法利益明显优于数据主体的权利。

——确保安全的措施，以防止侵犯数据主体的权利。

韩国PIPC指出，《指南》所建立的解释和应用“合法利益”概念的标准可以促进与全球规范（如欧盟的《通用数据保护条例》）以及AI安全规范国际讨论的互操作性。

2. 提出适用的保障措施和保护数据主体权利的方法

《指南》中包含了AI业务运营者依赖合法利益处理公开数据的技术和组织防护措施，同时尊重数据主体的权利。

（1）技术防护措施

审查收集的训练数据集的来源
采取措施防止个人数据泄露（删除、去识别化）
个人数据的安全存储和管理
通过微调添加额外的防护措施
应用快速和输出过滤功能
从训练数据中删除目标训练数据点的影响（机器学习删除）

（2）管理和组织防护措施

建立收集和使用训练数据集的标准，并将其纳入隐私政策
考虑进行隐私影响评估（PIA）
运行AI隐私红队
实施针对AI模型、AI服务开发和部署（例如开源、API）的防护措施

（3）尊重数据主体的权利

将收集公开数据的情况和主要来源纳入隐私政策和其他文件
维护数据主体的权利，包括制定措施以在AI训练和部署AI服务过程中行使其删除和中止数据泄漏的权利

PIPC允许AI业务运营者根据AI技术的快速进步灵活地采用和实施详细的保障措施。AI业务不需要实施指南中规定的每一项保障措施，而是可以考虑预期功能、副作用（如性能下降和偏见）以及AI技术的成熟度等各种条件来调整业务，选择最优的选项。

3.AI企业在开发和使用可信AI中的角色

《指南》最后强调了AI企业和首席隐私官（CPO）在处理用于开发AI模型的数据集方面的重要角色。

《指南》建议AI驱动的企业自愿成立并运营专门的AI隐私团队，通过培养CPO的角色来评估指南中规定的要求并制定和存储依据。

《指南》要求业务运营者定期监控包括技术重大变化和数据泄露担忧在内的风险因素，并快速制定和实施补救措施。

《指南》的下一步

为了与PIPA的立法和修正、AI的技术进步以及海外数据保护机构的监管改革保持一致，韩国个人信息保护委员会将保持对该《指南》的更新。

韩国PIPC主席表示：“即使AI技术以指数级速度进步，如何确保合法性和安全性使用公开数据进行AI模型训练仍然不够明确”；“我们希望这份指南能帮助企业树立利用AI和数据的可靠方式的榜样，并不断将随着时间积累的最佳实践添加到该指南中。”

此后，PIPC计划通过征求学术界、行业和民间社会的意见，出台一份关于处理用户个人数据用于AI训练的指南，以明确使用用户个人数据训练AI的合法性依据和标准。

PIPC还将通过支持计划与AI驱动的企业沟通，以促进创新，包括事先充分性审查计划、监管沙盒和个人信息安全区，以关注技术进步和市场状况。PIPC计划根据AI时代的变化，基于最佳实践和经验，对其《个人数据保护法》（PIPA）进行全面改革。

（完）

参考资料：

PIPC Offers Guideline on Processing Publicly Available Data for AI Development and Services

https://www.pipc.go.kr/eng/user/ltn/new/noticeDetail.do

【延申阅读】收集网络/平台上的公开数据用于AI训练，涉及个人信息主体、平台方企业等的多方权益：

1.OpenAI被诉窃取个人信息训练人工智能

2. 滥用平台数据访问权限？推特与微软再起争执

3. 谷歌与Reddit达成使用数据训练人工智能的协议

产品服务

前瞻研究

中心动态

数据信任与治理

“数据信任与治理”由下一代互联网国家工程中心运营。放眼全球数据治理前沿理论与实践进展，探索可信数据治理的中国模式，促进数据要素有序流通，释放数字经济红利。

TDG focuses on the cutting-edge theory and practice of global data governance, explores the Chinese model of trusted data governance, promotes global data flow, and fulfills the potential of the digital economy.

继续滑动看下一个

数据信任与治理

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

针对使用公开数据训练AI，韩国个人信息保护委员会发布指南

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

针对使用公开数据训练AI，韩国个人信息保护委员会发布指南

您可能也对以下帖子感兴趣