AI监管 | 用户数据用于AI模型训练场景的合规要点初探
编者按
2021年,全球范围内对于人工智能的监管已经开始从理论探讨走向实际的立法和执法阶段,标志性的事件就是欧盟提出了《欧洲议会和理事会关于制定人工智能统一规则(《人工智能法》)和修正某些欧盟立法的条例》的提案。本公号今日发布该《提案》的全文翻译。
关于人工智能安全和监管,本公号发布过以下文章:
今天和大家分享用户数据用于AI模型训练场景的合规要点初探。作者是数据安全和隐私保护专家王芳。她近期在DPO社群的微信群中发起了此次讨论,并基于各群友的输入,形成了这篇文章,供大家批评指正。
大数据、物联网、深度学习等技术的发展,人工智能时代正在到来,商业级的AI应用如火如荼不断深入。而人工智能的基本特征是需要收集和组合不同规模的数据、提取信息和知识进行自主学习、不同程度的自动化决策。一方面,需要海量用户数据训练出高质量的模型,另一方面,如何保证数据的安全和用户的隐私也面临巨大的挑战。本文针对用户数据用于AI模型训练的场景下的数据安全和隐私合规风险,笔者结合DPO群里专家的意见,整理该文,抛砖引玉,希望能共同探讨新技术、新应用的不同场景下如何开展数据安全和隐私合规。
一、AI模型训练场景的相关问题探讨
1、AI模型训练过程用户数据的处理方式
数据采集:通过配合式采集、获取公开数据集的方式合法采集数据。
数据清洗:对数据进行技术处理,删除无用数据、进行质量检查、统一数据格式、删除敏感信息数据脱敏、数据标注等。
数据运用:将清洗完毕的数据用于算法训练。
数据管理:针对采集的数据及清洗后的数据,通过特定格式将数据以加密存储的方式记录在存储介质上,并根据法规要求及内部数据合规制度要求进行管理。
2、关于AI模型训练数据去标识化
AI模型训练数据通常使用用户使用产品/业务过程产生的数据,原始数据一般不需要用户身份标识原始数据,因此在AI模型训练时不建议将姓名、身份证、手机号等类型数据发送给使用方或者供应商,必须使用时需要对此类数据做去标识处理。
3、关于数据用于模型训练的再次授权
个人数据用于模型训练没有豁免个人信息处理者的义务,所以仍然基于个人信息的敏感程度,获取用户的不同类别的授权,并且告知用户训练的基本逻辑,训练后个人数据的后续处理方式(删除/存留期)。但如涉及个人数据量大,无法做到对每个用户进行再次询问和获取授权。此时考虑用户原始授权的兼容性,及数据使用范围是否扩大,综合考虑是否需要再次获取授权。
二、数据合规评估要点
1、业务必要性评估
遵循非必要不外发的原则,确认业务价值和必要性,数据外发是否为必要方式。业务方主管确认是否有数据外发的替代方案,确认数据外发的必要性。
业务方需详细说明数据外发的业务逻辑和必要性,包括但不限于:业务场景描述、数据字段、渠道或方式、采取的安全控制措施、是否涉及数据交易、是否涉及用户数据或用户敏感数据、是否跨境、是否有用户授权、与数据接收方的合作协议等内容。
涉及数据出境时,应按照相关法律、法规和国家标准要求处理,并且外发审批流程须升级处理。
2、数据使用的合法性评估
业务必要性评估结果通过后,需要评估数据用于AI技术或模型训练是否合法,即数据使用合法性评估。
数据接收方使用数据的目的和用途需要在用户授权相关条款说明告知,获得用户授权。
合法性评估建议由法务、安全共同评估。
3、如涉及数据外发须评估数据接收方的资质
数据发送方须对开展数据合作的供应商或合作方在合作前进行安全评估,且签署供应商保密协议。
应在保密协议或合同中,明确双方在数据安全方面的责任及义务。明确说明数据使用的限制,包括使用目的、使用后立即删除数据、处理结果仅用于某些产品、数据安全措施、以及违法协议的责任等。
如有可能数据发送方应建立供应商或合作方诚信档案,如有违反协议行为采取相应的处罚措施。
4、数据外发共享的安全要求
在必要性、合法性、接收方资质都评估通过的情况下,数据外发或共享渠道应加密传输。
数据外发或共享时,如涉及姓名、身份证等用户唯一标识类数据,应进行去标识处理。
数据加密、去标识的加密算法应满足安全要求。
示例:身份证号经过MD5哈希处理后外发给供应商,存在客户身份证号被破解,重新定位用户的可能。 用户数据发送前,应与接收方明确告知隐私合规安全要求,明确数据期限和到期后清理删除。
如数据接收方为企业供应商或合作伙伴,客户数据进行训练后的模型,建议在合同中约束模型使用的范围。
以上是笔者总结的关于数据用于AI模型训练需要进行数据外发或共享时需要进行的合规操作或评估要点,如有遗漏或错误,还望探讨指正。(完)
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
DPO线下沙龙的实录见:
自动驾驶系列文章:
数据安全法系列文章:
个人数据与域外国家安全审查系列文章
围绕着TIKTOK和WECHAT的总统令,本公号发表了以下文章:
第29条工作组/EDPB关于GDPR的指导意见的翻译:
关于美国出口管制制度,本公号发表过系列文章:
供应链安全文章:
数据跨境流动政策、法律、实践的系列文章:
传染病疫情防控与个人信息保护系列文章
关于数据与竞争政策的翻译和分析:
数据安全法系列文章:
中国个人信息保护立法系列文章:
健康医疗大数据系列文章:
网联汽车数据的系列文章:
关于中美与国家安全相关的审查机制的系列文章:
美国电信行业涉及外国参与的安全审查(一):基本制度介绍
美国电信行业涉及外国参与的安全审查(二):国际性的第214节授权
美国电信行业涉及外国参与的安全审查(三):建立外国参与安全审查的行政令
美国电信行业涉及外国参与的安全审查(四):FCC对中国企业的陈述理由令
网络空间的国际法适用问题系列文章:
赴美上市网络、数据安全风险系列文章如下:
人脸识别系列文章:
关于欧盟技术主权相关举措的翻译和分析:
关于保护网络和信息系统安全的相关文章包括:
数据要素治理的相关文章包括: