AI监管 | 用户数据用于AI模型训练场景的合规要点初探

Original 王芳网安寻路人 2022-03-29

编者按

2021年，全球范围内对于人工智能的监管已经开始从理论探讨走向实际的立法和执法阶段，标志性的事件就是欧盟提出了《欧洲议会和理事会关于制定人工智能统一规则（《人工智能法》）和修正某些欧盟立法的条例》的提案。本公号今日发布该《提案》的全文翻译。

关于人工智能安全和监管，本公号发布过以下文章：

今天和大家分享用户数据用于AI模型训练场景的合规要点初探。作者是数据安全和隐私保护专家王芳。她近期在DPO社群的微信群中发起了此次讨论，并基于各群友的输入，形成了这篇文章，供大家批评指正。

大数据、物联网、深度学习等技术的发展，人工智能时代正在到来，商业级的AI应用如火如荼不断深入。而人工智能的基本特征是需要收集和组合不同规模的数据、提取信息和知识进行自主学习、不同程度的自动化决策。一方面，需要海量用户数据训练出高质量的模型，另一方面，如何保证数据的安全和用户的隐私也面临巨大的挑战。本文针对用户数据用于AI模型训练的场景下的数据安全和隐私合规风险，笔者结合DPO群里专家的意见，整理该文，抛砖引玉，希望能共同探讨新技术、新应用的不同场景下如何开展数据安全和隐私合规。

一、AI模型训练场景的相关问题探讨

1、AI模型训练过程用户数据的处理方式

数据采集：通过配合式采集、获取公开数据集的方式合法采集数据。
数据清洗：对数据进行技术处理，删除无用数据、进行质量检查、统一数据格式、删除敏感信息数据脱敏、数据标注等。
数据运用：将清洗完毕的数据用于算法训练。
数据管理：针对采集的数据及清洗后的数据，通过特定格式将数据以加密存储的方式记录在存储介质上，并根据法规要求及内部数据合规制度要求进行管理。

2、关于AI模型训练数据去标识化

AI模型训练数据通常使用用户使用产品/业务过程产生的数据，原始数据一般不需要用户身份标识原始数据，因此在AI模型训练时不建议将姓名、身份证、手机号等类型数据发送给使用方或者供应商，必须使用时需要对此类数据做去标识处理。

3、关于数据用于模型训练的再次授权

个人数据用于模型训练没有豁免个人信息处理者的义务，所以仍然基于个人信息的敏感程度，获取用户的不同类别的授权，并且告知用户训练的基本逻辑，训练后个人数据的后续处理方式（删除/存留期）。但如涉及个人数据量大，无法做到对每个用户进行再次询问和获取授权。此时考虑用户原始授权的兼容性，及数据使用范围是否扩大，综合考虑是否需要再次获取授权。

二、数据合规评估要点

1、业务必要性评估

遵循非必要不外发的原则，确认业务价值和必要性，数据外发是否为必要方式。业务方主管确认是否有数据外发的替代方案，确认数据外发的必要性。
业务方需详细说明数据外发的业务逻辑和必要性，包括但不限于：业务场景描述、数据字段、渠道或方式、采取的安全控制措施、是否涉及数据交易、是否涉及用户数据或用户敏感数据、是否跨境、是否有用户授权、与数据接收方的合作协议等内容。

在此基础上，安全人员评估数据外发的业务必要性。

示例：

——在数据外发供应商，供应商用于AI模型训练场景，用于定位客户的明确的信息，例如手机号、身份证号等，不是训练数据，训练数据通常为用户产生的数据，此时如需外发客户身份证号、手机号等信息时评估结果为业务非必要。

——AI模型尽量在本地部署，避免用户数据外发。

涉及数据出境时，应按照相关法律、法规和国家标准要求处理，并且外发审批流程须升级处理。

2、数据使用的合法性评估

业务必要性评估结果通过后，需要评估数据用于AI技术或模型训练是否合法，即数据使用合法性评估。
数据接收方使用数据的目的和用途需要在用户授权相关条款说明告知，获得用户授权。
合法性评估建议由法务、安全共同评估。

3、如涉及数据外发须评估数据接收方的资质

数据发送方须对开展数据合作的供应商或合作方在合作前进行安全评估，且签署供应商保密协议。
应在保密协议或合同中，明确双方在数据安全方面的责任及义务。明确说明数据使用的限制，包括使用目的、使用后立即删除数据、处理结果仅用于某些产品、数据安全措施、以及违法协议的责任等。

示例：数据外发用于模型训练的场景，应在保密协议或合同中明确数据的使用仅限于训练，不能用于其他目的。明确模型的使用限制，数据使用结束后立即删除用户数据。

如有可能数据发送方应建立供应商或合作方诚信档案，如有违反协议行为采取相应的处罚措施。

4、数据外发共享的安全要求

在必要性、合法性、接收方资质都评估通过的情况下，数据外发或共享渠道应加密传输。
数据外发或共享时，如涉及姓名、身份证等用户唯一标识类数据，应进行去标识处理。
数据加密、去标识的加密算法应满足安全要求。

示例：身份证号经过MD5哈希处理后外发给供应商，存在客户身份证号被破解，重新定位用户的可能。
用户数据发送前，应与接收方明确告知隐私合规安全要求，明确数据期限和到期后清理删除。
如数据接收方为企业供应商或合作伙伴，客户数据进行训练后的模型，建议在合同中约束模型使用的范围。

以上是笔者总结的关于数据用于AI模型训练需要进行数据外发或共享时需要进行的合规操作或评估要点，如有遗漏或错误，还望探讨指正。（完）

数据保护官（DPO）社群主要成员是个人信息保护和数据安全一线工作者。他们主要来自于国内头部的互联网公司、安全公司、律所、会计师事务所、高校、研究机构等。在从事本职工作的同时，DPO社群成员还放眼全球思考数据安全和隐私保护的最新动态、进展、趋势。2018年5月，DPO社群举行了第一次线下沙龙。沙龙每月一期，集中讨论不同的议题。目前DPO社群已超过300人。关于DPO社群和沙龙更多的情况如下：

域外数据安全和个人信息保护领域的权威文件，DPO社群的全文翻译：

DPO线下沙龙的实录见：

自动驾驶系列文章：

数据安全法系列文章：

个人数据与域外国家安全审查系列文章

围绕着TIKTOK和WECHAT的总统令，本公号发表了以下文章：

第29条工作组/EDPB关于GDPR的指导意见的翻译：

关于美国出口管制制度，本公号发表过系列文章：

供应链安全文章：

数据跨境流动政策、法律、实践的系列文章：

传染病疫情防控与个人信息保护系列文章

关于数据与竞争政策的翻译和分析：

数据安全法系列文章：

中国个人信息保护立法系列文章：

健康医疗大数据系列文章：

网联汽车数据的系列文章：

关于中美与国家安全相关的审查机制的系列文章：

网络空间的国际法适用问题系列文章：

赴美上市网络、数据安全风险系列文章如下：

人脸识别系列文章：

关于欧盟技术主权相关举措的翻译和分析：

关于保护网络和信息系统安全的相关文章包括：

数据要素治理的相关文章包括：

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

AI监管 | 用户数据用于AI模型训练场景的合规要点初探

个人数据与域外国家安全审查系列文章

美国电信行业涉及外国参与的安全审查（一）：基本制度介绍

美国电信行业涉及外国参与的安全审查（二）：国际性的第214节授权

美国电信行业涉及外国参与的安全审查（三）：建立外国参与安全审查的行政令

美国电信行业涉及外国参与的安全审查（四）：FCC对中国企业的陈述理由令

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

生成图片，分享到微信朋友圈

AI监管 | 用户数据用于AI模型训练场景的合规要点初探

个人数据与域外国家安全审查系列文章

美国电信行业涉及外国参与的安全审查（一）：基本制度介绍

美国电信行业涉及外国参与的安全审查（二）：国际性的第214节授权

美国电信行业涉及外国参与的安全审查（三）：建立外国参与安全审查的行政令

美国电信行业涉及外国参与的安全审查（四）：FCC对中国企业的陈述理由令

您可能也对以下帖子感兴趣