ChatGPT收集的训练数据合法吗？

数据人都在关注数据交易网 2024-01-09

“

后台输入“0214”，获取当天资料分享

ChatGPT在OpenAI开放测试后风靡全球，仅仅两个月用户便达到1亿，这是OpenAI开发的基于GPT-3.5的AI驱动的聊天机器人，成为互联网发展二十年来增长速度最快的消费者应用程序。但在其备受追捧的同时，ChatGPT也面临数据安全方面的争议。

南都大数据研究院注意到，在科技巨头纷纷整合ChatGPT或布局“类ChatGPT”产品应用的同时，部分企业如微软、亚马逊等还提醒员工不要与ChatGPT分享敏感数据。

ChatGPT训练数据的安全性问题引起各方高度关注。例如，从互联网获取海量数据进行模型训练是否合法？生成的文本是否会被恶意利用？如何阻止人工智能在不良数据上构建和训练？OpenAI是否可以在个人要求时从模型中完全删除数据？对于更多潜在问题，有法律人士甚至呼吁加强AI监管。

亚马逊、微软提醒员工不要泄露数据

年初以来，在发现ChatGPT生成的文本中有疑似商业机密的情况后，不少科技巨头开始提醒自己的员工不要在使用ChatGPT时输入敏感信息数据。

据硅谷媒体报道，在一条从企业内部通信工具Slack泄露的信息中，亚马逊的公司律师称，他们在ChatGPT生成的内容中发现了与公司机密“非常相似”的文本，可能是由于一些亚马逊员工在使用ChatGPT生成代码和文本时输入了公司内部数据信息，该律师担心输入的信息可能被用作ChatGPT迭代的训练数据。

无独有偶，有微软员工曾在内部论坛上询问，能否在工作中使用ChatGPT或其开发商OpenAI推出的产品。微软首席技术官办公室的一名高级工程师回应称，只要员工不与ChatGPT分享机密信息，就可以在工作时使用，但不要将敏感数据发送给OpenAI终端，因为OpenAI可能会将其用于未来模型的训练。

复旦大学计算机科学技术学院教授韩伟力表示，无论是个人敏感数据还是企业敏感数据，常理来说大家都不应该分享。

据悉，作为大型语言模型，ChatGPT的训练数据集包含TB级别的海量互联网文本数据，代码、诗歌、法律文件、自然对话都是这些数据的一部分。不少软件开发工程师尝试使用ChatGPT作为自己的代码助手，ChatGPT可根据用户提供的代码片段或描述，生成代码规范，甚至完整的实现方法。在提供描述的过程中，数据泄露可能成为一个问题。

ChatGPT收集的训练数据合法吗？

训练像ChatGPT这样的大型语言模型需要海量自然语言数据，其训练数据的来源主要是互联网，但开发商OpenAI并没有对数据来源做详细说明。由于ChatGPT提供了商业服务并从中获利，不少人认为，背后的开发者在收集训练数据时需要面临更多的限制，用于收集 ChatGPT 数据的方法也需要披露。

从互联网爬取海量数据合法吗？如今，随着ChatGPT以及一众基于transformer大语言模型的问世，针对训练数据的法律问题已经引起关注。

欧洲数据保护委员会一成员质疑，ChatGPT是一种商业产品，虽然互联网上存在许多可以被访问的信息，但从具有禁止第三方爬取数据条款的网站收集海量数据可能违反相关规定，不属于合理使用，此外还要考虑到受GDPR等保护的个人信息，爬取这些信息并不合规，而且使用海量原始数据可能违反GDPR的“最小数据”原则。

有网络安全从业人士向南都大数据研究院表示，虽然网站可以通过设置包括robots.txt根文件、嗅探访问者信息等软性方式来防止网站内容被随意爬取，目前并没有100%可靠的方式使得可访问的网页内容不被爬取。

相关专家亦承认包括OpenAI在内的公司可以使用“合理使用”条款来避免受到收集互联网数据而产生的法律责任，包括用于科学研究、教学、新闻报道、批判等公共事业的数据收集。但对于OpenAI提供的类似ChatGPT的模型调用服务是否适用“合理使用”条款，仍然存在争议。

北京植德律师事务所合伙人兼合规部负责人王艺表示，从互联网抓取数据并不当然违法，但要保证爬虫技术不应侵犯个人和平台权利，也不能破坏互联网公共管理秩序。建议从三个方面划定数据爬虫技术合法使用的边界：

一是网络爬虫应仅限于开放数据的获取。

二是合法使用的数据爬虫技术不应具有侵入性。

三是数据爬取应该基于正当目的。

OpenAI是否能遵循数据删除权？

根据OpenAI官网公布的隐私政策，OpenAI并未提及类似欧盟GDPR等数据保护法规，在“使用数据”条款里，OpenAI承认会收集用户使用服务时输入的数据，但未对数据的用途作进一步说明。

根据GDPR第17条，个人有权要求删除其个人数据，即“被遗忘权”或“删除权”。然而，ChatGPT等大语言模型带来的一个问题是，深度神经网络是否可以“忘记”用于训练自己的数据？对于OpenAI是否能够在个人要求时从模型中完全删除数据，业内人士认为，这类模型很难删除个人信息的所有痕迹。此外，训练此类模型花费高昂，AI公司也不太可能每次在个人要求删除某些敏感数据后重新训练整个模型。

在技术层面，深度神经网络的黑箱特性也使得追踪、溯源敏感数据在类似ChatGPT的大语言模型中的难度大大增加。

北京师范大学网络法治国际中心执行主任吴沈括认为，从数据安全角度看ChatGPT，无论是数据获取、汇聚、加工处理还是运算结果输出，各个环节都存在风险，在高度智能化、高度自动化的新型应用场景当中，也存在更高的数据安全风险。

随着大语言模型的发展，相关人士还担心其可能会被恶意利用。例如，使用大语言模型，攻击者可以在输入少量文字后生成海量文本，这些文本可以被用来实施多种恶意活动，包括进行数据库用户名+密码的撞库攻击，写恶意软件代码，发布大量假新闻、诽谤文章或者仇恨内容等。

受访专家表示，ChatGPT的数据安全问题值得关注。包括训练数据是否保护个人信息，收集个人敏感信息是否取得单独同意，收集和使用过程中是否会侵犯企业商业秘密，以及隐藏的算法歧视等问题都是生成类AI模型需要关注的数据安全问题；此外，使用ChatGPT写恶意软件代码等情况时有发生，类似用法不仅会对网络安全造成威胁，还会对国家安全造成隐患。

律师王艺表示，如何对AI技术应用进行有效监管以切实防范相关风险是世界各国重点关注的问题，AI技术应用的监管已从理论探讨走向立法、执法实践阶段。对于更多潜在问题，需要时刻关注新法新规对生成式AI的规制。

对于平台来说，首先需要保证训练数据的获取的合法性，包括合法使用爬虫技术、合法处理个人信息等方面；对于用户来说，使用过程中应保护企业信息与个人信息，对于敏感信息应按要求做出承诺或单独同意，不应使用类似生成类AI进行刑事犯罪，危害网络及社会安全。

今年初大火的ChatGPT和前段时间引起热烈讨论的AIGC都属于生成类AI，国内巨头也正在研发类似产品，在提供交互生成文本类产品的同时实现声音、图像甚至视频的生成。目前，国内针对AI技术应用监管的相关立法尚处于起步阶段，主要出台了《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等部门规章，针对AI技术应用监管的相关执法仍属于九龙治水的格局，加快构建完善的AI监管法律治框架、明确监管机构具有非常重要的意义。

吴沈括表示，在目前数据权属界定不明的历史过渡阶段，数据抓取、数据融合汇聚的合规问题必然更加突出。当前ChatGPT商用落地还未完全展现，矛盾并不尖锐，但对着商业应用的推进，各方之间的利益纠纷将更加突出，围绕数据安全的问题也会更加明显、频繁。平台在开发过程中要注重法律和伦理要求，用户也要提高甄别意识，ChatGPT的运算输出结果目前来说还不具有可验证性和绝对可靠性。

来源：南方都市

END

往期推荐 ·

添加创办人微信

继续滑动看下一个