ChatGPT数据隐私解密
The following article is from 赛博攻防悟道 Author rayh4c
ChatGPT从发布至今曾闹出了不少隐私安全问题,先是意大利暂时封杀ChatGPT,限制OpenAI处理本国用户信息。接着,据韩国媒体报道,三星在使用ChatGPT不到20天,便曝出机密资料外泄。ChatGPT是否会保存用户数据或利用用户数据,并没有人专门分析过,笔者接下来将就这一问题逐一进行解密。
数据授权
根据OpenAI的公告,从2023年4月25日起,用户可以自由禁用对话记录,这样对话就不会再出现在侧边栏上。
一句话总结OpenAI的隐私策略就是:此前,用户只能按需定期清除聊天记录,但任何对话OpenAI仍可用于模型训练微调。截至目前为止,如果对话记录被禁用,对话只会保留30天,然后OpenAI会永久删除它们。
要禁用ChatGPT的对话记录非常简单,访问Web界面中的设置,导航至主页的左下部分,将弹出一个小窗口:
切至”Data controls“,我们可以看到这一项下面的一行小字,你的聊天记录将会被允许ChatGPT进行模型训练。
数据导出
OpenAI在ChatGPT的设置中还添加了一个新功能:一个导出选项,用于获取您的ChatGPT数据,并找出ChatGPT存储了哪些关于您的信息。
确认导出操作后,在邮箱中收到如下的内容:
我们会发现用户所有的数据实际上都存储在微软的Azure Blob Storage里。
数据文件
整个用户对话记录数据分为5个文件:
chat.html (对话记录网页)
conversations.json (对话记录数据)
message_feedback.json (用户质量反馈数据,用于强化学习)
model_comparisons.json (用户点击重新生成答案的二次对话数据)
user.json (用户信息数据)
通过JSON文件分析,我们还发现了一些有意思的技术细节:
ChatGPT的对话和OpenAI官方API的定义一致,也分为system、user和assistant三个角色。并且每次对话会和上一次user提问保持一级父子关系,估计官方是以这种user提问链的方式来维持对话记忆。
数据隐私
通过导出的对话记录,可以确定OpenAI保留了关于用户与ChatGPT交互的所有信息!
值得注意的是,如果用户不关闭”对话记录和导出个人数据“功能,OpenAI就默认用户授权可以使用用户对话记录数据训练模型。这是一个大坑,要便利就没有隐私。
OpenAI这个对话记录数据导出功能明显是遵循了欧盟通用数据保护条例(GDPR) ,因为GDPR明确定义了厂商处理用户数据的义务,用户需要可以自由访问受其个人约束的所有用户数据,这也是就是为什么谷歌等互联网厂商在收集个人信息时有义务随时向用户提供他们从哪里获得数据的原因。
用户隐私和商业利益是AI厂商目前的一个矛盾难题。但是,透明度仍然是厂商和用户之间建立信任和确保所有人安全地使用AI的关键!