查看原文
其他

用户在大语言模型中的交互内容会被如何处理?——以OpenAI、谷歌Bard、讯飞星火为例

AI与网络法团队 AI与网络法 2024-01-08

本文作者丨陶园 郭佳仪 李卓霖 曾晓洋

前言



上一篇文章,我们分析了某款虚拟人聊天平台软件的《用户协议》中关于对用户与虚拟人交互内容处理的条款。根据该条的表述,用户和虚拟人类的对话内容有可能被公开,我们分析了其可能涉及的法律风险与现实风险,详细分析请点击文章链接查看:


我和AI虚拟男(女)友对话的内容可以被服务商公开吗?——对某虚拟人聊天平台用户条款的分析


随着生成式人工智能的发展,这类交互内容的处理方式应受到重视,为此,我们找到了域外OpenAI的ChatGPT、谷歌的Bard和我国的讯飞星火认知大模型(以下简称“星火”)中涉及处理交互内容的相关条款,或许可以作为处理这类交互内容的示范性条款,供愈来愈多基于生成式人工智能生成的交互内容的处理以参考。此外,我们也对OpenAI、谷歌和讯飞对用户的个人信息安全提供的保障渠道进行了分析,发现这些运营商对个人信息的使用用途也更多是偏向非公开、非商业的。


(一) OpenA对交互内容的处理方式

1.OpenAI收集的用户个人信息用途


OpenAI在其《隐私政策》中的“2.我们如何使用个人信息部分”列明了公司使用用户个人信息的目的,其中的重点在于分析和改进服务。[1]


考虑到OpenAI的主营产品ChatGPT是基于深度学习和自然语言处理技术原理而生成文本的AI聊天机器人,大量的文本数据对于ChatGPT这类语言生成式模型的训练来说至关重要,[2]因此OpenAI在隐私政策中将分析和改进服务作为用户输入数据的重点用途实属正常。而除此之外的与用户沟通、防止欺诈、犯罪活动或滥用服务、遵守法律义务和法律程序等用户个人信息用途也尚在合理范畴,不会对用户的个人信息安全造成严重的侵害。


在“2.我们如何使用个人信息部分”的最后一段中,OpenAI还专门提供了跳转链接以进一步说明“如何使用用户的数据以提高模型性能”。[3]



在该链接中,OpenAI强调获得用户个人信息使用授权的主要目的始终聚焦于旗下产品模型的训练,明确表示用户的数据不会被用于销售业务、广告亦或是构建用户画像等用途。这些规定一方面显示出OpenAI对于用户个人信息安全问题的重视,亦给担忧个人信息安全的用户注入了一剂强心针。


综上所述,OpenAI收集的用户个人信息用途主要有以下特点:(1)用途一一列明且用途合理;(2)承诺绝不会用于用户所忧虑的销售、广告、构建用户画像等用途。


2.OpenAI对于用户个人信息的保障渠道


用户有两种使用OpenAI的渠道:渠道一是直接使用OpenAI旗下产品;渠道二是通过API使用OpenAI服务。根据用户使用渠道的不同以及这两种渠道在获取用户数据授权范围上的区别,OpenAI分别为用户设置了不同的选择、退出机制 ,[4]以让用户有权决定自己输入OpenAI而产生的交互内容,是否被用于模型训练:


针对使用非API服务的ChatGPT或DALL-E的用户,OpenAI规定用户可以在ChatGPT的“设置-数据控制”栏关闭训练,以禁止之后输入的交互内容被用于模型训练,或者可以填写该链接提供的表单反馈自己想要退出训练的意愿。  OpenAI这一规定赋予了用户禁用训练的退出权,充分尊重用户的个人意愿,多角度多方位保障用户个人信息安全。



针对通过API使用OpenAI服务的用户,OpenAI规定用户可以主动选择填写该页面提供的表单,授权OpenAI将其输入的交互内容加入OpenAI的模型训练库。   不同于直接使用OpenAI服务的用户所输入的个人信息以一般性同意的方式加入模型训练库,这一规定意味着,OpenAI不会主动将用户通过API提交的数据用于模型训练,除非取得用户授权。对于使用API服务的用户而言,该规定为其个人信息安全又增加了一层保障。



从以上规定来看,OpenAI的隐私政策在用户数据安全保障的各方面基本都已经考虑周全:(1)只有直接使用OpenAI服务输入的用户数据才会被以一般性同意的方式加入OpenAI模型训练库;(2)即使是默认被用于模型训练的这部分数据,用户也仍然享有随时退出的权利。


OpenAI规定的用户个人信息的退出训练机制使得用户在使用OpenAI服务的过程中,享有充分的自由选择权,用户使用OpenAI服务的试错成本相较于其他公司同类型产品会更小,这一优点会促使更多的用户愿意尝试使用OpenAI旗下产品,甚至是放心大胆地将自己输入的数据交予OpenAI用以改进模型。对于OpenAI和用户而言,这是一个理想的双赢局面——在越发激烈的生成式人工智能市场中,只有尊重用户的个人信息安全的公司,才会获取用户的信任。

(二) Bard对交互内容的处理方式

1.Bard收集的用户个人信息的用途


谷歌旗下的Bard同样是主打为用户提供聊天功能的生成式人工智能工具,用户自然关心自己在Bard中输入的交互内容可能的去处,亦会对使用过程中输入的内容予以斟酌。谷歌做了如下的设计:在用户点击使用Bard后,先一步弹出《Terms&Privacy》[5]中的“Your data and Bard”。[E1] 这样一方面开门见山表明自己需要收集用户在使用Bard过程中输入的交互内容、用户的位置信息以及用户的反馈意见等,另一方面对这些数据的用途做了相应的说明。



Bard对于收集的用户数据的用途的说明与OpenAI类似,既介绍了用户数据主要会被利用的用途,同时也对用户数据绝不会被用于某些用途作出承诺。


关于用户数据用途的说明,Bard在《Terms&Privacy》“Your data and Bard”部分阐明了其收集的用户数据将被用于“提供、改进和开发谷歌产品和服务以及机器学习技术”。如上所述,对于Bard这类语言生成式模型而言,收集用户数据用于训练模型是其改进技术和为用户提供更好服务的方法,因此,这些利用方式属于用户个人信息的合理用途,尚在用户的接受和预期范畴内,并不会产生什么争议。


关于谷歌承诺用户数据绝不会被用于某些用途,其在《Bard FAQ》[6]中进一步承诺Bard收集的用户个人信息绝不会被出售,并且不会被用于广告目的。在用户个人信息可能会被违规收集和利用的当下,谷歌在Bard的《Terms&Privacy》作出的以上承诺缓解了用户对于个人信息被泄露的担忧,为用户提供了数据安全保障,更有利于获取用户的信任。


2.Bard对于用户个人信息的保障渠道


谷歌对于用户个人信息保护的重视除了列明Bard收集的用户数据合理用途以及作出相应承诺外,亦提供了对于用户个人信息的保障渠道。具体而言,谷歌在Bard的《Terms&Privacy》“Configuring your settings”部分列出的“myactivity.google.com/product/bard” [7]这一链接中提供了两种用户个人信息保障渠道 :一是“Bard活动记录”设置开关;二是用户“手动删除”其输入数据的功能,下面来逐一分析:




渠道一:谷歌为使用Bard的用户提供了“‘Bard活动记录’设置开关”。这一开关赋予了用户是否允许Bard收集存储用户数据于Google 帐号的选择权。如果用户在谷歌对于Bard收集的用户数据用途进行列明以及承诺的情况下,仍然担心其个人信息安全,其还享有随时关闭“Bard活动记录”的权利,以进一步为自己的个人信息安全提供保障。此外,即使用户选择开启“Bard活动记录”,谷歌也并不会永久保存这些用户数据,而是会定时清除,默认的清除周期为18个月。根据谷歌在“‘Bard活动记录’设置”中的说明,用户对于谷歌18个月自动删除的功能既可以选择关闭,也可以依照自己的实际需求调整自动删除的期限。谷歌的上述规定,充分保护了用户的隐私和个人信息安全。


渠道二:谷歌为使用Bard的用户提供了“手动删除”功能。除了上述的自动删除功能外,谷歌还考虑到了用户可能的特殊数据需求,赋予了用户自由选择保留和删除何种数据的权利。在这种功能下,用户可以对其输入的内容作精细化处理,既可以选择想要保留的输入内容以提升其在Bard的使用体验,也可以选择想要删除的敏感隐私信息以对自己的个人信息安全加以保障。谷歌将保留和删除数据的选择权交予用户,在为用户提供便利和数据安全感的同时,也有利于提高其品牌形象以及用户满意度。


综上所述,可见谷歌旗下的Bard在为用户提供类似于OpenAI的“退出训练机制”的功能外,还进一步提供了完全由用户自行选择的“手动删除”功能。谷歌的这些规定,一方面极大保障了用户的个人信息安全,另一方面,对于增强用户对于其个人信息的掌控能力与利用能力,以及提升用户的数据使用体验具有重要意义。

(三) 讯飞对交互内容的处理方式

讯飞旗下与ChatGPT对标的产品是讯飞星火认知大模型(以下简称星火),其基本功能服务就包括人机交互对话,因此在星火推广和改进的过程中,自然也需要收集和使用用户在其中输入的交互内容。讯飞的《SparkDesk隐私政策》同样对如何收集和使用用户的个人信息作出了规定。[8] 


首先,其对用户个人信息的用途作出了规定。如上所述,星火这一产品的性质要求它需要大量收集用户的个人信息,以不断改进产品,因此《SparkDesk隐私政策》中的“二、我们如何收集和使用您的个人信息中的1.2人机交互对话部分” 便直接点明收集用户个人信息的主要目的在于改进SparkDesk的输出内容质量,并且没有提及用户个人信息会被用于其他商业目的的可能性。


其次,其对用户如何拒绝星火对其个人信息进行收集和处理作出规定。不同于OpenAI,星火并没有为用户设置专门的退出训练机制,而只是提示用户,如果想要拒绝软件对其个人信息的收集和处理,应当自行对输入的内容做慎重选择,一旦输入即视为同意加入星火的模型训练。


相较于OpenAI和Bard设定得较为全面的用户个人信息安全保障规定,星火对于用户拒绝其个人信息被收集和处理仅做出了基础的规定。但是相较于某款虚拟人聊天平台软件的《用户协议》交互内容条款规定的“用户一旦在该软件输入了数据,便授予了该公司将之用于对外宣传、公开等合法商业或非商业目的的权利”,星火主要将用户输入的数据用于星火的模型训练,而非对外公开或是商用,有利于维护用户的个人信息权益。


综上所述,ChatGPT、Bard、星火与我们在上一篇文章分析的某款虚拟人聊天平台软件作为同类型产品,在对于用户输入的交互内容的收集和使用的规定和具体设置方面,还是有不小的差异。ChatGPT、Bard、星火都没有规定,将交互内容复制、制作、展示、再现、表演、转换、发行、传播。此外,这三家公司中,Bard在用户个人信息保护方面考虑得最周全、条款设计得最完善、令用户选择最自由;相较于Bard,OpenAI对于用户自由选择保留和删除何种数据,没有做进一步的细化设置;而讯飞的完善程度虽不及OpenAI,用户的选择权仍有限,却也基本能够保证用户的个人信息权益。


注    释


[1] 参见OpenAI:《隐私政策》,https://openai.com/policies/privacy-policy,2023年6月7日访问。

[2] 参见《浅析ChatGPT训练数据之合理使用》,载微信公众号“金杜研究院”,https://mp.weixin.qq.com/s?src=11&timestamp=1686323658&ver=4580&signature=eq06ld*Q2Vdpz-uHyRZCvMVE-uylh9hmmEzWEiH636j6r3bStjB9KhpffHxL8RXDdwQtXLy658LGboHk42vVz5MYlHZ0mvKovatE3KzWo3LAuKMF4m5d0dnjDOmT-3Pn&new=1,2023年6月7日访问。

[3] 参见OpenAI:《您的数据如何用于改善模型性能》,https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance,2023年6月7日访问。

[4] 参见OpenAI:《您的数据如何用于改善模型性能》,https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance,2023年6月7日访问。

[5] 参见Bard:《Bard Privacy Notice》,https://support.google.com/bard/answer/13594961?hl=en&ref_topic=13278591&sjid=9563206725435806870-AP,点击“Try Bard”会自动弹出,2023年6月19日访问。

[6] 参见Bard:《Bard FAQ》,https://bard.google.com/faq?hl=en,2023年6月19日访问。

[7] 参见“Bard 活动记录”设置,https://myactivity.google.com/product/bard/controls,2023年6月19日访问。

[8] 参见讯飞:《SparkDesk隐私政策》,https://www.xfyun.cn/doc/spark/PrivacyPolicy.html#%E4%BA%8C%E3%80%81%E6%88%91%E4%BB%AC%E5%A6%82%E4%BD%95%E6%94%B6%E9%9B%86%E5%92%8C%E4%BD%BF%E7%94%A8%E6%82%A8%E7%9A%84%E4%B8%AA%E4%BA%BA%E4%BF%A1%E6%81%AF,2023年6月7日访问。

声    明

本公众号原创文章的著作权均归属于AI与网络法团队,需转载者请在本公众号后台留言或者发送申请至cyberlaw2018@outlook.com,申请需注明拟转载公众号/网站名称、主理者基本信息、拟转载的文章标题等基本信息。         


本文并非针对任何产品或服务的法律意见书。本文结论仅是根据作者搜集的资料产生的、暂时性的理论研究结论,可能存在不准确。本文不代表任何人或机构的正式意见。本文仅为交流之用,所有内容不构成对任何个案的意见、建议或观点。作者和本公众号明示不对任何根据本文任何内容的作为或不作为所导致的后果承担责任。



关于AI与网络法团队:


我们的目标是分享人工智能和网络法领域最前沿的资讯与文章,为中文世界带来更多的知识增量。


本次内容参与贡献的有:


陶    园,广东财经大学智慧法治研究中心研究人员

郭佳仪,广东财经大学智慧法治研究中心研究人员

李卓霖,广东财经大学智慧法治研究中心研究人员

曾晓洋,广东财经大学智慧法治研究中心研究人员


联系方式:

cyberlaw2018@outlook.com





// 往期推文


· 我和AI虚拟男(女)友对话的内容可以被服务商公开吗?——对某虚拟人聊天平台用户条款的分析
· 数字人直播带货的法律规制系列一:产业现状分析



· 网络直播打赏行为性质新论
· 美国国会研究处发布新报告:《生成人工智能和数据因素:初探》
· 姚志伟、方梓楠:广告标明义务如何管住“种草”?
· 美国教育部发布新报告:《 人工智能与教学和学习的未来:见解与建议》
· 日本对生成式人工智能的监管态度及市场反应
· 美国国会听证会观察之(一):AI产业与版权法如何实现衡平?

· 美国国会听证会观察之(二):AI产业发展与版权问题,来自版权创作者的观点
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存