【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任:确保人工智能技术的使用合乎道德
【深入探讨人工智能】网络研讨系列总共有 17 个视频。我们按照视频内容,大致上分成了 3 个大类:
1. 人工智能的开放、风险与挑战(4 篇)
2. 人工智能的治理(总共 12 篇),其中分成了几个子类:
a. 人工智能的治理框架(3 篇)
b. 人工智能的数据治理(4 篇)
c. 人工智能的许可证(4 篇)
d. 人工智能的法案(1 篇)
3. 炉边对谈-谁在构建开源人工智能?
今天发布的是第二个类别“人工智能的治理框架”里的第一个视频:【基于 LLM 的推荐系统中的公平与责任:确保人工智能技术的使用合乎道德】。
我们期盼如此分类,对读者的易读性有帮助,也欢迎读者们的反馈和指正。
--- 开源社.国际接轨组 ---
大家好,欢迎来到由 OSI 组织主办的 Deep Dive 系列网络研讨会,今天我们将听到 Rohan Singh Rajput 关于【基于大语言模型的推荐系统中的公平与责任: 如何确保人工智能技术的道德使用】的演讲。希望你们喜欢这个演讲,最后会回答大家的问题。
大家好,我叫罗汉·辛格·拉杰普特。今天,我将讨论【基于大语言模型的推荐系统中的公平和责任】。因此,在本节课中,我们将讨论如何使用基于大语言模型的推荐系统;在基于大语言模型(LLM)的推荐系统中,未来可能会面临哪些不同的问题。关键挑战问题之一是公平和责任,接下来我们会讨论这个问题;还会讲讲什么是基于 LLM 的推荐系统;概述基于 LLM 的推荐系统,LLM 和公平性问题是什么;我们可以提出哪些可能的解决方案,正在尝试解决这些问题的方向有哪些。
我想先聊聊什么是基于大语言模型(LLM)的推荐系统。大家都知道,LLM 是大型语言模型,这些系统是在大量文本数据上训练的,预测序列中的下一个单词是什么。最流行的是 ChatGPT,Google Bard,还有最近的 Meta Llama。这些系统是在许多不同类型的数据上训练的,数据主要来自互联网、研究论文和许多其他来源的文本数据。这有助于模型学习不同单词的上下文信息的联系。系统可以根据需求执行各种任务。这个基于 LLM 系统的关键部分我们称之为 PROMPT(提示词)。以这个提示词作为一个查询,系统进行信息检索,然后生成输出。
现在来谈谈推荐系统。推荐系统属于信息检索系统的一个领域,是一种向用户提供某种建议的信息过滤系统。常见的推荐系统有亚马逊。打开亚马逊,你会看到推荐给你的商品。或者在 Netflix 等各种流媒体服务中,会有一些推荐给你的节目。同样,推荐系统也可以用于多个领域,比如音乐、在线新闻、谷歌新闻。这里有一个基于机器学习的推荐系统的例子。系统也被用于个性化,这就意味着,系统可以根据经过训练的历史数据来做用户画像。系统利用了很多用户和物品的特性,基于用户随机特征,提取用户项的内部交互,在这种互动的基础上,系统化学习了各种各样的联系,基于这些联系,为用户推荐内容。
现在,我们来聊聊基于 LLM 的推荐系统。基于 LLM 的推荐系统是一个非常重要的领域。LLM 系统可以在各种领域工作,其中一个重要领域是自然语言处理。当进行查询时,LLM 系统可以基于我们在系统中输入的查询(查询即为提示词)进行输出。我们可以将基于 LLM 的推荐系统的工作分为两类。
第一类,预测任务。什么是预测任务?预测任务是系统进行查询的任务。用户最近看了这些电影,系统根据这些电影,推荐下一部电影给这个用户看。根据观看历史,给用户推荐五个电影候选。同样,在评分预测中,这个用户给这些电影打了不同评分。在此评分基础上,该用户将给某部特定的电影最有可能的评分是什么。
基于 LLM 的推荐系统的第二类工作更为高级。我们在做的是基于检索的模型。系统清单中存在一些信息,系统根据清单,进行输出。
第二类,生成式分类。系统会为用户生成一些推荐。其中一个是对话式推荐。这就像一个聊天机器人,用户提供输入“我最近看了这部科幻电影,请给我推荐”。你可以和推荐系统对话。系统会给你推荐,“OK,你想要这个吗?所以应该提供这个给你。”然后你说,“不,我不喜欢这部电影,给我点别的。”基于这种对话,推荐系统可以为你反复提供建议。这也是一个新的推荐系统的领域。另一个系统可以做的是解释生成。用户看了某部电影,一个新的电影会推荐给最近看过这部电影的用户,请解释为什么会推荐这部电影。系统可以帮助我们向用户提供解释。这意味着基于特定的电影集,推荐系统可以生成解释。因为你以前看过这种类型的电影,所以系统要给你推荐这种类型的电影。这些都是可以使用大型语言模型来进行推荐的类别。
现在有各种各样的开源库可用,我发现这是最受欢迎。我相信这些库可以用来建立一个推荐系统。需要注意的一点是,有些库非常广泛,比如微软的推荐器,或者视频建模,或者某种类型的推荐,这些是非常专业的。例如,视频建模,可以在 GPU 集群上运行大规模推荐,也有各种类型的以 Transformer 为基础的已经完成优化的架构,还有不同类型的基于 GPU 的复杂深度学习架构。这是一个计算效率很高的库,在大型 GPU 系统上运行得非常好。同样的,微软的推荐系统提供了一整套的推荐系统,这给了你获取数据的自由,它可以运行多种类型的模型或者推荐系统,让你看看哪种最适合你的数据,就像是推荐系统的开源库。
现在,我们已经讨论了什么是推荐系统,那么什么是大语言模型系统?如何结合这两个域来生成一个新的域呢?那就是被称为基于 LLM 的推荐系统,在这个基于 LLM 的推荐系统中,存在很多公平和道德问题。我们应该在未来解决这些问题,因为这对系统的成功非常重要。
第一,也是最重要的是公平和偏见。就其本身而言,推荐系统或 LLM 系统接受历史数据的训练。如果数据包含某种偏见,这种偏见可以被这些系统复制,所以这些偏见可以通过这个系统来预测。我们如何确保所有这些问题不会影响我们推荐系统的输出。因此,LLM 需要解决公平问题的几个重要领域之一是教育、犯罪学、金融和健康。
我想再讨论一下基于 LLM 的系统。因为基于 LLM 的系统是在大量文本数据上训练的,从本质上讲,它可以尝试将一些偏见和刻板印象融入到系统中,这也会影响推荐系统的性能。这就是为什么在一些非常关键或敏感的领域,我们应该非常非常小心地使用基于 LLM 的推荐系统。以医疗保健或金融为例,我们的制度应该给每个群体平等的机会,对财务建议给予公正的评价。例如,在提供抵押贷款、贷款或任何形式的财务帮助或财务建议时,应该确保系统给出了适当的建议,没有偏见的推荐,系统化对每个社区、每一种性别或者其他社会各个方面,都是公平的。这些问题应该妥善处理。
我们想要解决的另一个问题是推荐的多维度。我认为我们在这里要讨论的公平维度是统计上的平等,机会均等、胜算均等、总体准确性均等和反事实公平。在这些维度中,应该确保系统正常工作。我们可以看到李云奇等人的 ChatGPT 的公平性的论文中,ChatGPT 比传统推荐模型具有较高的公平性得分。例如,一个重建或多层感知模型但仍然存在公平性问题,在推出任何系统之前,这些公平性问题应该得到妥善处理。
延展开来,在基于 LLM 的模型中有一些非常明显的问题。其中一个重要的问题是幻觉。这个问题很重要。为什么?因为会影响用户的决策。众所周知,推荐系统影响用户决策过程。应该确保来自这些推荐系统的决定,LLM 应该有尽可能多的基于事实产生影响。而幻觉会产生不公平的内容。例如,如果生成产品描述,它不应该是虚假的、误导性的。这本身就是一个非常大的问题。推出某种产品时, LLM 系统对产品的进行描述,应该确保描述不会误导用户。这也也适用于生成的清单中不存在的产品的推荐。你正在浏览某种产品,比如 iPhone13,系统不应该生成一个标价为99美元的 iPhone 的图片,因为这是不存在的。这是一种误导性的营销,这是给用户错误的推荐。
第二,如果进一步扩展到对话系统中,问题只会变得更严重。系统不应该提出不切实际的解决办法。如果有人在寻找减肥建议,所有的系统都不应该这样想:你应该在接下来的七天里保持饥饿,不应该吃这个那个。这种做法不长久,这对用户来说非常危险,所以应该确保所有适当的检查都到位,系统不会犯这种错误。
另一件事,是编造信息。系统不应该产生不真实的随机事实,或者伪造观点,灌输错误的信息,或者给出不正确的建议。这些是误导,对用户有害。我们应该确保系统对这类危险非常有韧性,这是推荐系统的一个重要方面。要确保不会产生这种幻觉,否则会影响推荐系统的性能。那么解决方案是什么呢?一种解决方法可能是我们应该有非常强大的数据算法管道。我在这里列出了一些解决方案,可以逐个进行讨论。
我们应该有一个非常健壮的数据处理管道,这意味着有一个强有力的措施在偏置识别增强。一个例子是,这些都是非常敏感的属性,应该确保这不会影响模型的决策。在电影长度的数据中,我们看到有性别、年龄或者职业属性会影响电影长度推荐或评级的输出。保险数据也是如此,比如婚姻状况,或者像性别、职业、年龄,这些属性都有影响这些系统的决策。我们必须保证算法的公平,这意味着需要某些类型的检查。系统不应该产生某种约束,对某一组成员的任何偏见或者有什么顾虑,系统应该在这些关注范围内工作,我们也可以引入多目标优化。
假设我们正在一个推荐系统范围内,不仅要优化用户满意度,也想融入多样性。我们想给其他利益相关者一个公平的机会,比如有一个音乐流媒体应用,我们想提供一个公平的机会,所有艺术家都可以在用户屏幕上展示或推广他们的音乐。每个人都应该有公平地被推荐的机会,所以必须包含这些优化。系统本身,LLM 系统进行学习是另一个目标,也应该进行优化。不应该只追求提升点击率,或者提高使用满意度, 还应该采取事后透明的解决办法。
必须进行公平审计,这一点非常重要。为了确保系统是一个人类包含在循环内的解决方案,需要有专家会定期检查。专家会说,是的,这个系统是公平的,这并没有偏离我们的使命或对公平的关注。这种治理可以找到系统应该遵循的指导方针。如果系统做某种不公平的建议,也有反馈回路。应该在这个系统中加入一些惩罚措施,系统可以从这些惩罚中学习并改进自己。可观测性在这里起着非常非常重要的作用,如果有任何数据漂移、模型漂移或者概念漂移,可以提醒各自的利益相关者,让他们来解决这些问题。可解释性是很重要的一部分,系统应该非常透明。老实说,对于机器学习,我有一些反透明的经验。这是一项非常艰巨的任务,尤其是在基于神经网络的大语言模型,所以基于深度学习的系统本质上是非常复杂的。因为系统有非常高维的相互作用,这很难想象,但必须确保我们使用的系统能够提供可解释性。关于系统建议,也应该进行用户控制。如果系统偏离了某个方向,我们就必须介入,从一开始就解决这些问题。
第三件事是多样性和合规性。这意味着,正如我之前提到的,应该给每个用户组,或者每个艺术家组公平的机会。比如音乐推荐系统,社区的每个部分都有平等的机会得到推荐,这应该与系统相结合。还可以加入一些法规遵从性,也就是说应该有个法律指导方针,或者应该有法律要求来确保制度是公平的。那么推荐系统领域正在进行的尝试和未来的发展方向是什么呢?
一是用户教育监控,必须确保我们的用户理解这一点。系统使用什么样的公平标准,系统是如何产生某种建议以及这些建议如何提供平等的机会。这可能会伤害社区的其他部分,所以我们必须给出一个合理的解释:为什么要推荐这种内容,为什么不推荐别的。这种信息应该提供给用户,用户就可以坚定地接受推荐,并据此采取行动。我们还可以实现实时的公平性监控。如果某些指标产生偏离,每一次偏离实际上都有助于我们进行干预,帮助我们了解系统以某种方式运行的原因。我们能做些什么呢?第三方审计和社区参与。我们不应该是真相唯一的仲裁者,应该有其他第三方专门从事公正的评估。这有助于我们获得系统的可信度。我们也要确保不会把自己的偏见带入系统中,仅输入从各方那里得到所有的观点来确保系统按预期运行。还可以在定义和衡量公平方面纳入公众意见,这意味着可以通过用户调查来进行了解。也可以做市场调查来理解用户如何感知推荐的公平性。
最重要的事情是什么?是根据用户反馈采取行动。有时用户会提供反馈,应该始终接受反馈,应该始终保持开放的渠道,让用户提供他们的体验。基于这些反馈,我们改进了系统。因为这很有用,这对我们有利,因为用户提供了重要的信息,而有些时候我们会错过这些信息。不可能让每个人都审核所有的建议,但是当我们得到用户反馈的时候,我们可以去解决这些具体的和个别的问题。
所以,公平不仅仅是一个技术术语,这是一个非常社会化的术语。必须把所有的利益相关者都纳入进来。必须了解推荐系统的各个方面,确保我们的建议是公平的。而且这不是一个一蹴而就过程。这是一个非常艰难的过程,必须持续进行。这是一个非常宏大的问题,而且不能只用一种矩阵来解,或者不能用一种系统来解决。必须不断改进,经常进行。必须确定我们能做什么样的优化,哪些部分也许我们永远无法达到。必须确保尽可能地减少不能改进的部分。因此,我想我也要改进一下我的演讲。
如果你有任何问题,请在领英上联系我,我很乐意回答你的问题。
Rohan Singh Rajput
Senior Data Scientist @ Headspace
作者丨Rohan Singh Rajput
翻译 | 滕菲
审校 | 刘天栋
视频 | 陈玄
策划 | 李思颖、罗蕊艳
编辑丨储黄蕾
相关阅读 | Related Reading
【Deep Dive: AI Webinar】在开放开发的开源项目中引入 AI 的挑战
【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究
【Deep Dive: AI Webinar】自由与开源软件和人工智能的意识形态:“开放”对于平台和黑盒子系统意味着什么?
开源社简介
开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。
自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。