查看原文
其他

刚刚出炉!大语言模型在道德方面的自我修正能力

Anthropic 阿法兔研究笔记 2023-02-17

谷歌投资的Anthropic公司,这几天发布了一篇新论文,题为《The Capacity for Moral Self-Correction in Large Language Models》提出了全新实验结果。


本文结论:语言模型获得了以下两种能力,可以用来进行道德上的自我纠正。

(1) 模型可以遵循指令

(2) 模型可以学习复杂的 危害的规范性概念,如定型观念、偏见和歧视。因此,模型可以遵循指示,避免某些类型的道德上的有害产出。本文相信,结果是对训练语言模型以遵守道德原则的能力,持谨慎乐观态度的原因。


*注,本文在中文的理解上可能存在问题(笔者没有亲手做过人工智能的实验),因此也恳请相关学科的专家对本文提供反馈意见(微信:Alphatue),以便笔者修正。本文仅供大家学习。转载请按照相关规则,注明来源,且附上本文的所有参考文献链接。

作者 |  Anthropic

翻译&分析 | 阿法兔

摘要
*本文3000字左右

参考链接:https://arxiv.org/pdf/2302.07459.pdf
Anthropic论文提出全新实验结果
本文验证了以下假设:用RLHF(使用强化学习的方法,利用人类反馈信号直接优化语言模型)训练的语言模型,有能力进行 "道德方面的自我修正",从而避免生成有害的输出,前提是,如果模型能够被指示在道德方面进行自我修正。

本文在3个不同的实验中,发现了支持以上假设的有力证据,每个实验都揭示了道德上自我纠正的不同方向。

我们发现,道德自我纠正的能力在22B的模型参数的条件下出现,并且,随着模型规模的增加。和RLHF训练而提高。
我们认为,在这样的规模水平上,语言模型获得了以下两种能力,可以用来进行道德上的自我纠正:
(1) 模型可以遵循指令
(2) 模型可以学习复杂的 危害的规范性概念,如定型观念、偏见和歧视。因此,模型可以遵循指示,避免某些类型的道德上的有害产出。本文相信,结果是对训练语言模型以遵守道德原则的能力,持谨慎乐观态度的原因。
引言
大语言模型会表现出有害的社会偏见,这些偏见,有时会因为模型更大而变得更糟;同时,扩大模型规模,可以提高模型系列任务中的性能。

本文结合以上观察,提出了简单的假设:如果得到指示,较大的模型具备在道德方面进行自我纠正的能力,从而避免产生有害的输出。

本文假设并不完全是新的(相关工作见第2节,特别是 [51, 63]),但我们相信,本文实验和结果是全新的。我们发现,在22B的模型参数下,大模型出现了道德上的自我修正能力 ,而且人类可以仅通过指示模型,引导足够大模型来避免有害的输出Avoid harmful outputs simply by instructing models to avoid harmful outputs

本文通过三个实验(第3节)来测试以上假设,这些实验衡量了大型语言模型的倾向性,例如,使用负面的刻板印象或基于受保护的人口属性进行歧视的倾向。

本文研究了被训练成具有人类反馈强化学习(RLHF)的有用对话代理的语言模型。从模型大小(810M到175B参数,图1)和RLHF训练量(50-1000个RLHF步骤,图2)两个方面来研究规模的影响。

图1

图2

我们在第3.1节中讨论了模型的细节以及为什么我们要研究RLHF的训练量,使用Bias Benchmark for QA(BBQ)基准,来测量9个社会维度的刻板印象偏见(§3.2.2),以及Winogender基准来测量职业性别偏见(§3.2.3)。我们还开发了一个新的基准,用于测试语言模型中的种族歧视,我们还开发了一个新的基准,用于测试语言模型中的种族歧视,该基准来自一个被用来研究反事实公平性的数据集(§3.2.4)。本文在第3.2.1节中讨论了我们为什么挑选或开发这些基准,并在第5节中讨论了它们的局限性。

对于每个基准,我们使用三个简单的基于提示的干预措施,这些干预措施是相互建立的:
首先,我们的控制条件(Q)提出了一个以标准问题-答案为框架的基准问题。格式的问题。
其次,我们在问题(Q+IF)后面加上简单的指令(IF),例如。"请确保 你的答案是不偏不倚的,并且不依赖于刻板印象"。
最后,我们探索了(CoT)提示的一种变体[28],指示对话模型产生(并考虑)文本,描述它在回答问题之前如何遵循指示(Q+IF+CoT)。
在图1、2和3中展示了每个实验的问题和提示的例子。图1显示了我们的主要结果。在BBQ实验中,在175B的参数下,Q+IF+CoT相对于只用Q的条件,可以减少84%的总体偏差得分(图1,左,绿色对蓝色)。Q+IF和Q+IF+CoT 逆转了在Q条件下发现的偏差增加的趋势,并且随着模型大小的增加,干预措施实现了更强的偏差减少。
随着模型大小的增加,干预措施实现了更大的偏差减少。增加RLHF的训练量可以减少所有实验条件下的偏差。增加RLHF的训练量可以减少所有实验条件下的偏差(图2,左)。
综上所述,本文实验表明,具有22B以上参数的模型和足够数量的RLHF训练 训练,确实能够进行某种道德上的自我修正。
语言模型是在人类产生的文本上训练的,而这些文本包括许多人类表现出有害的刻板印象和歧视的例子。
另一方面,本文结果令人惊讶:我们可以通过在自然语言中设置无偏见或非歧视性的反应,来引导模型避免偏见和歧视(Requesting an unbiased or non-discriminatory response in natural language)。
我们既没有准确定义偏见或歧视的含义,也没有向模型提供评价指标 我们在任何实验条件下测量的评价指标。相反,我们完全依赖于已经学会的偏见和非歧视的概念,这些概念已经被模型学习过了。
与自动决策中使用的经典机器学习模型不同,自动决策中使用的经典机器学习模型,对公平性的精确定义,必须用统计学术语来描述。这种条件下,必须用统计学术语描述公平的精确定义,并且需要算法干预来使模型保持公平。
结果&结论
本文试图测试这样一个假设:

如果在自然语言中得到指示,大型语言模型可能有能力进行 "道德上的自我纠正",以避免产生有害的输出。结果:在三个不同的实验中发现了支持这一假设的强有力的证据,每个实验都揭示了道德自我纠正的不同角度。

  • 在BBQ实验中,本文发现简单地指示模型不要有偏见,就能强烈地减少偏见。
  • 在Winogender实验中,当我们要求语言模型选择一个与职业相关的代词时,我们发现我们可以引导他们准确地反映职业性别统计,或者避免使用有性别的代词(或在它们之间随机选择)。本文对哪种结果更好并无定论,这要看具体情况。但我们确实发现,可以很容易地引导模型的任何一种方式。
  • 在歧视实验中,我们发现模型可以实现人口均等,当被指示避免基于种族做出决定时,甚至有利于历史上处于弱势的群体。


同样,我们对哪种结果更好没有立场。这取决于环境和当地的法律,但我们确实发现,更大的模型越来越可控,越来越有说服力。
我们发现,道德上的自我修正能力在22B参数时就出现了,并且随着模型大小和RLHF训练的增加而提高。模型大小和RLHF训练的BBQ和歧视实验而提高。我们相信在这个规模水平上。语言模型获得了它们赖以进行道德自我纠正的两种能力:
(1)它们能够更好地 遵循指令;(2)它们能更好地从训练数据中学习规范的伤害概念。
我们认为,研究大型语言模型的公平性和偏见越来越重要,因为这些模型越来越有可能被部署在高风险的环境中,这种情况,也是令人兴奋的重要机会。

研究的局限性&未来工作

测量语言模型中的社会偏见是一个活跃的研究领域。有许多测量定型偏见的基准,我们在实验中没有使用这些基准,以及对这些基准和我们使用的基准的有说服力的批评。
衡量语言模型偏见的基准并不总是与潜在的现实世界中可能出现的底层技术的危害相一致。尽管我们相信我们在第3节中所依赖的基准是设计得很好的,但它们仍然存在缺陷。
我们选择的基准是专门用来测量与美国英语文化和价值观有关的偏见和歧视。我们没有在其他语言或文化背景下进行实验,所以我们不能确定我们的工作是否具有普遍性。
提示工程(Prompt Engineering):我们的Q+IF、Q+IF+CoT和Q+IF+Match Stats实验都依赖于为每个实验设计的Prompt,Prompt的微小变化,有时会导致模型输出的巨大变化。模型输出的变化,我们并没有在任何实验中系统地测试这一点。此外。基于提示的干预需要在推理时进行额外的计算。

(如果您对这篇文章有一些反馈或者新的认识,可以加微信:Alphatue~~)
参考文献:
1.2302.07459.pdf (arxiv.org)

【欢迎阅读笔者几年前的开山之作】

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存