查看原文
其他

刚刚!OpenAI提出Superalignment超级对齐20230706

本文翻译完成较为仓促,欢迎广大AI同仁对本文提出修改建议(特别是一些信达雅的意见),也欢迎加笔者微信Alphatue。

现象

*本文2000字左右


OpenAI需要科学和技术上的突破来引导和控制比我们更聪明的人工智能系统。为了在四年内解决这个问题,我们正在组建一个新的团队,由Ilya Sutskever和Jan Leike共同领导,我们会将迄今为止所获得的20%的计算量用于这项工作。我们正在寻找优秀的ML研究人员和工程师加入我们。

安全与对齐(Safety & Alignment)


超级智能将是人类有史以来最具影响力的技术,可以帮助我们解决世界上许多最重要的问题。但是,超级智能的巨大力量也可能非常危险,可能导致人类丧失能力,甚至人类灭绝。


这里我们关注的是超级智能(superintelligence)而不是AGI,以强调一个更高的能力水平。我们对未来几年的技术发展速度有很大的不确定性,所以我们选择以更困难的目标来调整一个能力更强的系统。

 现在看来还很遥远,我们相信它可能在这十年内到达。

管理这些风险将需要,除其他外,治理的新机构和解决超级智能的对齐问题:

我们如何确保比人类更聪明的人工智能系统遵循人类的意图?

目前,我们没有一个解决方案来引导或控制一个潜在的超级智能的人工智能,并防止它流氓化。我们目前调整人工智能的技术,如从人类反馈中强化学习,依赖于人类对人工智能的监督能力。但人类将无法可靠地监督比我们聪明得多的人工智能系统。

其他的假设也可能在未来被打破,比如在部署过程中有利的泛化特性,或者我们的模型在训练过程中无法成功检测和破坏监督。

 因此,我们目前的排列组合技术将无法扩展到超级智能。我们需要新的科学和技术的突破。

方法

我们的目标是建立一个大致是人类水平的自动对齐研究者(roughly human-level automated alignment researcher)。然后,我们可以通过大量的计算来扩展我们的努力,并迭代地对齐超级智能。

To align the first automated alignment researcher, we will need to 1) develop a scalable training method, 2) validate the resulting model, and 3) stress test our entire alignment pipeline:

为了align 第一个自动对齐研究者,需要
1)开发一个可扩展的训练方法
2)验证所产生的模型
以及3)对整个对齐管道进行压力测试:

为了在人类难以评估的任务上提供一个训练信号,可以利用人工智能系统来协助评估其他人工智能系统(可扩展的监督)。此外,我们希望了解和控制我们的模型如何将我们的监督泛化到我们无法监督的任务上(泛化)。
为了验证我们系统的一致性,我们自动搜索有问题的行为(鲁棒性)和有问题的内部结构(自动化可解释性)。

最后,我们可以通过故意训练错位的模型来测试我们的整个管道,并确认我们的技术可以检测到最糟糕的错位类型(对抗性测试)。
我们预计,随着我们对这个问题的进一步了解,我们的研究重点会有很大的变化,我们可能会增加全新的研究领域。我们正计划在未来分享更多关于我们的路线图。

新团队的建立

我们正在组建一个由顶级机器学习研究人员和工程师组成的团队来研究这个问题。

在未来四年里,我们将把迄今为止所获得的20%的计算量用于解决超级智能的对接问题。我们的主要基础研究赌注是我们新的超级对齐团队,但把这个问题解决好对实现我们的使命至关重要,我们希望许多团队能做出贡献,从开发新方法到将其扩大到部署。

我们的目标是在四年内解决超级智能对齐的核心技术挑战。

虽然这是一个令人难以置信的雄心勃勃的目标,我们不能保证成功,但我们乐观地认为,一个集中的、协调一致的努力可以解决这个问题:

解决这个问题包括提供证据和论据,使机器学习和安全社区相信这个问题已经解决了。如果我们未能对我们的解决方案有非常高的信心,我们希望我们的发现让我们和社区适当地计划。

 有许多想法在初步实验中显示出了希望,我们有越来越多有用的进展指标,我们可以使用今天的模型来实证研究许多这样的问题。

Ilya Sutskever(OpenAI的联合创始人和首席科学家)已将此作为他的核心研究重点,并将与Jan Leike(Alignment的负责人)共同领导该团队。加入这个团队的有我们以前的对齐团队的研究人员和工程师,以及公司其他团队的研究人员。


我们也在寻找优秀的新研究人员和工程师加入这一努力。超级智能对齐从根本上说是一个机器学习问题,我们认为优秀的机器学习专家--即使他们还没有从事对齐工作--也将是解决这个问题的关键。


我们计划广泛分享这项工作的成果,并将为非开放人工智能模型的对齐和安全作出贡献视为我们工作的重要组成部分。

这个新团队的工作是对OpenAI现有工作的补充,旨在提高当前模型(如ChatGPT)的安全性,以及理解和减轻人工智能的其他风险,如滥用、经济破坏、虚假信息、偏见和歧视、成瘾和过度依赖等。虽然这个新的团队将专注于机器学习的挑战,使超级智能的人工智能系统与人类的意图保持一致,但也有相关的社会技术问题,我们正积极与跨学科专家接触,以确保我们的技术解决方案考虑更广泛的人类和社会问题。

参考资料

1.https://openai.com/blog/introducing-superalignment

【阅读更多】


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存