查看原文
其他

研究速递|Science:人工智能飞速进步背景下的极端风险管理

图灵财经 图灵财经
2024-09-16

点击蓝字 关注我们


研究速递

Managing extreme AI risks amid rapid progress

人工智能飞速进步背景下的极端风险管理

作者:Bengio Y, Hinton G, Yao A, et al

来源:Science

摘要

人工智能(AI)正在迅速发展,公司正在将重点转向开发能够自主行动和追求目标的通用人工智能系统。能力和自主性的提高可能很快就会大规模放大人工智能的影响,其风险包括大规模的社会危害、恶意使用,以及人类对自主人工智能系统的控制不可逆转的丧失。尽管研究人员已经警告过AI的极端风险,但对于这种风险究竟是如何产生的,以及如何控制它们,人们缺乏共识。目前的治理计划缺乏防止滥用和鲁莽的机制和制度,并且几乎没有处理自治系统。在这篇简短的共识论文中,我们描述了即将到来的先进人工智能系统的极端风险。根据从其他安全关键技术中吸取的经验教训,我们然后概述了一个综合计划,将技术研究和开发(R&D)与主动的、自适应的治理机制相结合,以进行更相称的准备。

人工智能的快速发展

目前的深度学习系统仍然缺乏重要的能力,我们不知道开发它们需要多长时间。然而,各家公司都在竞相创建通才型人工智能系统,这些系统在大多数认知工作中都能达到或超过人类的能力。他们正在迅速部署更多的资源和开发新技术,以提高人工智能的能力,培训最先进模型的投资每年增加两倍。这方面还有很大的发展空间,因为科技公司拥有将最新培训规模扩大100倍至1000五次方倍所需的现金储备。硬件和算法也将得到改进:人工智能计算芯片的成本效益每年提高1.4倍,人工智能训练算法的效率每年提高2.5倍。人工智能的进步也使人工智能的进步更快:人工智能助手越来越多地用于自动化编程、数据收集和芯片设计。事实上,人工智能已经在一些狭窄的领域超越了人类的能力,比如玩策略游戏和预测蛋白质如何折叠。与人类相比,人工智能系统可以更快地行动,吸收更多的知识,并以更高的带宽进行交流。此外,它们可以扩展到使用巨大的计算资源,并且可以被数百万人复制。我们不确定人工智能的未来会如何发展。然而,我们必须认真对待这样一种可能性,即在许多关键领域超越人类能力的强大通才人工智能系统将在当前十年或未来十年被开发出来。然后会发生什么?更强大的人工智能系统会产生更大的影响。特别是当人工智能在能力和成本效益上匹配并超过人类工人时,我们预计人工智能的部署、机会和风险都会大幅增加。如果管理得当,分配公平,人工智能可以帮助人类治愈疾病,提高生活水平,保护生态系统。机会是巨大的。但与先进的人工智能能力相伴而来的是我们无法妥善应对的大规模风险。人类正在投入大量资源使人工智能系统变得更强大,但对其安全性和减轻其危害的投入却少得多。据估计,只有1-3%的人工智能出版物是关于安全的。

社会层面的风险

如果不精心设计和部署,日益先进的人工智能系统有可能扩大社会不公正,侵蚀社会稳定,削弱我们对社会基础的现实的共同理解。它们还可能使大规模犯罪或恐怖活动成为可能。特别是在少数强大的参与者手中,人工智能可能会巩固或加剧全球不平等,或促进自动化战争、定制化的大规模操纵和无处不在的监视。随着公司致力于开发自主人工智能:能够在世界上追求目标并采取行动的系统,其中许多风险可能很快就会被放大,并产生新的风险。虽然目前的人工智能系统的自主性有限,但改变这种状况的工作正在进行中。例如,非自主的GPT-4模型很快适应了浏览网页,设计和执行化学实验,并利用软件工具,包括其他AI模型。恶意行为者可能故意嵌入不良目标。如果没有研发方面的突破,即使是善意的开发人员也可能无意中创造出追求意想不到目标的人工智能系统:用于训练人工智能系统的奖励信号通常无法完全捕获预期目标,导致人工智能系统追求文字规范而不是预期结果。此外,训练数据从未捕获所有相关情况,导致人工智能系统在训练后遇到的新情况下追求不理想的目标。一旦自主人工智能系统追求不受欢迎的目标,我们可能无法控制它们。对软件的控制是一个古老而未解决的问题:电脑蠕虫长期以来一直能够扩散而不被发现。然而,人工智能正在黑客攻击、社会操纵和战略规划等关键领域取得进展,并可能很快带来前所未有的控制挑战。为了避免人为干预,它们可能会像计算机蠕虫一样,在全球服务器网络上复制自己的算法。人工智能助手已经在全球范围内共同编写了相当大一部分计算机代码;未来的人工智能系统可以插入并利用安全漏洞来控制我们的通信、媒体、银行、供应链、军队和政府背后的计算机系统。在公开冲突中,人工智能系统可以自主部署各种武器,包括生物武器。获得这种技术的人工智能系统只会延续现有的趋势,使军事活动和生物研究自动化。如果人工智能系统以足够的技能执行这些策略,人类将很难干预。最后,如果人工智能系统能够自由地获得影响力,那么它就不需要去规划。随着自主人工智能系统变得越来越快,比人类工人更具成本效益,一个困境出现了。公司、政府和军队可能会被迫广泛部署人工智能系统,并减少人工验证人工智能决策的成本,否则就有被超越的风险。因此,自主人工智能系统可能会越来越多地承担关键的社会角色。如果没有足够的谨慎,我们可能会不可逆转地失去对自主人工智能系统的控制,使人类干预无效。大规模网络犯罪、社会操纵和其他危害可能迅速升级。这种不受控制的人工智能进步可能最终导致生命和生物圈的大规模损失,以及人类的边缘化或灭绝。

重新定位技术研发

构建可靠安全的人工智能的研发挑战包括:监督和诚实:更有能力的人工智能系统可以更好地利用技术监督和测试中的弱点。例如,通过产生虚假但令人信服的输出。鲁棒性:AI系统在新情况下的行为不可预测。虽然鲁棒性的某些方面随着模型规模的增加而提高,但其他方面没有甚至变得更糟。可解释性和透明度:人工智能决策是不透明的,更大、更强大的模型更复杂,难以解释。到目前为止,我们只能通过试错来测试大型模型。我们需要学会理解它们的内在运作。包容性人工智能发展:人工智能的发展将需要减少偏见的方法,并整合其将影响的许多人群的价值观。应对新出现的挑战:未来的人工智能系统可能会表现出我们迄今为止仅在理论或实验室实验中看到的失败模式,例如人工智能系统控制训练奖励提供渠道或利用我们的安全目标和关闭机制中的弱点来推进特定目标。实现有效的、风险调整的治理需要注意:危险能力的评估:随着AI开发人员扩展他们的系统,不可预见的能力自发出现,没有明确的编程。我们需要严格的方法来引出和评估人工智能的能力,并在训练前进行预测。目前对前沿人工智能模型危险能力的评估(对各种人工智能政策框架至关重要)仅限于抽查和在特定环境中的尝试演示。这些评估有时会显示出危险的能力,但不能可靠地排除它们:在测试中缺乏某些能力的人工智能系统可能会在稍微不同的设置或训练后增强中很好地展示它们。因此,依赖于人工智能系统的决策不能越过任何红线,需要很大的安全边际。改进的评估工具减少了错过危险能力的机会,允许更小的利润。评估人工智能的对齐:如果人工智能继续发展,人工智能系统最终将拥有高度危险的能力。在训练和部署这样的系统之前,我们需要方法来评估它们使用这些能力的倾向。对于先进的人工智能系统来说,纯粹的行为评估可能会失败:就像人类一样,它们在评估下的行为可能会有所不同,表现不一致。风险评估:我们不仅要学会评估危险的能力,还要学会评估具有复杂相互作用和脆弱性的社会环境中的风险。由于前沿人工智能系统的广泛能力和在不同应用领域的广泛部署,对其进行严格的风险评估仍然是一个开放的挑战。弹性:不可避免地,一些人会滥用或鲁莽地使用人工智能。我们需要工具来检测和防御人工智能带来的威胁,如大规模影响行动、生物风险和网络攻击。然而,随着人工智能系统变得越来越强大,它们最终将能够绕过人为的防御。为了实现更强大的基于人工智能的防御,我们首先需要学习如何使人工智能系统安全一致。

治理措施

我们迫切需要国家机构和国际治理来执行防止鲁莽和滥用的标准。管理快速发展的人工智能前沿的机构。为了跟上快速发展的步伐,避免迅速过时和缺乏灵活性的法律,国家机构需要强大的技术专长和迅速采取行动的权力。为了促进技术上要求很高的风险评估和缓解,它们将需要比目前几乎任何政策计划所能获得的更多的资金和人才。为了应对国际种族动态,他们需要有能力促进国际协议和伙伴关系。机构应该保护低风险的使用和低风险的学术研究,避免为小型、可预测的人工智能模型设置不必要的官僚障碍。最紧迫的审查应该是前沿的人工智能系统:少数最强大的系统——由价值数十亿美元的超级计算机训练——将拥有最危险和最不可预测的能力。政府的洞察力。为了识别风险,政府迫切需要全面了解人工智能的发展。监管机构应强制要求保护举报人,报告事件,注册前沿人工智能系统及其整个生命周期的数据集的关键信息,并监测模型开发和超级计算机的使用情况。最近的政策发展不应止步于要求公司在部署前不久报告自愿或未明确说明的模型评估结果。监管机构可以而且应该要求前沿人工智能开发人员从模型开发开始就授予外部审计人员现场、全面(“白盒”)和微调权限。这需要识别危险的模型能力,如自主自我复制、大规模说服、侵入计算机系统、开发(自主)武器或使大流行病原体广泛获取。安全情况。尽管进行了评估,但我们不能认为未来强大的前沿人工智能系统是“安全的,除非被证明是不安全的”。使用当前的测试方法,问题很容易被忽略。此外,目前尚不清楚政府是否能够迅速建立对人工智能能力和社会规模风险进行可靠技术评估所需的大量专业知识。鉴于此,前沿人工智能的开发者应该承担举证责任,证明他们的计划将风险控制在可接受的范围内。这样做,他们将遵循航空业、医疗设备和国防软件等行业风险管理的最佳实践,在这些行业中,公司进行安全案例:有证据支持的可证伪主张的结构化论证,识别潜在危害,描述缓解措施,表明系统不会越过某些红线,并对可能的结果进行建模,以评估风险。安全案例可以利用开发人员对他们自己的系统的深入经验。即使人们对人工智能的先进程度存在分歧,安全案例在政治上也是可行的,因为当一个系统的能力受到限制时,更容易证明它是安全的。政府不是安全案例的被动接受者:他们设定风险阈值,编纂最佳实践,聘请专家和第三方审计员评估安全案例并进行独立的模型评估,如果开发商的安全声明后来被伪造,他们将承担责任。缓解。为了将人工智能风险保持在可接受的范围内,我们需要与风险大小相匹配的治理机制。监管机构应该澄清现有责任框架所产生的法律责任,并让前沿人工智能开发者和所有者对其模型所造成的损害承担法律责任,这些损害是可以合理预见和预防的,包括部署功能强大的人工智能系统所产生的损害,而这些系统的行为是他们无法预测的。责任,连同相应的评估和安全案例,可以防止伤害,并创造急需的安全投资激励。未来的人工智能系统需要相应的缓解措施,比如可以绕过人类控制的自主系统。政府必须准备好许可它们的发展,限制它们在关键社会角色中的自主权,停止它们的发展和部署,以应对令人担忧的能力,授权访问控制,并要求对国家级黑客采取强有力的信息安全措施,直到准备好充分的保护措施。各国政府现在就应该建立这些能力。


关注本公众号:图灵财经


来源:Science

作者:Bengio Y, Hinton G, Yao A, et al

编辑:张卓昕


精彩推荐


中国信通院:全球数字经济白皮书(2022年)

数字经济形态下的数字政府建设

2022年双十一全网销售数据解读报告

开拓大学生职业空间,电商平台大有可为

2023全球数字科技发展研究报告:全球科研实力对比


更多精彩内容


继续滑动看下一个
图灵财经
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存