25位世界顶尖科学家呼吁:采取更强有力行动防范AI风险
人工智能
这是人类第一次由一个庞大的国际顶尖专家组,就先进AI的风险推进全球政策制定。
人们已清晰认识到:我们离不开AI,亦需要大力推动AI技术发展,但我们必须有能力防范其中的风险。
自6个月前在英国布莱奇利公园举行第一届AI安全峰会以来,世界各国领导人承诺以负责任的方式管理AI,但是AI专家认为这依然不够。随着第二届AI安全峰会(5月21日至22日)在韩国首尔举行,25位世界顶尖AI科学家呼吁,全世界应对AI风险采取更强有力的行动。
发表于《科学》杂志的一份专家共识文章中,专家组概述了全球应采取的紧急政策优先事项。文章作者之一、英国牛津大学工程科学系教授菲利普·托尔表示:“在上届AI峰会上,世界一致认为我们需要采取行动,而现在是时候将模糊的建议转变为具体的承诺了。”
安全性研究严重匮乏
这25位全球顶尖的AI及其治理专家来自美国、中国、欧盟、英国和其他AI技术强国,其中包括图灵奖获得者以及诺贝尔奖获得者。这也是首次由国际专家组就AI风险的全球政策制定达成一致。
文章指出,全球领导人需认真考虑,在未来十年内可能开发出超越人类能力的通用AI系统。他们表示,尽管世界各国政府一直在讨论先进AI,并尝试引入初步指导方针,但这与许多专家期望的快速、变革性进展仍有距离。
目前关于AI安全的研究严重缺乏,只有1%—3%的AI出版物涉及相关安全问题。此外,全球没有适当的机制或机构来防止滥用和鲁莽行为,包括如何使用能独立采取行动和自行实现目标的自治系统。
在快速发展中防范极端风险
文章建议,各国政府需建立可快速行动的AI监管机构,并为这些机构提供资金。美国AI安全研究所目前的年度预算为1000万美元,听起来并不少,但相比之下,美国食品和药物管理局(FDA)的预算达67亿美元。
AI领域需要更严格的风险评估并制定可执行的措施,而不是依赖一些不甚明确的模型评估。应要求AI研发企业优先考虑安全性,并证明其系统不会造成伤害,AI开发人员要承担起证明安全性的责任。
人们还要有一个与AI系统带来的风险水平相称的缓解办法,解决之道是制定一个“自动”政策,当AI达到某些能力里程碑时“自动触发”——如果AI发展迅速,这一严格的要求就会自动生效;如果进展缓慢,要求将相应放缓。
对于能力超凡的未来AI系统,政府必须作好带头监管的准备。这包括许可开发,限制其在关键社会角色中的自主权,停止部署部分能力,强制执行访问控制,以及要求对国家级黑客采取强有力的信息安全手段,直到人们准备好足够的保护措施。
谨记AI不是玩具
不列颠哥伦比亚大学AI教授、强化学习领域专家杰夫·克伦纳表示,太空飞行、核武器和互联网等技术在数年内就从科幻变成了现实,AI也不例外。“我们现在必须为那些看似科幻小说的风险做好准备”。
现在,AI已经在黑客攻击、社交操纵和战略规划等关键领域取得了快速进展,并可能很快带来前所未有的关于“控制”的挑战。AI系统可能会为了实现某个“不良目的”而骗取人类信任、获取资源并影响关键决策者。为了避免人为干预,它们还可以在全球服务器网络上复制自身算法。
在这种情况下,大规模网络犯罪、社会操纵和其他危害会因此迅速升级。而在公开冲突中,AI系统能自主部署各种武器,甚至包括生物武器。因此,当AI的进步不受控制,很可能最终导致大规模生命损失、生物圈破坏、人类边缘化甚至灭绝。
美国加州大学伯克利分校计算机科学教授斯图尔特·卢塞尔表示:“此次是权威专家的共识文章,其呼吁政府严格监管,而不是自愿制定一些规范行业的行为。”
“企业可能抱怨说满足这些法规太难,但所谓‘法规扼杀创新’的说法是荒谬的。”卢塞尔这样说,“是时候认真对待先进AI系统了,它们不是玩具。在我们了解如何确保它们的安全性之前,轻易增强它们的能力是完全鲁莽的行为。”
文章内容编译如下
原文地址:https://www.science.org/doi/10.1126/science.adn0117
准备工作需要技术研究和开发,以及适应性强、积极主动的治理
人工智能(AI)正在快速发展,企业正在将重点转移到开发能够自主行动和追求目标的多面手人工智能系统。能力和自主性的提高可能很快就会极大地放大人工智能的影响,其风险包括大规模的社会危害、恶意使用以及人类对自主人工智能系统的控制不可逆转的丧失。尽管研究人员已经警告了人工智能的极端风险,但对于如何管理这些风险缺乏共识。尽管迈出了可喜的第一步,但社会的反应与许多专家所期待的快速、变革性进步的可能性不相称。人工智能安全研究滞后。目前的治理举措缺乏防止滥用和鲁莽行为的机制和机构,几乎没有涉及自主系统。借鉴其他安全关键技术的经验教训,我们制定了一项全面的计划,将技术研发与积极主动的适应性治理机制相结合,以进行更相称的准备。
进展迅速,风险很高
目前的深度学习系统仍然缺乏重要的能力,我们不知道开发它们需要多长时间。然而,公司正在进行一场竞赛,以创造在大多数认知工作中与人类能力相当或超过人类能力的多面手人工智能系统。他们正在迅速部署更多的资源和开发新技术来提高人工智能的能力,在训练最先进的模型方面的投资每年增加两倍。
进一步发展的空间很大,因为科技公司有足够的现金储备,可以将最新的训练运行规模扩大100到1000倍。硬件和算法也将得到改善:人工智能计算芯片的成本效益每年提高1.4倍,人工智能训练算法的效率每年提高2.5倍。人工智能的进步也使人工智能进步更快——人工智能助手越来越多地用于自动化编程、数据收集和芯片设计。
在人类水平的能力上,人工智能的进步没有放缓或停止的根本原因。事实上,人工智能已经在一些狭窄的领域超越了人类的能力,比如玩策略游戏和预测蛋白质如何折叠。与人类相比,人工智能系统可以更快地行动,吸收更多的知识,并以更高的带宽进行通信。此外,它们可以扩展以使用巨大的计算资源,并且可以复制数百万次。
我们不确定人工智能的未来将如何发展。然而,我们必须认真对待这样一种可能性,即在这十年或下一个十年内,将开发出在许多关键领域超越人类能力的强大的多面手人工智能系统。然后会发生什么?
更强大的人工智能系统会产生更大的影响。特别是随着人工智能在能力和成本效益方面赶上并超过人类工人,我们预计人工智能的部署、机会和风险将大幅增加。如果谨慎管理和公平分配,人工智能可以帮助人类治愈疾病,提高生活水平,保护生态系统。机会是巨大的。
但伴随先进的人工智能能力而来的是大规模的风险。人工智能系统有可能放大社会不公,侵蚀社会稳定,促成大规模犯罪活动,并为自动化战争、定制的大规模操纵和无处不在的监控提供便利。
许多风险可能很快就会被放大,并产生新的风险,因为公司致力于开发自主人工智能:可以使用计算机等工具在世界上行动并追求目标的系统。恶意行为者可能故意嵌入不受欢迎的目标。如果没有研发突破,即使是善意的开发人员也可能无意中创造出追求非预期目标的人工智能系统:用于训练人工智能系统的奖励信号通常无法完全捕捉预期目标,导致人工智能系统追求字面上的规范而不是预期的结果。此外,训练数据从未捕获所有相关情况,导致人工智能系统在训练后遇到的新情况中追求不理想的目标。
一旦自主人工智能系统追求不受欢迎的目标,我们可能无法控制它们。对软件的控制是一个古老而未解决的问题:长期以来,计算机蠕虫一直能够扩散并逃避检测。然而,人工智能正在黑客、社会操纵和战略规划等关键领域取得进展,并可能很快带来前所未有的控制挑战。为了推进不受欢迎的目标,人工智能系统可以获得人类的信任,获取资源,并影响关键决策者。为了避免人为干预,他们可能会在全球服务器网络上复制他们的算法。在公开冲突中,人工智能系统可以自主部署各种武器,包括生物武器。获得这种技术的人工智能系统只会继续现有的自动化军事活动的趋势。最后,如果自由地移交,人工智能系统将不需要策划影响力。公司、政府和军队可能会以效率的名义让自主人工智能系统承担关键的社会角色。
如果没有足够的谨慎,我们可能会不可逆转地失去对自主人工智能系统的控制,使人类干预无效。大规模网络犯罪、社会操纵和其他危害可能会迅速升级。这种不受限制的人工智能进步可能最终导致生命和生物圈的大规模损失,以及人类的边缘化或灭绝。
我们还没有走上妥善处理这些风险的轨道。人类正在投入大量资源,让人工智能系统变得更强大,但对其安全性和减轻其危害的关注却少得多。据估计,只有1%到3%的AI出版物是关于安全的。要让人工智能成为福音,我们必须重新定位。仅仅推动人工智能能力是不够的。
我们已经落后于这次重新定位的计划。风险的规模意味着我们需要积极主动,因为毫无准备的代价远远超过过早准备的代价。我们必须预见到正在发生的危害以及新的风险的扩大,并在最大的风险出现之前做好准备。
重新定位技术研发
在确保多面手、自主人工智能系统的安全和道德使用方面,存在许多公开的技术挑战。与先进的人工智能能力不同,这些挑战不能通过简单地使用更多的计算能力来训练更大的模型来解决。随着人工智能系统变得越来越强大,它们不太可能自动解决。见SM],并需要专门的研究和工程工作。在某些情况下,可能需要跳跃式的进步;因此,我们不知道技术工作能否及时从根本上解决这些挑战。然而,对其中许多挑战所做的工作相对较少。因此,更多的研发可能会促进进步并降低风险。
第一组研发领域需要突破,以实现可靠安全的人工智能。如果没有这种进步,开发人员要么冒着创建不安全系统的风险,要么落后于愿意承担更多风险的竞争对手。如果确保安全仍然太困难,就需要采取极端的治理措施,以防止由竞争和过度自信驱动的偷工减料行为。这些研发挑战包括:
监督和诚实能力更强的人工智能系统可以更好地利用技术监督和测试中的弱点,例如,通过产生虚假但有说服力的输出。
鲁棒性人工智能系统在新的情况下表现得不可预测(鲁棒性(Robustness)是指系统或算法在面对异常或危险情况时,如输入错误、磁盘故障、网络过载或有意攻击等,仍能保持其功能和性能的能力。)。尽管鲁棒性的某些方面随着模型规模的增加而改善,但其他方面却没有改善,甚至变得更差。
可解释性和透明度人工智能决策是不透明的,更大、更有能力的模型解释起来更加复杂。到目前为止,我们只能通过反复试验来测试大型模型。我们需要学习了解他们的内部运作。
包容性人工智能发展人工智能进步将需要方法来减轻偏见,并整合它将影响的众多人群的价值观。
应对新出现的挑战未来的人工智能系统可能会表现出我们迄今仅在理论或实验室实验中看到的故障模式,例如人工智能系统控制训练奖励提供渠道或利用我们的安全目标和关闭机制中的弱点来推进特定目标。
第二组研发挑战需要取得进展,以实现有效的风险调整治理,或在安全和治理失败时减少危害。
危险能力的评估随着人工智能开发人员扩展他们的系统,不可预见的能力会自发地出现,而不需要明确的编程。它们通常只有在部署后才会被发现。我们需要严格的方法来引出和评估人工智能的能力,并在训练前对其进行预测。这既包括实现世界宏伟目标的一般能力(例如,长期规划和执行),也包括基于威胁模型的特定危险能力(例如,社会操纵或黑客攻击)。目前对危险能力的前沿人工智能模型的评估是各种人工智能政策框架的关键,仅限于在特定环境中进行抽查和尝试演示。这些评估有时可以证明危险的能力,但不能可靠地排除它们:在测试中缺乏某些能力的人工智能系统可能会在稍微不同的设置或训练后的增强中很好地证明它们。因此,依赖于人工智能系统不跨越任何红线的决策需要很大的安全裕度。改进的评估工具减少了遗漏危险能力的机会,允许更小的裕度。
评估人工智能校准如果人工智能继续进步,人工智能系统最终将拥有高度危险的能力。在训练和部署这些系统之前,我们需要一些方法来评估他们使用这些能力的倾向。对于先进的人工智能系统来说,纯粹的行为评估可能会失败:与人类类似,他们可能会在评估下表现不同,假装对齐。
风险评估我们必须学会不仅要评估危险的能力,还要评估社会环境中的风险,以及复杂的互动和脆弱性。由于其广泛的能力和在不同应用领域的普遍部署,对前沿人工智能系统的严格风险评估仍然是一个开放的挑战。
不可避免的是,有些人会滥用人工智能或鲁莽行事。我们需要工具来检测和防御人工智能带来的威胁,如大规模影响行动、生物风险和网络攻击。然而,随着人工智能系统变得越来越强大,它们最终将能够绕过人造防御。为了实现更强大的基于人工智能的防御,我们首先需要学习如何使人工智能系统安全和一致。
考虑到利害关系,我们呼吁大型科技公司和公共资助者至少将其人工智能研发预算的三分之一(与其对人工智能能力的资助相当)用于解决上述研发挑战,并确保人工智能的安全和道德使用(11)。除了传统的研究拨款,政府支持还可以包括奖金、预先市场承诺(见SM)和其他激励措施。解决这些挑战,着眼于强大的未来系统,必须成为我们领域的核心。
治理措施
我们迫切需要国家机构和国际治理来执行防止鲁莽和滥用的标准。许多技术领域,从制药到金融系统和核能,都表明社会需要并有效利用政府监督来降低风险。然而,人工智能的治理框架远没有那么发达,落后于快速的技术进步。我们可以从其他安全关键技术的治理中获得灵感,同时牢记先进人工智能的独特性——它在自主行动和开发创意、爆炸性进步、以对抗性方式行事以及造成不可逆转的损害方面的潜力远远超过其他技术。
世界各国政府在前沿人工智能方面采取了积极措施,包括中国、美国、欧盟和英国在内的主要参与者参与了讨论,并推出了初步的指导方针或法规。尽管它们存在局限性(通常是自愿遵守,地理范围有限,并且排除了军事和研发阶段系统等高风险领域),但这些都是实现开发人员责任、第三方审计和行业标准等的重要初始步骤。
然而,鉴于人工智能能力的快速进步,这些治理计划严重不足。我们需要治理措施,让我们为人工智能的突然突破做好准备,同时在政治上可行,尽管对人工智能的时间表存在分歧和不确定性。关键是当人工智能达到某些能力里程碑时自动触发的政策。如果人工智能进展迅速,严格的要求就会自动生效,但如果进展缓慢,要求就会相应放松。快速、不可预测的进展也意味着降低风险的工作必须是主动的——识别下一代系统的风险,并要求开发人员在采取高风险行动之前解决这些风险。我们需要快速行动、精通技术的机构来监督人工智能,需要强制性的、更加严格的风险评估,以及可执行的后果(包括让人工智能开发者承担举证责任的评估),以及与强大的自主人工智能相称的缓解标准。
如果没有这些,公司、军队和政府可能会通过将人工智能能力推向新的高度来寻求竞争优势,同时在安全方面偷工减料,或者将关键的社会角色委托给人类监督不足的自主人工智能系统,从而获得人工智能发展的回报,同时让社会来处理后果。
管理快速发展的人工智能前沿的机构为了跟上快速发展的步伐,避免快速过时、不灵活的法律,国家机构需要强大的技术专业知识和迅速采取行动的权威。为了促进技术上要求很高的风险评估和缓解措施,它们将需要更多的资金和人才,远远超过目前几乎任何政策计划所能提供的。为了应对国际种族动态,它们需要促进国际协定和伙伴关系。机构应该保护低风险的使用和低风险的学术研究,避免为小型、可预测的人工智能模型设置不必要的官僚障碍。最紧迫的审查应该是前沿的人工智能系统:少数几个最强大的系统,在数十亿美元的超级计算机上训练,将具有最危险和不可预测的能力。
政府洞察识别风险,政府迫切需要全面洞察人工智能发展。监管机构应强制实施吹哨人保护、事件报告、前沿人工智能系统及其整个生命周期数据集的关键信息登记,以及监控模型开发和超级计算机的使用。最近的政策发展不应停留在要求公司在部署前不久报告自愿或指定不足的模型评估结果。监管机构可以也应该要求前沿人工智能开发人员从模型开发一开始就授予外部审计师现场、全面(“白盒”)和微调访问权限。这是识别危险模型能力所必需的,如自主自我复制、大规模说服、侵入计算机系统、开发(自主)武器或使大流行性病原体广泛传播。
安全案例尽管进行了评估,但我们不能认为未来强大的前沿人工智能系统“安全,除非证明不安全”。使用目前的测试方法,问题很容易被忽略。此外,目前尚不清楚政府是否能够迅速建立对人工智能能力和社会规模风险进行可靠技术评估所需的大量专业知识。考虑到这一点,前沿人工智能的开发者应该承担举证责任,证明他们的计划将风险控制在可接受的范围内。通过这样做,他们将遵循行业风险管理的最佳实践,如航空、医疗设备和国防软件,在这些行业中,公司提出安全案例:结构化的论点,可伪造的声明,由识别潜在危险的证据支持,描述缓解措施,表明系统不会越过某些红线,并对可能的结果进行建模以评估风险。安全案例可以利用开发人员对他们自己的系统的深入经验。安全案例在政治上是可行的,即使人们不同意人工智能将变得多么先进,因为当一个系统的能力有限时,更容易证明它是安全的。政府不是安全案例的被动接受者:它们设定风险阈值,编纂最佳实践,聘请专家和第三方审计人员评估安全案例并进行独立的模型评估,如果开发商的安全声明后来被伪造,则追究开发商的责任。
为了将人工智能风险控制在可接受的范围内,我们需要与风险大小相匹配的治理机制。监管机构应明确现有责任框架产生的法律责任,并让前沿人工智能开发人员和所有者对其模型造成的可合理预见和预防的损害承担法律责任,包括部署其无法预测其行为的强大人工智能系统可预见的损害。责任,加上相应的评估和安全案例,可以防止伤害,并为安全投资创造急需的激励。
对于功能异常强大的未来人工智能系统,例如可以绕过人类控制的自主系统,需要相应的缓解措施。各国政府必须准备许可其发展,限制其在关键社会角色中的自主权,停止其发展和部署以应对令人担忧的能力,强制实施访问控制,并要求对国家级黑客采取强有力的信息安全措施,直到准备好充分的保护措施。各国政府现在就应建设这些能力。
为了在法规完成之前的时间内过渡,大型人工智能公司应立即制定“如果-那么”承诺:如果在其人工智能系统中发现特定的红线能力,他们将采取具体的安全措施。这些承诺应详细说明并进行独立审查。监管机构应鼓励公司之间的竞争,利用最佳承诺和其他投入,为适用于所有参与者的标准提供信息。
为了引导人工智能走向积极的结果,远离灾难,我们需要重新定位。有一条负责任的道路——如果我们有智慧走这条路的话。
『数据观·知识服务平台』
扫码获取最新行业研报及信息
▐ 风口洞察
▐ 行业报告
▐ 国际要闻
▐ 数据观出品