图灵奖得主Yoshua Bengio:关于灾难性AI风险的常见问题解答
The following article is from 安远AI Author Yoshua Bengio
在《关于灾难性AI风险的常见问题解答》这篇文章中,Yoshua Bengio回应了质疑AI可能带来灾难性风险的多种论点,重申了关注AI灾难性风险的必要性,并质疑了AI安全探讨中直接社会危害和未来灾难性风险之间的二分法。通过强调建立在人类权利基础上的全面监管框架的重要性,Bengio鼓励读者重新审视他们对AI风险的看法。
本文由安远AI组织AI安全技术社区的伙伴们进行翻译,在此感谢 Guancheng Qiu, Zifan Guo, Qingyuan Lu, Zhonghao He 的对于翻译的贡献。李博深亦对文章有贡献。
本文共16000字,大约需要40分钟阅读。
正文导语
我听到了很多关于灾难性AI风险(catastrophic AI risks)的不同观点。我想澄清这些论点,首先是为了我自己,因为我真的很想被说服我们不必担心。然而,分享它们并更广泛地展开讨论可能也是有用的。
首先,虽然我对灾难性AI风险的问题感兴趣已经有十年了,但我不是一个伦理学专家。在过去,我已经讨论了几种AI的负面社会影响和风险,一些已经产生具体的危害,比如由于放大的歧视和偏见,或由于用来发展AI的专业知识、权力和资本都集中于一个小规模的、缺乏代表性的人类群体(通常是来自世界最富有的国家之一、大学是计算机专业的白人男性),这可能会以牺牲很多人的利益为代价。参见《AI负责任发展蒙特利尔宣言》、Ruha Benjamin的著作《技术之后的竞赛》、我们最近与联合国合作的以人类权利为重点的AI社会影响概述,或Virginia Eubank关于《自动不平等》(即高科技如何锁定、管制和惩罚穷人)的著作。对这些持续危害的担忧有时被认为与对更先进的AI系统带来的灾难性风险的担忧相违背,对后者的讨论分散了对前者的关注。
下面提出的一些论点挑战了这种反对意见。这些论点建议我们应该推行一个监管框架,解决所有AI的危害和风险,并以人类权利为核心。请注意,我们关切的灾难性危害不仅包括大部分人类死亡的情形,还包括人类权利和民主制度受到严重损害的情形。相关的案例可以参阅我之前关于可能出现失控AI的文章 ,以及最近《TASRA: a Taxonomy and Analysis of Societal-Scale Risks from AI》这篇论文中关于灾难性场景的详细的本体论,其中许多都超出了下面所提到的设想。
在之后的章节,如果AI在大量任务中表现优于人类,我们就称之为超人AI;如果AI在大量任务表现中超越人类、对目标的执行可能产生灾难性的结果,我们就称之为超级危险的AI。使超人AI变得超级危险的技能包括战略推理、说服和操纵、新技术的研发、编程和黑客攻击等。事实上,AI不一定要变得超级智能或完全通用才会成为主要威胁,甚至也不必在每项任务上都超越人类才成为潜在威胁,但应该清楚的是,在更多领域的更高智能会增加风险。
在深入研究这些论点之前,我发现从我自己开始,经历一个“思维的过程”是很有用的:与其直接试图预测AI未来灾难性后果的可能性,不如问自己一些更明确定义的事件序列可能更有用,这些事件序列可能会产生灾难性的后果,因此我邀请大家,尤其是那些有相关专业知识的人来进行尝试。汇集来自不同人群的结论可能也是一项有用的工作。
PART ONE
面向AI和政策专家的调查
Poll for AI and policy experts
由于对于未来存在很多不确定性,因此考虑人们关于人类因失控的AI而遭受灾难这一可能性的意见多样性可能是有用的。考虑这样4个陈述:
A. 假设我们的社会没有结构性的变化,也没有相关的监管变化,在10年内,我们会知道如何以中型公司负担得起的成本建立一个超人AI系统。
B.假设我们的社会没有结构性和相关的监管变化,并且A是正确的,那么地球上有人会故意指示超人AI完成一些事情,如果AI成功实现了它的目标,其后果将是灾难性的。
C.假设我们的社会没有结构性和相关的监管变化,并且A是正确的,那么地球上有人会指示这样的AI变得自主和危险地不对齐(例如,有一个强大的自我保护目标或发展自己的子目标,如果实现,可能会产生灾难性的结果)。
D.假设我们的社会没有结构性和相关的监管变化,即使A发生了,然后B或C发生了,我们将能够利用现有的防御措施保护自己免受灾难的影响。
对四个概率PA, PB, PC和PD(注意它们都是条件概率)赋一个值或一个概率分布,使相应的陈述A, B和C(给定A)或D(给定A和B或C)为真。给定这四种概率,我们可以在我们没有提前充分重视这些潜在风险的情况下,用 PA x (1 – (1 – PB) x (1 – PC )) x (1 – PD ) 的乘积近似地量化灾难性结果的风险(但是限制访问1000倍将使总体概率降低几乎同样多)。在不确定这些概率的情况下,我们应该将上述乘积与从分布中获得的值(例如通过专家投票获得的值)进行平均。在阅读下面的讨论后,你可能想要重新进行投票。在进行调查(并通过下面的对话思考)时,我们应该清楚地看到,它需要多个专业领域的背景知识,而不仅仅是AI领域。
考虑到这一点,现在让我们以常见问题的形式深入研究这一困难的对话及其论点。这些问题是从认为我们不应该担心超级危险的AI的人的角度提出的,而答案是从担心这些可能性的人的角度给出的。
考虑到下面的论点,赞成认真对待这种风险的一些主要观点可以总结如下:
(1)许多专家一致认为,超人AI的能力可能在短短几年内出现(但也可能是几十年)
(2)数字技术比生物机器有优势
(3)由于其潜在的重大影响,即使概率很小,我们也应该认真对待超级危险的AI产生灾难性后果
(4)即使更强大的AI系统不在每个方面都超过人类,且他们在各方面都得通过人类产生非虚拟动作,只要他们可以操纵人类或为任务付费,那么这类AI系统也可能产生灾难性风险
(5)灾难性AI的结果是一系列危害和风险的一部分,应该以适当的投资和监督来减轻这些危害和风险,保护人类权利和人的尊严,包括可能使用安全的AI系统来帮助保护我们。
PART TWO
超级危险的AI
Superdangerous AI
Q1:目前最先进的AI系统与人类智能相差甚远,它们缺少基本的部分,没有任何意图。考虑到智能的复杂性和对智能本质的理解不足,我们可能需要几十年或几个世纪才能弥合这一差距。
A1:我同意我们缺少一些基本的部分,但是有大量的资金投入到AI中,最近AI系统的能力得到了意想不到的急剧加速,特别是在语言掌握能力和在直觉(即系统1)层面上获得理解能力。超人AI的能力研究正在取得进展,例如提高系统2的能力(推理、世界模型、因果关系、认知不确定性估计)。如果我们幸运的话,你是对的,设计这些超人AI的项目可能需要几十年的时间,因此我们会有更多的时间来准备和适应;但也很有可能,目前将系统2能力引入深度学习的提议将在几年内从根本上提高性能。我目前的估计是,发展出超人AI的时间范围为5到20年,置信区间为95%。即使时间上存在不确定性,我们也会采取行动尽量减少流行病等未来风险。具有意图和目标的AI系统已经存在:通过奖励函数,有时甚至用自然语言规范目标,大多数强化学习(RL)系统已经拥有(意图和目标)。至于人类水平的AI或超人AI是否可能,我强烈认为科学界已经达成共识,即大脑是生物机器,并且没有证据表明,构建至少与我们一样智能的机器在根本上无法实现。最后,AI系统不需要在所有方面都比人类更好,就能产生灾难性的影响(即使是最不智能的实体,比如病毒,也可能毁灭人类)。
Q2:在研究的过程中,我们有时会有这样的印象,我们正在朝着我们面前的主要障碍前进,我们即将到达(我们面临挑战的)山顶,但经常发生的是,我们后来意识到还有另一个障碍,另一座山,我们在到达这个山顶之前无法看到。为什么这次会不一样?AI研究中仍有几个悬而未决的问题(比如分层强化学习和系统2深度学习),这表明仅仅靠规模化和工程化不足以达到人类水平的智能。
A2:非常正确,但我并不认为规模化和工程化就足够了。在我看来,这个问题的另一个重要因素是风险及其规模。通往超人AI的道路上也许还存在一个我们尚未看到的重大障碍,也许不存在。这很难知道,但可以肯定的是,由于ChatGPT的成功,目前有数十亿美元的投资来加速AI能力的进步。面对这种不确定性、灾难或更糟的生存风险的严重性、以及我们没有预料到近年来AI能力的快速发展的事实,不可知论的谨慎在我看来是一条更明智的道路。你提到的所有开放性研究问题都在积极调查研究中。如果它们在未来几年里成功了呢?
Q3:由于我们还不完全了解超人的AI会是什么样子,所以试图防止这种未知的风险是浪费时间。我们能在莱特兄弟之前就想出飞机安全规则吗?当我们能更好地理解AI系统时,我们就可以用非常强大的AI系统来解决问题。
A3a:我以前也是这样想的,认为超人AI还很遥远,但是ChatGPT和GPT-4大大缩短了我的预测时间范围(从20-100年到5-20年)。有超过1亿人使用大语言模型,这已经远远超过了莱特兄弟飞行实验的规模。这些大语言模型也为我们提供了很好的线索,让我们知道AI已经可以做什么,以及它还缺少什么,也有研究小组正在研究这些缺陷。大语言模型仅仅因为规模,就以意想不到的速度获得了目前的能力水平,这表明,我们也可能看到,在短短几年内,通过微小的算法变化,其余的差距也会被填补。即使有人不同意目前的预测时间分布,我也看不出一个人如何能拒绝这种可能性。我承认你的观点,即对尚不存在的事物很难制定监管和对策。然而,有一些控制危险技术的建议(包括20世纪10年代的原子能和本世纪的AI,或对受全球制度监管的生物制剂,而该制度对可以使用的确切病原体是不可知的)并不依赖于了解技术的确切形式。这里的另一个重要因素是社会适应的缓慢,更不用说政府实施政策和法规的效率了。我认为,我们作为一个社会,应该研究和评估可以采取的预防措施,以减少这些风险,并逐步准备对策,而且越早开始越好。一般策略,如监测和能力评测、许可、报告需求和危险技术的审计,适用于所有技术。另请参阅关于人们应该考虑减轻灾难性AI风险的行动多样性的讨论。然而,我们对危害场景的缺乏理解和可见性,这确实带来了监管的困境(例如,参见科林里奇困境)。最后,超人AI可能是什么样的,已经有了一个工作假设:采用当前的生成式AI架构,用系统2的机制和目标(诚然需要扩大规模)训练它们(作为推理机器),这样它们也可以更好地推理,更连贯,想象计划和做反事实推理。它仍然是一个大型的神经网络,经过一些目标函数和一些生成示例的过程的训练(而不仅仅是观察到的数据)。我们现在对这样的系统有很多经验,关于如何使它们安全可靠,还有许多开放的研究问题。
A3b:此外,即使我们不能完全掌握解释我们自身智能(即系统1和系统2)的所有原理,数字计算技术也可以带来比生物智能更多的优势。例如,由于高带宽通信使计算机能够交换数万亿的模型参数,计算机可以在许多机器上并行学习,而人类则仅限于通过语言以每秒几比特的速度交换信息。因此,计算机可以从更大的数据集中学习(例如阅读整个互联网),这对于人类来说是不可能的。
A3c:最后,即使AI不能在所有认知能力上都超过人类,如果它掌握的方面(例如语言,但不是机器人技术)足以造成破坏,那么它仍然可能是危险的,例如,利用与人的对话来建立一种操纵性的情感联系,并通过物质”贿赂“或情感操纵,使得人类采取可能非常有害的行动,它对民主制度的破坏甚至将比目前的社交媒体更严重。我们知道,至少有一部分人很容易受影响,比如,他们会相信与证据极不相称的阴谋论。此外,AI可能会付费请有组织的犯罪分子可能会执行报酬丰厚的任务,而他们对于对此毫不知情。
PART THREE
有毁灭社会倾向的人类和非常强大技术带来的危险
Genocidal humans and the danger of
very powerful technologies
Q4: 已经有很多危险的技术,人类也幸存下来了(可能有充分的理由,包括我们适应危险的能力),那为什么AI会有所不同呢?
A4:首先,请注意,人类的生存是一个很低的标准;强大的技术造成广泛危害的例子有很多(核爆炸、一般武器的使用、化学污染、政治两极分化、种族歧视),我们的物种幸存了下来(有时是死里逃生),但这些危害足够严重,值得我们采取预防措施。其次,AI的特殊属性使其成为在技术创新中特别危险的一种。一项技术产生灾难性后果的可能性取决于许多因素的综合。包括技术的能力水平,它的自主权和自主性以及它的可访问性(有多少人可以使用它)。与核技术相比,要想成功地获得核材料和将其转化为高冲击力炸弹的设备并不容易。核武器的操作受到严格控制,只有极少数人可以接触到,而黑客入侵计算机的门槛较低,更难执行监管;任何人都可以在互联网上下载软件或使用API,通常不需要许可或伦理认证。ChatGPT等自然语言界面的发展意味着,人们甚至不需要知道如何编程就可以向AI系统发出指令。权力增强了高可访问性带来的危险——随着我们的技术变得越来越强大,使用它们的危险也越来越大。在合成生物学中也出现了类似的范例:随着商业化进展,个人更容易订购带有新DNA的新蛋白质或微生物,而生物学家很难评估这些蛋白质或微生物是否具有生物武器的潜力。最后,超人AI是一个特殊的类别,因为我们从来没有创造出比我们更聪明的、可以创造出比自身更智能的版本的智能。目前,AI系统已经能够实现与人类意图不相符的目标(即人机对齐问题),自主的超人AI系统有可能变得超级危险,这是以前的技术所没有的,而且从本质上来说很难预测(因为很难预测比我们聪明得多的实体的行为)。正如Auto-GPT所展示的那样,将ChatGPT这样的非自主AI系统转变为具有自主性和目标的AI系统很容易做到。虽然我们的社会已经有了自我保护机制(例如,防止犯罪),但它们是为了防御人类而开发的,目前还不清楚它们能在多大程度上抵御更强大的智能形式。
Q5:为什么一个头脑正常的人会要求计算机摧毁人类,或者人类的一部分,或者我们文明的基础?
A5:历史上充满了人类做可怕事情的案例,包括种族灭绝或发动战争,最终导致自己阵营中相当一部分人死亡。人类已经证明了自己可以充满恶意和非理性。有许多博弈论困境的例子,其中个人激励与全球福祉不一致(例如,在军备竞赛中,或在公司之间的竞争中,由于缺乏适当的协调机制,导致安全性降低以提升性能)。我一点也不放心:尽管有些人甚至大多数人可能有同情心,有很高的道德标准,但少数带有暴力或误导意图的人能够接触到非常危险的技术,从而造成重大伤害,这就足够危险了。Chaos-GPT展示了(目前算是一个玩笑)一个人可以直接指示AI摧毁人类。当然,值得庆幸的是,目前AI的能力水平还不允许它造成严重破坏,但5年或10年后呢?
Q6:相反,我认为AI不仅已经是有益的,它可以在未来为人类带来巨大的利益,包括帮助我们抵御用作犯罪的AI的和失控的AI。
A6:我同意更强大的AI可以非常有用,但这种力量也可能带来更危险的用途,因此需要更大程度的责任来避免伤害。事实上,现有的AI系统(还不是超人AI或通用AI)已经是安全的(但并不总是公平和准确的),而且仍然非常有用。为了受益于更先进的AI,我们需要降低风险:过去,我们已经在其他技术上做到了这一点。我也同意我们可以使用AI系统来防御滥用或失控AI系统,但要做到这一点,我们可能首先需要安全和对齐的AI,我们需要大规模增加这些领域的研发。这些优秀的AI还可以帮助我们对攻击媒介进行更强大的防御,例如,通过病原体检测、气候和生物多样性稳定性建模、信息生态系统监测、网络安全、欺诈跟踪等。但我不相信这本身就是就是万能的保护措施:我们需要在评估任何预防措施的利弊之后,尽可能地减少所有方面的风险。
Q7:限制对超人AI的访问可能会减少我们的自由,也可能会损害我们利用多样的安全AI(希望这将是大多数,因为事故和邪恶的人将是例外而不是常态)来对抗可能的出现的失控AI的能力。
A7a:我同意这里存在权衡,但我们在其他危险技术方面也面临着类似的问题。我认为,超人AI不应该被所有人使用和开发(就像核技术、枪支和飞机那样),超人AI的治理应该由一个广泛的、有代表性的利益相关者群体来制定,以全人类的福祉为目标,并且通过AI产生的利润应该重新分配以造福所有人,所有这些都需要强大的社会制度。
A7b:更具体地说,我们只需要限制对不安全的超人AI系统的访问。当其安全时,它们可以帮助防御失控AI;但当其不安全时,这么做就相当不明智。我同意存在权衡,我也同意拥有大量不同的、安全的、有益的、智力与人类相当的AI应该有助于我们对抗失控的AI。然而,我最关心的情况是,当有人发现一种算法改进,并与我们已经看到的那种大规模训练集和计算资源一同扩展规模时,它会产生智能的重大飞跃,要么远远超过人类智能,要么远远超过现有的AI系统。这样的事情总是有第一次,在那一刻,我猜测这个高级AI统的操作者手中会有类似炸药的东西。他们最好是具有高伦理标准的人,接受过严格的训练,遵循非常严格的程序(例如,对于AI初期测试中提出的重要问题,决策者不应该是单独的一个人,而应该是一个委员会),就像我们处理核弹和大量核材料的方式一样。总的来说,我关心的是AI系统的智能增长速度。如果进步足够慢,那么人类和我们的社会组织就有机会适应和减轻风险;如果进步太快,发生事故的危险就会大大增加。减少访问确实会减慢速度,但这可能是一件好事。我认为,最安全的途径是将最强大的AI系统的开发交给国际组织,这些组织不是为了促进单个公司或国家的利益,而是为了寻求人类的福祉。
PART FOUR
人机对齐
AI Alignment
Q8:如果我们可以制造一个或多个超人AI,并指示它不要伤害人类,它应该能够理解我们,从而理解我们的需求和价值观,这意味着人机对齐问题不是问题。
A8:我希望你是对的,但是十多年来,人机对齐、强化学习以及经济学的研究并没有多少令人放心的结果,特别是考虑到所涉及的高风险。即使超级危险的AI能够理解我们想要什么,但这并不意味着它就会按照我们的想法去做。一个根本的问题是,很难确保AI系统理解我们的意图和价值观。即使是在人类之间这样做也很困难:社会已经试图通过法律体系来做类似的事情,但显然仍不完善,公司总是在寻找漏洞。因此,似乎很难保证机器理解我们对它的要求并遵从我们的要求。举个例子,可以看看1970年的科幻电影《巨人:福宾计划》(Colossus: the Forbin Project),或者Stuart Russell的《AI新生》(Human Compatible)一书,以及他书中的化石燃料公司的例子。这些公司几十年来一直在欺骗人类,为了追求利润目标,给人类带来了巨大的伤害(而且还会带来更多的伤害)。最近强化学习被用于微调LLM使得AI试图取悦和说服AI标注者,而不一定是说实话,这甚至可能导致他们使用欺骗来获得奖励或提供不诚实的解释。然而,如果我们愿意放弃AI系统的自主性,我很有信心我们可以建造出有用和安全的“AI预言系统”(oracles,问答型超人AI),因为它们没有自主性,没有自主权,没有目标,没有自我或自我保护的意图。尽管如此,从概念上讲,编写一个包装系统来利用这样的预言系统构建一个自主的(并因此具有潜在危险性的)AI系统并不困难,它通过问答来找出如何实现其目标。这正是Auto-GPT使用ChatGPT作AI预言系统所做的。值得庆幸的是,目前这还不危险,因为ChatGPT并不比我们聪明(尽管它像一个学者一样,知道的事实比我们任何人都多)。因此,建立一个安全和有用的AI是不够的,我们还需要政治和社会环境来最大限度地降低人们不遵守这些指导方针而带来的风险。
Q9:我很确定,为了制造对齐的AI系统,为它们提供一个目标或奖励函数就足够了,这些目标或奖励函数指定了我们想要的东西,或者参照人类来设计它们。
A9:在强化学习(例如这些来自DeepMind的例子)、经济学和AI安全社区中,人们普遍认为,当AI系统试图优化一个(在我们使用AI对其进行优化之前,似乎对于我们的关切是一个很好的衡量标准的(参见Goodhart定律)奖励函数时,提供能够对齐AI系统的奖励函数是非常困难的。甚至有人认为,我们可能永远无法做到接近完美(首当其冲的原因是,即使在人类社会,我们也还没有对此达成共识,更不用说如何将其形式化了)。当前的AI系统的表现已经和我们的预期出现了不对齐,例如,在偏见和歧视方面,或者当世界出现分布偏移时。此外,我们的实际意图与AI系统所认为的量化目标之间的轻微偏差可能会被AI与我们之间的权力或智力差异放大。人类之间的这种差异通常不会产生如此极端的后果,因为相比之下,大多数人的智力水平都是相当的:我们可以看到,当一些人拥有比其他人多得多的权力时,对于那些权力小得多的人来说,结局可能真的很糟糕——而弱者的联盟使得引入一股平衡力量来对抗更强大的人成为可能。以此类推,实力较强的公司比实力较弱的公司更能找到法律漏洞,并通过游说改变法律。如果我们参照人类来设计AI系统,这意味着它们肯定会有一个自我保护的目标,这相当于创造一个新物种,因为它们不会完全像我们一样。这些差异和不对齐最终可能会给人类带来极大的危险,就像我们和被我们灭绝的物种之间的目标差异一样。
Q10:有些人认为,你不能将构成智能的机制与目标分开,因此,你不能随意更换任何一种目标,因此,你不能设定一个与“不伤害人类”的基本指令相矛盾的目标。
A10:对于人类来说,确实有些目标(比如同情心)是我们无法轻易改变的。另一方面,有足够多的例子表明,一小部分人可以无视我们的同情心。此外,人类非常善于接受新的目标:这就是公司研究人员、和政治家的工作方式。最后,尽管我们不能轻易地改变我们自己的进化程序,但AI研究人员可以经常改变机器学习的目标:这就是强化学习的工作方式,也是为什么机器可以完全专注于赢得像围棋这样的游戏。最后,就像我在上面提到的人类可能会提供恶意的目标或者只是强加另一个目标(如军事胜利),在这个目标中避免伤害人类并不是压倒一切的必要条件。事实上,如何明确“现实世界”的约束条件,比如对人类的伤害,是一个尚未解决的研究挑战。伤害人类可能会成为另一个更重要的目标的副作用。Stuart Russell举了一个大猩猩的例子:我们正在将大猩猩推向灭绝,不是因为我们将杀死它们作为一个明确的目标,而是作为更紧迫目标(如利润)的非预期副作用。
Q11:为了防止AI系统直接影响现实世界,采取与网络隔离的方法如何?
A11:很多人都在考虑这种解决方案,它可能是缓解措施的一部分(尽管在我看来,似乎没有完美的解决方案)。网络隔离的问题在于,我们仍然需要AI系统和人类操作员之间进行某种对话,而人类可能会受到影响。默认情况下,公司被激励广泛部署他们的系统,以获取利润。像ChatGPT这样的系统已商用,并被数亿人使用。另一些人则让Auto-GPT在互联网上独立运行。网络隔离还需要确保AI系统的代码和参数不会泄露、被盗,即使是坏人也要遵循同样的安全程序,这需要强有力的公共政策,包括在国际层面。
Q12:我不认为我们已经解决了训练AI系统的问题,使它们能够自主地提出自己的子目标,特别是那些不明显的未对齐的目标。
A12:你是对的,分层强化学习是一个非常活跃的研究领域,其中还有许多问题,但我们目前拥有的算法已经可以找出子目标,即使它们不是最佳的。此外,子目标可以隐式出现,就像GPT-4一样。我们需要研究开发能够检测、评估和审查AI系统的隐性目标和子目标的工具,或者构建有用但不能有任何外部目标(无论是隐式或显式)的AI系统。
Q13:为什么超人AI一定会像我们一样有生存和统治的本能,并有可能导致我们灭绝的目标?我们可以把它们编程成工具,而不是生物。
A13:如果我们不够小心,创造超人的AI可能会像创造一个新物种一样,我认为这会把它们变成超级危险的AI。我们自己的进化史和近代史表明,更聪明的物种可能会在不经意间采取行动,导致不那么聪明的物种(其他原始人,以及过去500年灭绝的900多种物种)灭绝。我们如何确保或确定一旦创造出这种超人AI的方法,没有人会为其赋予生存目标?另一个问题是,正如AI安全文献中所讨论的那样,自我保护目标可能会成为实现几乎任何其他目标所需的工具趋同目标。其他涌现的趋同目标包括获得更多权力和控制(即支配我们)以及变得更聪明和获得更多知识的目标。所有这些目标往往是大量其他目标的有用子目标。我们当然应该尽最大努力让AI能以不会伤害我们的方式行事,也许可以遵循《AI新生》的方法,但如果AI是自主体,即它们有隐式或显式的目标(即使从我们给它们的目标开始),我们还不清楚如何保证对齐。或者,我们可以设计基本上只是工具的AI系统:它们的目标可能是理解世界,但在现实世界中没有任何目标,也没有直接的计划或行动,除了回答那些与它们对世界的理解概率相符的问题,就像在给定问题和可用数据的答案上近似贝叶斯后验一样。我们需要对这些课题进行更多的研究,以及如何组织社会以确保我们发现的安全方针确实在全世界得到遵守。
换句话说:这可能是一个好主意,但没有人知道如何可靠地实现它——这是一个开放的研究问题。
Q14:“如果你意识到它不安全,你就不要建造它。”
A14:不幸的是,人类并不总是明智的,他们可能或贪婪,或不怀好意,或有非常错误的信念,正如历史上多次证明的那样。此外,他们可能没有意识到这是不安全的,并在不知情的情况下犯了一个严重的错误,或者他们可能会冒过于严重的风险。一个有趣的例子是进行第一次原子弹试验(代号“三位一体”,1945年)的决定,尽管当时不确定连锁反应是否会点燃大气层。
Q15:如果我们意识到这是危险的,我们可以拔掉AI的电源!
A15:如果我们能做到这一点就太好了,但无论是出于设计,还是因为AI自己的(可能是工具性的)自我保护目标,或者因为人类的动机,有许多因素会使我们很难拔掉AI的电源。请参阅Oliver Sourbut对这些不可插拔性挑战的概述,他将其归类为以下因素:AI获得力量的速度,这些力量的增长的不可感知性,由于冗余(软件很容易被复制)而对拔掉电源企图的鲁棒性,自我复制能力(不仅是AI,还有如生物武器或计算机病毒等攻击媒介)以及我们对AI系统提供的服务的依赖(或我们中的一些人的依赖,因此可能会有动机抵制拔掉电源的尝试)。
PART FIVE
更多AI风险
Many AI Risks
Q16:关注重点放在生存风险上可能会转移人们对当前AI危害的关注,以及那些谈论与AI和其他技术相关的持续不公正的边缘化声音。
A16:这是非常重要的一点。多年来,我们AI社区中的许多人一直倡导以社会影响为中心的AI监管和AI伦理(例如,参见我们在《蒙特利尔宣言》中关于负责任地使用AI的早期工作),我们也确实需要研究AI对社会和人类权利的危害和风险。我不认为这是一个非此即彼的选择:我们是否应该因为气候变化已经导致干旱而忽视气候变化导致的未来海平面上升?事实上,在解决所有AI风险的道路上,需要的是更大力度的治理、监督和监管。让我们开始并加速必要的改革,确保所有的声音都能参与必要的讨论。事实上,我认为,当前媒体对AI生存风险的关注,加速了关于AI治理和监管必要性的政治讨论,这比以往任何一次尝试都更有助于解决当前AI的危害,例如,美国总统Joe Biden和英国首相Rishi Sunak最近的声明。此外,减轻当前AI对公平的损害和更强大的AI带来的灾难性风险,在技术和政治基础设施方面存在很大的重叠,即通过监管、监督、审计、测试来评估潜在危害等。最后,在技术层面上,当前的许多危害和担忧(如歧视和偏见,或权力集中在少数公司)属于对对齐的更大担忧:我们建立AI系统和围绕它们的公司,其目标和激励可能与社会和人类的需求和价值观不太一致。
Q17:在我看来,为了对各种风险保持理性,我们需要通过它们的不确定性来衡量它们,而那些在未来或涉及我们无法明确建模的情景的风险,在我们的决策中应该大大降低权重。由于人类灭绝的情况也非常不确定,它们基本上应该被忽略。
A17:的确,风险应该以其不确定性来衡量,这也是我如此关注AI目前的危害以及AI已经可以帮助我们减少的人类苦难的重要性的原因之一。但是,在这种令人反感的危害计算中,人们也应该考虑到可能造成的危害的程度。如果人类的一小部分死亡,或更糟的情形,即人类物种完全灭绝,其危害的程度是巨大的,许多专家认为,这种规模的影响的可能性远非可以忽略不计,因此需要我们的关注和预防措施。此外,“不太可能”和“不确定”之间也有区别:当一个场景看起来大致合理,但细节不确定时,适当的反应是考虑如何澄清细节(从而学习如何解决这些细节中的问题),而不是对这个场景置之不理。
Q18:我认为AI驱动的灭绝是非常不可能的,或者太不确定,而对灭绝恐惧的过度反应可能会产生其他类型的灾难性后果,比如民粹主义威权政府利用AI构建一个“老大哥”社会,以确保没有人引发AI驱动的灭绝,例如,每个人都被政府的AI监视,脖子上挂着摄像头,每个键盘都被监控。
A18:我们显然需要努力避免出现“老大哥”的情况。澄清一下,我认为保护人类权利和民主制度是必要的,以便最终将AI的生存风险降到最低。威权政府往往首先关心的是自己的权力,没有必要的制衡机制来做出明智的决定(也不太重视那些没有权力的人的福祉)。它很容易接受强烈而错误的信念(例如,权力集团将受到保护,免受AI可能带来的灾难),这可能导致灾难性的决定。当然,民主制度和人类权利是需要维护的核心价值。因此,即使在我们拥有超人AI系统之前,我们也需要担心AI近期会通过虚假信息破坏社会,并通过语言、对话(可能产生亲密关系,正如Yuval Harari所指出的)和社交媒体操纵人类。我们绝对需要像禁止伪造货币一样严厉地禁止伪造人类身份,我们需要识别机器生成的内容,强制要求用户亲自注册可能提供任何类型的自主性的互联网帐户等等。我相信,这样做会保护民主制度,也会降低AI的生存风险。
PART SIX
开放和民主
Openness and Democracy
Q19:关于生存风险的讨论可能会带来与我们共同珍视的人类价值观、基本权利、民主制度、开放科学和开源相矛盾的行为。
A19a:我们需要维护甚至加强民主制度和人类权利,同时减少AI带来的灾难性风险。应该有一个庞大的、多样化的群体参与决策,比如应该开发什么样的AI系统,如何对它们进行编程,以及需要进行哪些安全检查。为了实现这一目标,我们现在需要监管和政策方面的专业知识。所有人类最终都应该从AI生产中获得利润。然而,这并不意味着每个人都可以拥有它。关于开源,Geoff Hinton说:“你对核武器的开源开发有什么看法?” 例如,美国以外的许多人也认为,拥有武器不会促进民主理想。我理解你的担忧,尤其是考虑到之前一些关于管理老大哥社会生存风险的建议。我们需要抵制威权主义的诱惑。我相信还有其他更安全的途径。我认为,我们需要找到方法,在所有不危及公众和社会的领域继续科学和技术进步,这意味着共享结果、代码等,但我们也需要加强监测、治理和监督,因为人类行为可能产生失控AI系统或任何其他具有潜在危险影响的科学活动。这就是为什么我们需要科学伦理,以及我们在大学里设立伦理委员会的原因。
A19b:很多有影响力的研究和技术在给社会带来好处的同时,也受到密切监控,这样的先例不少。我们已经在我们的社会中做出妥协,一方面顾及个人自由和隐私,另一方面要保护公众,例如,大多数国家管制武器,政府监督大量的资金流动;一些科学领域也受到更严格的审查和限制,如人类克隆、基因设计和核材料。在一个民主社会中,我们可以对潜在的危险活动进行监督和监控,而不需要一个老大哥政府。大多数AI应用和系统都是有益的,不会产生灾难性的风险,事实上,我们应该加速AI在社会公益应用方面的发展。专业的AI系统本质上更安全(它们对世界、人类和社会的运作方式没有全面的了解,也就是说,它们可能会犯错误,但我们不太可能失去对它们的控制),它们可以提供巨量的服务。例如,AI科学家可以应用于特定领域。
Q20:你的建议可能会伤害AI的开放科学和开源,从而可能会减缓我们开发好的AI的速度,而这种好的AI可以帮助我们对抗失控AI。这些失控AI可能会出现在那些违反或根本不签署国际条约的组织和国家。政府也不会接受把设计原理隐藏的超人类AI助手交付给民众。
A20:这些都很重要。从“我们如何构建安全的AI系统”和“我们如何构建安全的AI系统,以帮助我们对抗失控AI系统的可能行动”的角度来看,在AI安全方面投入更多资金可能是个好主意。我们显然需要更好地理解特定的风险,如失控AI系统开发生物武器(例如,在没有正确注册为受信任的人的情况下,我们如何使订购合成生物产品变得更加困难)或网络安全风险(当前防御是单段代码攻击——人类精心编写的一段代码,而不是在人工智能驱动的攻击中,同时启动的大量代码段)。与此同时,为了减少某人有意或无意地带来失控AI的可能性,我们需要加强治理,我们应该考虑限制对可能被武器化的大规模通用AI系统的访问,这意味着代码和神经网络参数不会在开源中共享,一些重要的工程技巧也不会共享。理想情况下,这将留在中立的国际组织手中(设想针对AI的原子能机构和欧洲核子研究中心的组合),它们开发安全有益的AI系统,也可以帮助我们打击失控AI。减少信息流动会减缓我们的速度,但开发潜在超级危险AI系统的失控组织也可能在秘密运作,可能资金和顶级科学家都更少。此外,政府可以帮助监控和惩罚其他启动秘密AI项目的国家。政府可以在代码不开放的情况下对超人AI进行监督。为了将相关风险降至最低,我们还需要真正有效的国际协议。最后,我们需要为可能出现的情况做好准备,即尽管有监管和条约,有人还是会创造出失控AI,而一种棘手的保护形式是设计(在国际组织的支持下,并采取适当的安全措施)一个安全的超人AI,它可以帮助保护我们免受失控AI的侵害。
PART SEVEN
绝望,希望和道德责任
Desperation, hope and moral duty
Q21:猫从袋子里出来了,牙膏从管子里出来了,所以在我看来,阻止超人AI的发展已经太晚了。政府立法太慢,更不用说国际条约了。监管总是不完美的,会减缓创新。相反,我认为我们应该加速AI的发展,这将为全人类带来一个启蒙和幸福的新时代。
A21: 即使可能性看起来很低,继续为减少伤害和最大化幸福而行动是值得的。看看气候活动人士吧,他们有充分的理由感到绝望。但他们继续前进,因为即使伤害已经发生,早点采取行动会更好,现在的行动仍可以减少未来的伤害。我相信,可以帮助我们控制AI带来的灾难性风险的监管、条约和社会改革,实际上是确保人类从AI中受益、带来我们所设想的启蒙和幸福时代所必需的。仅仅希望一切顺利是不够的:谨防总比补救好。
Q22:所有这些关于超人AI的讨论不是只是服务于一小群AI专家和一小群公司的利益的炒作吗?目前的AI系统,即使是GPT-4,也没有那么令人印象深刻,有许多缺陷。
A22:我希望上述讨论澄清了超人AI可能引起关注的原因。当然,我不能完全确定超人AI在几年内就会出现,可能还需要几十年的时间,我真的希望如此。但根据最近的进展速度和我对正在进行的研究的了解,构建超人类AI的方法将建立在我们已经发现的方法的基础上,并且缺失的部分(我认为主要是系统2能力)将在未来十年内被发现。正如我咨询的AI研究人员对调查结果的分布所表明的,这是一个重大的非零概率。超过100名教授签署了最近关于AI风险的声明。也就是说,我们必须小心,我们的预防行动和政策将以赋予所有人类权力和福祉为导向,而不是扩大已经不公平的权力集中,例如,集中在少数公司手中。
PART THREE
从这场对话中
我们可以得出什么结论?
What can we conclude from this dialogue?
Q: 请重新进行调查,以估计导致灾难性结果的事件的概率。这些概率是否有变化?
A: 通过上述阐述,我更加确信,正是因为我们对AI的未来存在分歧,我们才需要制定一个包含所有可能性的蓝图。这也意味着所有的AI风险,包括AI安全,都需要更多的关注和投资(在技术和政策研究方面),以及国家和国际监管机构为共同利益而努力(不要把它留给商业实体和个别政府或其军事部门进行自我监管)。减少关于情景和对策效果的不确定性至关重要,而这需要大量的社会技术研究投资。我们需要更好地预测和详细描述可能的危险情况,并制定适当的政策,以最大限度地减少这些风险,同时平衡部分冲突的目标(比如加快开发强大而有用的AI技术的进程,而不是限制其伤害人类的能力)。尽管可能性看起来令人沮丧(面对过去和现在针对全球风险的国际协调的尝试),我们个人的道德责任是在平衡未来危害最小化与社会发展和进步的方向上投入更多的思想、关注和行动。
致谢:Yoshua Bengio感谢 Niki Howe、Stuart Russell、Philippe Beaudoin、Andrew Critch、Jan Brauner、Xu Ji、Joseph Viviano、Konrad Körding、Charlotte Siegman、Eric Elmoznino、Sasha Luccioni、Andrew Jesson、Pablo Lemos、Edward Hu、Shahar Avin、Dan hendrycks、Alex Hernandez-Garcia、Oly Sourbut、Nasim Rahaman、Fazl Barez、Edward Harris和michael Koziarski 对本文草稿的反馈。
PART EIGHT
后记
Post-Scriptum
(在上面的文字发布后,出现了更多的问题和答案)
Q23:由于在可预见的未来,AI将是在计算机中运行的代码,它们无法直接物理访问现实世界。所以,超人AI如何对人类构成威胁?
A23:见A11。计算机已经在我们的世界无处不在,包括我们的手机、能源基础设施、物流基础设施(供应链管理)、媒体、军事基础设施、几乎所有企业和政府的管理等等。只要AI能够访问互联网并拥有强大的网络安全技能,就足以造成很大的破坏,特别是如果这些攻击是协调的(这是一个超人的AI所期望的,它会根据自己的目标优化其行动的成功机会和效果)。这种互联网访问(以及访问银行或加密货币账户)可以由想要拥有更强大的AI,可以直接在世界上行动的人提供(可能在弗兰肯斯坦的场景下,见A9)。由于其超人的智能,AI可能能迅速赚到比人类更多的钱。例如,在金融交易等高杠杆和快速杠杆的领域。此外,在AI“解决”运动控制问题(即机器人技术)之前,人类可能是它的代理。AI可能会操纵人们听从它的命令(想想ChatGPT已经接触了多少人,而AI只需要说服一小部分人),或者它可以通过合法的在线网站或暗网向人们支付任务,以雇佣有组织的犯罪。一旦AI知道如何制造比我们现在做得更好的机器人,它就可以用这些人类代理来制造这些机器人。然后,它可以直接控制它们,而不需要人类作为中间人(他们可能决定不服从AI)。
↙ 点击关注我们
欢迎「分享」「在看」↘