图灵奖获得者姚期智、Geoffrey、Yoshua等科学家签署公开信：谨防AI滥用的灾难性结果

服务数字经济的数据观

2024-11-16

人工智能

人工智能系统的滥用或失控可能给全人类带来灾难性后果。

来源 | 数据观综合自AI安全国际论坛（转载请注明来源）

编辑 | 数据君

上个月，全球顶尖的人工智能（AI）科学家汇聚威尼斯出席了由AI安全国际论坛（Safe AI Forum）和博古睿研究院共同举办的第三届国际AI安全对话（International Dialogues on AI Safety），共同呼吁各国政府和研究人员联手应对AI可能带来的灾难性风险。

活动期间，新晋诺贝尔物理学奖得主、图灵奖得主、“AI 教父” Geoffrey Hinton ，图灵奖得主Yoshua Bengio、姚期智，清华大学讲席教授、智能产业研究院院长张亚勤，加州大学伯克利分校教授Stuart Russell等多位计算机科学领域的领军人物共同达成了《AI安全国际对话威尼斯共识》，其核心观点强调了AI安全作为“全球公共产品”的重要性，建议各国应将AI安全纳入学术与技术合作的核心领域。

共识指出，人工智能系统的滥用或失控可能给全人类带来灾难性后果。然而，我们尚未开发出必要的科学手段来管控和保障对高级智能的使用。由于人工智能带来的风险具有全球性，我们必须将人工智能安全视为全球公共产品，并为实现这些风险的全球治理而努力。我们必须未雨绸缪，齐心防范任何随时可能出现的灾难性风险。国际社会的初步积极举措表明，即使在紧张的地缘政治局势下，在人工智能安全和治理方面开展合作也是可以实现的。然而，各国需要在现有的努力上迈出更大步伐。

共识认为，作为第一步，各国应设立有能力在其境内监测和应对人工智能事故与灾难性风险的部门。各国监管部门应协同合作，制定应对重大人工智能事故与灾难性风险的全球应急计划。长远来看，各国应建立国际监管机制，以防止出现可能带来全球灾难性风险的模型。

为了应对可能到来的由高级人工智能系统引发的灾难性风险，科学家呼吁，国际社会应考虑启动以下三项工作程序：

应急准备协议与制度

通过这一机制，各国的安全监管部门可召集会议，合作制定并承诺实施模型注册和披露制度、事故报告机制、预警触发点及应急预案。

安全保障体系

当模型的能力超过特定阈值时，要求开发者为模型的安全性提供高度可信的论证。对于高性能的人工智能系统，随着它们的广泛应用，部署后的监控也将成为保障体系的关键组成部分。这些安全保障措施应接受独立审计。

全球人工智能安全和验证的独立研究

应通过技术开发，使各国能够确认开发者以及其他国家提出的与人工智能安全相关的声明是真实有效的。为了确保研究的独立性，这项研究应在全球范围内进行，并由多个国家的政府和慈善机构共同资助。

AI安全国际对话威尼斯共识

人工智能系统能力的迅速发展，正将人类推向一个人工智能可以达到甚至超越人类智能的世界。专家普遍认同这些人工智能系统可能会在未来数十年内被开发出来，很多人认为它们的到来会更快。人工智能系统的滥用或失控可能给全人类带来灾难性后果。然而，我们尚未开发出必要的科学手段来管控和保障对高级智能的使用。由于人工智能带来的风险具有全球性，我们必须将人工智能安全视为全球公共产品，并为实现这些风险的全球治理而努力。我们必须未雨绸缪，齐心防范任何随时可能出现的灾难性风险。

国际社会的初步积极举措表明，即使在紧张的地缘政治局势下，在人工智能安全和治理方面开展合作也是可以实现的。各国政府和人工智能开发者在两次峰会上承诺遵循基础性原则，以促进人工智能的负责任发展，并最大限度地减少风险。得益于这些峰会，各国陆续设立了人工智能安全研究所或相似机构，推进测评、研究和标准制定工作。

上述努力值得肯定，必须持续推进。各国需要为人工智能安全研究所提供足够的资源，并继续召开峰会，支持其他国际治理举措。然而，各国需要在现有的努力上迈出更大步伐。作为第一步，各国应设立有能力在其境内监测和应对人工智能事故与灾难性风险的部门。各国监管部门应协同合作，制定应对重大人工智能事故与灾难性风险的全球应急计划。长远来看，各国应建立国际监管机制，以防止出现可能带来全球灾难性风险的模型。

我们必须开展深入的基础研究，以确保高级人工智能系统的安全性。这项工作刻不容缓，以确保我们拥有充足的时间来开发和验证相关技术，在需要管控高级人工智能时应对自如。为此，我们呼吁各国将人工智能安全视为一个独立于人工智能能力地缘战略竞争的合作领域，专注于国际学术与技术合作。

为了应对可能到来的由高级人工智能系统引发的灾难性风险，国际社会应考虑启动以下三项工作程序：

应急准备协议和制度：通过这一机制，各国的安全监管部门可召集会议，合作制定并承诺实施模型注册和披露制度、事故报告机制、预警触发点及应急预案。

安全保障体系：当模型的能力超过特定阈值时，要求开发者为模型的安全性提供高度可信的论证。对于高性能的人工智能系统，随着它们的广泛应用，部署后的监控也将成为保障体系的关键组成部分。这些安全保障措施应接受独立审计。

全球人工智能安全与验证的独立研究：应通过技术开发，使各国能够确认开发者以及其他国家提出的与人工智能安全相关的声明是真实有效的。为了确保研究的独立性，这项研究应在全球范围内进行，并由多个国家的政府和慈善机构共同资助。

应急准备协议和制度

Emergency Preparedness Agreements and Institutions

就应对先进人工智能系统所需的技术和制度措施，各国应达成一致，无论这些系统的开发时间线如何。为促进这些协议的达成，我们需要建立一个国际机构，将各国人工智能安全监管部门聚集在一起，在制定和审核人工智能安全法规方面，推动不同司法管辖区的对话与合作。该机构将确保各国采纳并实施一套基本的安全准备措施，包括模型注册、信息披露与预警机制。

随着时间推移，该机构还可以制定验证方法的标准，并承诺使用这些方法来执行各国对安全保障体系的本地化实施。各国可以通过奖惩机制来相互监督这些方法的执行，例如将市场准入与遵守全球标准挂钩。专家和安全监管机构应建立事故报告和应急预案，并定期交流，确保验证过程中采用的方法反映出当前最新的科学理解。该机构将发挥关键的初步协调作用。然而，从长远来看，各国需要进一步努力，确保对高级人工智能风险的有效全球治理。

安全保障体系

Safety Assurance Framework

前沿人工智能开发者必须向本国监管部门证明，其所开发或部署的系统不会逾越红线，例如在AI安全国际对话北京共识中所界定的红线。

为实现这一目标，我们需要在风险和红线问题上进一步建立科学共识。此外，我们应建立预警阈值，即模型的能力水平表明该模型可能会越过或接近越过红线。该方法建立在现有的自愿承诺（如负责扩大政策）的基础上，对不同框架进行统一和协调。能力低于预警阈值的模型只需有限的测试和评估，而对于超出这些预警阈值的高级人工智能系统，我们则必须采用更严格的保障机制。

虽然测试可以警示我们关注风险，但它只能提供对模型的粗略理解，无法为高级人工智能系统提供足够的安全保障。开发者应该提交高置信度的安全案例，并以一种能够说服科学界相信其系统设计是安全的方式进行量化，这也是其他安全关键工程学科的常见做法。此外，足够先进系统的安全报告应讨论开发者的组织流程，包括有利于安全的激励机制和问责结构。

当前的部署前测试、评估和保障措施远不够充分。高级人工智能系统可能会逐渐增加与其他人工智能系统和用户进行的复杂多智能体交互，而这可能导致难以预测的潜在风险。部署后的监控是整个保障体系的关键部分，它可以包括对模型行为的持续自动评估、人工智能事故追踪的集中数据库，以及人工智能在关键系统中的应用报告。进一步的保障还可以通过自动化运行时验证来实现，例如确保安全报告中的假设条件依然成立，并在模型运行到超出预期范围的环境时安全地关闭系统。

各国在确保安全保障的落地中发挥着关键作用。各国应要求开发者定期进行测试，判断模型是否具备带来潜在风险的能力，并通过第三方独立的部署前审计保证透明度，确保这些第三方获得必要的权限，包括开发者的员工、系统和记录等必要证据，以核实开发者的主张。此外，对于超出早期预警阈值的模型，各国政府可要求开发者在进一步训练或部署这些模型前，必须获得独立专家对其安全报告的批准。各国可以帮助建立人工智能工程的伦理规范，例如要求工程师承担类似于医疗或法律专业人士的个人责任，保护公众利益。最后，各国还需要建立治理流程，以确保部署后的充分监测。

尽管各国在安全保障体系上可能有所差异，国家间仍应合作，确保体系间的互认性与可比性。

全球人工智能安全和验证的独立研究

Independent Global AI Safety and Verification Research

AI安全和验证的独立研究对于开发确保安全的高级人工智能系统至关重要。国家、慈善机构、企业、和专家应设立一系列全球人工智能安全与验证基金。这些资金应当逐步增加，直至其在全球人工智能研发支出中占据重要比例，以充分支持并增强独立研究能力。

除了人工智能安全基础研究，这些资金的其中一部分将专门用于隐私保护和安全验证方法的研究，为国内治理和国际合作提供支持。这些验证方法将允许各国可信地核实人工智能开发者的评估结果，以及他们在安全报告中指定的任何缓解措施是否到位。在未来，这些方法还可能允许各国验证其他国家提出的相关安全声明，包括对安全保障体系的遵守情况，以及重大训练运行的申报。

全面的验证最终可以通过多种方式进行，包括第三方治理（如独立审计）、软件（如审计跟踪）以及硬件（如人工智能芯片上的硬件支持治理机制）。为确保全球信任，跨国联合开发验证方法，并对其进行压力测试将变得尤为重要。

至关重要的一点是，全球广受信赖的验证方法，在过去曾使各国能在全球地缘政治紧张局势下，对特定的国际协议作出承诺，而它在未来也可能再次发挥同样的作用。

签署人

Yoshua Bengio，蒙特利尔大学教授；Mila–魁北克AI研究所创始人兼科学总监，先进AI安全国际科学报告主席，图灵奖获得者。

姚期智，清华大学交叉信息研究院院长及人工智能学院院长，图灵奖获得者。

Geoffrey Hinton，多伦多大学向量研究所首席科学顾问，图灵奖获得者，诺贝尔物理学奖获得者。

张亚勤，清华大学人工智能产业研究院（AIR）院长，百度前总裁。

Stuart Russell，加州大学伯克利分校教授及Smith-Zadeh工程学讲席教授，加州大学伯克利分校人类兼容人工智能中心（CHAI）创始人。

Gillian Hadfield，即任约翰·霍普金斯大学政府与政策学院和工程学院教授，多伦多大学法律与战略管理教授。

Mariano-Florentino (Tino) Cuéllar，卡内基国际和平基金会主席，加利福尼亚州最高法院前法官，曾任斯坦福大学Freeman Spogli国际研究所所长及教授。

贺天行，即任清华大学助理教授。

陆超超。

Kwok Yan Lam，南洋理工大学（NTU）战略与合作副校长，南洋理工大学（NTU）计算机科学与工程学院教授，新加坡数字信任中心（DTC）执行董事，即新加坡AI安全研究所。

Dawn Nakagawa，博古睿研究院主席。

Benjamin Prud'homme，Mila–魁北克AI研究所政策、安全与全球事务副总裁。

唐杰，智谱AI首席科学家，清华大学计算机科学教授。

Robert Trager，牛津大学马丁AI治理计划联合主任，AI治理中心国际治理负责人。

傅莹。

Sam Bowman, Anthropic技术人员与对齐科学联合主任，纽约大学数据科学、语言学与计算机科学副教授。

杨耀东，北京大学人工智能研究院助理教授，北京智源研究院大模型安全中心主任，北京大学对齐与交互研究实验室（PAIR）负责人。

杨超。

曾毅，中国科学院自动化研究所类脑智能研究中心副主任、国际AI伦理与治理研究中心主任，联合国AI高级咨询机构成员，联合国教科文组织AI伦理实施高级专家组成员。

张宏江，北京智源人工智能研究院创始理事长。

王仲远，北京智源人工智能研究院院长。

Dan Baer。

Sebastian Hallensleben，CEN-CENELEC JTC 21主席，该委员会负责制定支持欧盟监管的欧洲AI标准，德国电气电子与信息技术协会（VDE）数字化与人工智能负责人，欧盟专家咨询委员会成员。

Ong Chen Hui，新加坡信息通信与媒体发展管理局（IMDA）业务与技术组助理首席执行官。

Mary Robinson，爱尔兰前总统，长老会主席。

Fynn Heide，AI安全国际论坛执行董事。

Conor McGurk，AI安全国际论坛常务董事。

Saad Siddiqui， AI安全国际论坛。

段沣育，AI安全国际论坛。

Adam Gleave， FAR AI创始人及首席执行官。

陈欣，苏黎世联邦理工学院博士生。

往/期/回/顾

REVIEW

素材来源官方媒体/网络新闻

继续滑动看下一个

数据观

向上滑动看下一个

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住

图灵奖获得者姚期智、Geoffrey、Yoshua等科学家签署公开信：谨防AI滥用的灾难性结果

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住

生成图片，分享到微信朋友圈

图灵奖获得者姚期智、Geoffrey、Yoshua等科学家签署公开信：谨防AI滥用的灾难性结果

您可能也对以下帖子感兴趣

你手放哪呢，出生啊