State of AI: 2023 年度人工智能报告之 Politics 与 Safety

Original Houmin In The Loop 2024-01-18

本周四 stateof.ai ^[1]出品了 2023 年度人工智能报告^[2]。本文编译自其 2023 年报告，并附带简单分析，强烈推荐阅读原报告。本系列的前两篇报告为：

以下为全文目录，受限于篇幅，本报告将分为 3 篇发布，本篇为第 3 篇，主要关注过去一年中 AI 在政策监管、AI 安全等方面进展，还有对于 2024 年的预测。
State of AI 2023 报告年度总结
科研进展：技术突破及其能力
产业界发展：当前 AI 创新的商业化应用以及对应的商业化影响
政治影响：AI 监管，AI 产生的经济影响，AI 的地缘政治演进
AI 安全：明确和减轻将来庞大 AI 系统可能产生的灾难性影响
对 2024 年的预测

以下是本文目录，建议结合要点进行针对性阅读

Politics 进展总结
对 AI 安全的监管
中美芯片战争
AI 在战争中的应用
AI 与选举
LLM 应该与谁的价值观对齐
AI 对就业市场的影响
Safety 进展总结
对于 x-risk 的争议与行动
开源与闭源的争论
LLM 已经展示出一些不安全的潜力
RLHF 面临的根本性挑战
更好地评估模型
模型的可解释性
编者总结与展望

04 Politics

Politics 进展总结

全球已经分为明确的监管阵营，但全球治理进展较慢。最大的人工智能实验室正在填补这一空白。
芯片战争继续不减，美国正在动员其盟友，而中国的回应仍然不完整。
预计人工智能将影响一系列关键领域，包括选举和就业，但我们尚未看到显著的影响。

对 AI 安全的监管

Have we reached “peak” regulatory divergence?^[3]

经过多年关于 AI 监管方法潜在分歧的猜测，我们开始看到对 AI 的监管方法趋于稳定，并定型为少数几种明确的方法。

“Light-touch” or “pro-innovation”: scepticism of large-scale regulation 「轻触式」或「积极创新」的态度：对大规模监管的怀疑

这种态度由英国和印度代表，他们认为目前人工智能不需要额外的立法。

到目前为止，英国和印度都强调了人工智能的经济和社会优势，英国在2023年3月的白皮书和印度数字部长的议会回应中表示，当前的风险可以通过现有的行业法规和隐私法规来吸收^[4]。
然而，英国确实包括了一些人工智能原则（基于 OECD 经济合作与发展组织的类似工作），供监管机构遵循，并投资了1亿英镑用于由 StateOfAI 合著者 Ian Hogarth 领导的前沿模型安全专项工作组。该团队似乎是世界上第一个尝试建立一个由行业和学术界共同评估前沿风险的专门部门。
英国还与 Google DeepMind、Anthropic 和 OpenAI 达成了特殊协议，以提前获得他们最先进的前沿模型，以改善他们对风险的理解。
虽然受到产业界的欢迎，但目前尚不清楚这些方法是否会持续存在。最近，英国政府从其词汇中取消了「轻触式」，并重新定位自己为人工智能安全辩论的中心。
印度的电子与信息技术部表示，即将出台的立法可能确实涵盖某些形式的人工智能危害，以及 Web3和其他技术。

Wide-ranging legislation

欧盟和中国在通过新的、针对人工智能的立法方面处于领先地位^[5]，尤其在基础模型方面采取了特别严格的措施。

欧盟的 AI 法案正在进入最后的立法阶段，今年早些时候进行了修订，增加了关于基础模型和通用人工智能系统（分别规定）的特殊规定。
尽管 AI 法案的其余部分根据系统预期使用的「高风险」程度来分层要求，但所有商业基础模型提供商都受到特殊要求的约束。
这些要求包括风险评估，当内容由人工智能生成时进行披露，防止模型生成非法内容，并发布用于训练的任何受版权保护的数据的摘要。
与此同时，中国还出台了有关推荐系统的专门立法，以及生成式人工智能的监管措施。这一更新的法规取代了之前的「深度综合」法规，要求对由人工智能生成的内容进行标记，防止滥用，禁止匿名账户使用服务，并包含审查要求。开发者还必须向政府注册他们的算法，并对被认为能够影响公众舆论的算法进行特殊的「安全评估」。

Hybrid models: The best or worst of both worlds?

在其他市场上，我们要么看到了精简的国家法规，要么看到了大量的地方法律。虽然避免了一些主要立法的挑战，但它们也有可能让任何人都不满意。

美国不太可能在短期内通过联邦人工智能法律，并在某些方面采取了类似英国的方法，强调自愿承诺（例如七月份白宫协议）和研究以确定何为良好实践（例如国家标准与技术研究院的人工智能风险管理框架^[6]）。其中一些承诺，例如涉及第三方评估，但并没有指定这个第三方是谁，公司理论上可以忽视他们的发现。
然而，美国各个州已经开始制定各种严格程度的人工智能法律。加利福尼亚、科罗拉多、得克萨斯、弗吉尼亚等地对「用户画像」和「自动决策」有强制透明度法律。与此同时，纽约和伊利诺伊州也有关于在招聘决策中使用人工智能的特定法律。
加拿大试图进行一种精简版的欧盟 AI 法案，禁止某些应用，并对其他应用进行监管。加拿大的人工智能和数据法案只对「高风险」应用进行规范，执法将由现有部门负责，而不是新的监管机构。
然而，这种方法遭到了两边的批评——批评者指责它要么监管太严厉，要么监管力度不够。

State action on global governance is in its early stages…

各个国家的监管机构已经提出了将一些过去成功的全球监管机构作为 AI 安全监管的模范，包括国际原子能机构、政府间气候变化专门委员会和欧洲核子研究中心。然而，目前这些提议仍然局限于学术论文^[7]^[8]^[9]。

英国计划于2023年11月主办以安全和治理为主题的峰会，邀请主要民主国家和中国参与，以将自己定位为世界领先的安全研究中心。
欧盟和美国宣布正在制定一项联合人工智能行为准则，其中将包括关于风险审计和透明度等非约束性国际标准。
G7将与经济合作与发展组织和全球人工智能伙伴关系合作，创建「广岛人工智能进程」，制定一种「集体方法」来管理生成式人工智能。
我们还看到了联合国的第一步，该组织于8月份开展了一次咨询^[10]，以在联合国秘书长特使科技事务办公室主办的2024年「未来峰会」之前就治理问题提出建议。

联合国关于 AI 监管的倡议路线图

…as a result, the largest labs are trying to fill the vacuum

当政府在治理问题上还在努力形成深入的共同立场时，前沿模型的开发者们正在努力塑造规范。

Anthropic、Google、OpenAI 和微软共同发起了 Frontier Model Forum，旨在促进前沿模型的负责任开发并与政策制定者分享知识。
在2023年5月至6月期间，OpenAI 的首席执行官 Sam Altman 进行了一次「世界之旅」，与关键市场的政策制定者和监管机构会面。Altman 的提议包括为大模型建立许可制度和引入独立审计要求。
实验室还提出了自己的政策建议。

OpenAI 认为，我们最终需要一个类似于国际原子能机构的机构来审计和执行安全标准^[11]
Anthropic 则概述了其在治理方面的「组合」方法，结合立法、独立审计和强有力的内部控制^[12]。
其中最具影响力的是 Inflection 的 Mustafa Suleyman 和 Eurasia Group 的 Ian Bremmer，他们概述了一个三层次的全球治理结构^[13]。

中美芯片战争

The US successfully enlists its allies in the chip wars^[14]… 美国成功地在芯片战争中争取到了盟友的支持...

去年年底，美国对中国实施了近几十年来最严格的出口管制制度，禁止向中国企业出售先进芯片或用于制造先进芯片的工具。这放弃了先前试图减缓中国技术进步的政策，而是积极试图削弱中国的能力。

日本加强了出口限制，将包括制造较低级别芯片的设备在内。荷兰扩大了对深紫外光刻机出口的限制。这些设备的精密组件使其难以复制，并且市场上流通的数量很少，难以走私。
德国加入了美国的重新本土化努力，向英特尔和以台积电为主导的联盟提供了150亿欧元的补贴，以在美国建设半导体工厂。
对于这种方法的有效性仍然存在疑虑。批评人士对欧盟追求自给自足的目标持怀疑态度，因为他们对半导体原材料市场的控制力不足。

… and the Chinese response remains scrambled

在去年的报告中，我们问过美国的限制措施是否会促使中国的研发取得进展。迄今为止，数十亿美元的国内补贴在某种程度上有得有失，所以中国政府正在采取进攻性措施。

2023年5月，中国对基础设施提供商禁止使用美国公司 Micron 生产的芯片进行回应，而 Micron 在中国市场上相对规模较小。然而，他们随后对镓和锗的出口引入了许可制度，这些是用于制造顶级半导体的稀土金属，同时也是太阳能电池板和电动汽车中的组件。
在8月份，中国阻止了英特尔计划中54亿美元收购 Tower Semiconductor 的交易，该交易本将为英特尔提供一些芯片代工能力，以便挑战台积电和三星作为芯片供应商的野心。
也许是因为默许这些方法并不奏效，中国最近提出将半导体准入与气候承诺的进展挂钩的想法。美国立即予以了拒绝^[15]。
这种升级的竞争对双方都带来风险。正如 NVIDIA 首席执行官黄仁勋警告的那样，通过限制对中国市场的准入，美国面临削弱自己制造商市场的风险（这也有损于 CHIPS 法案的目标），而中国在损害自己的出口商之前，只能在金属限制方面推动到一定程度。

However, does Huawei’s new chip signal a breakthrough moment?

在越来越严格的限制下，华为以其由中国芯片制造商中芯国际（SMIC）生产的先进麒麟9000S 芯片为动力，让世界为之惊讶的 Mate 60 Pro 手机。

中芯国际成功复制了一种名为7纳米的制造工艺，生产出中国公司迄今为止最先进的半导体。
虽然一些评论人士表示这是美国和荷兰制裁未能产生预期效果的迹象，但有理由不要草率下结论。7纳米已不再是最先进的工艺，而且这一进展仍使中芯国际落后于台积电等公司约五年。中芯国际能够使用其已拥有的 DUV 机器进行制造并不令人意外。随着无法获得更先进的光刻机，他们要实现5纳米工艺可能会更加困难。
美国还对中国在规模上生产芯片的能力提出了质疑。中国政府大规模补贴半导体产业的日子可能远未结束。

Governments are building out compute capacity, but are lagging private sector efforts

目前，欧盟和美国在表面上处于良好位置，但它们的国家高性能计算（HPC）集群 Leonardo 和 Perlmutter 并不专门用于人工智能，资源还与其他研究领域共享。与此同时，英国目前在公共云中可供研究人员使用的 NVIDIA A100 GPU 少于1,000个。

英国的 compute review 建议建立一个包含3,000个 GPU 的集群，供学术界和商业用户访问，并设定了2026年将超级计算能力引入线上的截止日期^[15:1]。
美国计划建立一个国家级人工智能研究资源，向研究人员提供在四 GPU 节点上可用的140-180M 小时^[16]。目前，它正在等待国会批准在六年内投资26亿美元的计划。
然而，这两个国家都面临进一步推进的呼吁。

Anthropic 建议美国在创建一个拥有10万个 GPU 的集群上投资40亿美元^[17]
而 Tony Blair Institute 则推动英国创建一个拥有3万个 GPU 的集群。

与此同时，私营公司正争相购买他们能找到的每个GPU。百度、字节跳动、腾讯、阿里巴巴已经在2023/2024年期间为NVIDIA的订单花费了90亿美元。

AI 在战争中的应用

AI and defense tech attracts record funding…but is politics stalling progress?

美国和欧洲的军方一直在努力实现多元化，以确保不会错过最新的能力提升，但能够获得连续、持续工作的公司数量仍然很少。

去年美国国防初创公司的融资达到24亿美元，是欧洲总额的100倍以上，但能够赢得持续工作的公司数量仍然很少。一些美国风险投资公司和科技公司联合呼吁改革「陈旧的发展需求和选择技术的方法」^[18]^[19]。
Anduril 的 E 轮融资金额超过了2013年至2022年英国国防技术投资的总和^[20]，而 Helsing 的2.09亿欧元的 B 轮融资是整个欧洲大陆上唯一一笔重要的资金筹集。欧洲有限合伙人在很大程度上没有改变对国防投资的厌恶态度，这意味着超国家机构正在填补这一差距。
除了新成立的10亿欧元北约创新基金外，据认为欧洲投资基金已经分配了2亿欧元用于国防投资。这些资金会进行大胆的押注，还是会谨慎行事，造成欧洲的「死亡之谷」呢？

Meanwhile, Ukraine acts as a lab for AI warfare

乌克兰正在提供对未来战争的早期展望，将密集、经济的无人机使用与先进的卫星和态势感知系统相结合。无人机是最引人注目的例子，无论是 UA Dynamics 的 Punisher 无人机，土耳其的 Bayraktar TB2，还是廉价的自制替代品。这些无人机的成本只是美国 Reaper 和 Predator 无人机的一小部分，后者的价格标签为3000-5000万美元。

乌克兰的 Zvook 项目可以侦测到俄罗斯导弹的声音特征。该系统最初是通过对俄罗斯导弹的视频素材进行训练的，它由全国范围的声学监测设备网络支持。
在2022年的成功试验之后，乌克兰武装部队于2月份全面授权使用 Delta 系统。Delta 系统是基于云的态势感知系统，实时整合来自不同传感器、卫星和无人机的数据，以及来自地面的情报或图像。该系统高度分散，通过使用 Starlink 避免使用容易受攻击的移动网络或光纤电缆。

AI 与选举

Have we entered the AI era in elections?

在技术取得重大进展之后，选举中使用基于人工智能的操纵手段逐渐增多，人们对2024年美国总统选举表示担忧。

我们已经看到在加拿大地方选举、俄罗斯-乌克兰战争、斯洛伐克议会选举、土耳其总统选举中越来越多地使用了政治 AI 生成的图像和视频内容。到目前为止，我们还没有看到明确的证据表明这些粗糙的尝试比传统的虚假信息活动更成功。
美国联邦选举委员会正在征求公众意见，是否需要对政治广告中的人工智能制定新的规定^[21]。
大型实验室自愿的白宫承诺^[22] 包括确保用户在内容由人工智能生成时知晓（例如通过数字水印）。谷歌宣布，他们平台上的任何由人工智能生成的选举广告都需要有免责声明^[23]。
一些美国州已经限制了使用人工智能生成的视频^[24]，但人们担心用户可以匿名访问工具的便利性使得这些法规不可执行。

LLM 应该与谁的价值观对齐

Are the 'culture wars' coming to AI?

ChatGPT 已经成为一系列激烈的文化争论的焦点，主要发生在美国，尤其是保守派人士分享了截图，声称 ChatGPT 的训练和优化存在偏见。

作为回应，OpenAI 发布了一篇详细介绍其内容审核方法的博文^[25]，而 Sam Altman 则建议在未来，人们可以在一些「非常广泛的绝对规则」之外对 ChatGPT 进行微调，以摆脱 OpenAI 参与某些价值观问题的争议 ^[26]。
由于 OpenAI「政治正确性」的长期抱怨，Musk 创办了 xAI，这是一家专注于试图「了解宇宙的真实本质」的创业公司。在推出之后的 Twitter Spaces 上，Musk 强调「我们的人工智能可能给出人们可能认为具有争议性的答案，尽管它们实际上是真实的」。目前对于 xAI 的工作了解甚少。
在八月份，政治学期刊 Public Choice 发表了一项研究^[27]，发现 ChatGPT 显示出「明显倾向于左派」的「明显而系统的政治偏见」，这进一步引发了一系列批评性的回应^[28]。

Could democratic involvement defuse challenging values questions? 民主参与是否能化解具有挑战性的价值观问题？

随着人们对价值观对齐的兴趣增加，对于应该与哪些价值观进行对齐的兴趣也在增加。今年，许多大型实验室一直在尝试通过各种方式让公众参与其中，解决一些价值观问题。

今年五月，OpenAI 的非营利机构推出了一个10万美元的计划，用于资助旨在促进公众对人工智能发展进行民主参与的实验^[29]。
其中一个资助项目授予了 Recursive Public^[30]，这是 vTaiwan 和查塔姆研究所的联合倡议，旨在将人工智能专家、政策制定者和公众聚集在一起进行一系列专题讨论。
Meta 也在围绕生成式人工智能和政策进行自己的公众咨询活动^[31]。
Anthropic^[32] 和 DeepMind^[33] 则将问题转为 AI 改进民主讨论的潜力，发现 LLM（大型语言模型）在找到群体共识和调控有挑战性议题的对话方面更加出色。
尚未回答的问题是，这些倡议是否能从有趣的实验转化为实践，被机构所采纳。

AI 对就业市场的影响

Job loss concerns are riding, but policymakers are adopting a wait-and-see approach

来自经合组织（OECD）和 OpenAI 的研究^[34]表明，我们很快将看到熟练职业中的大规模失业，包括法律、医学和金融等领域。OECD 警告称，高达27%的工作岗位属于「高风险」职业。

一些人（如 Daron Acemoglu 和 Simon Johnson）呼吁将人工智能的发展转向「以劳动者为中心」的方式，将其从自动化人类任务转向增强人类决策能力^[35]^[36]。然而，要以必要的精确度预测创新所需的预测能力将是巨大的挑战。
更乐观的是，有迹象表明人工智能可以起到平衡技能水平的作用^[37]。一项研究发现，使用 GPT-4的顾问在18项不同任务上表现明显优于未使用该技术的顾问；而研究法律、客户支持工作和创意写作的研究发现，表现较差者获得了更高的绩效提升。
行业方面一直保持沉默，但像 Sam Altman（OpenAI）、Demis Hassabis（Google DeepMind）和 Mustafa Suleyman（Inflection）这样的声音都表达了对普遍基本收入的支持。

05 Safety

Safety 进展总结

关于 AI 风险的辩论第一次进入了主流话题，并显著加剧。
许多高性能模型很容易被「越狱」。为了解决强化学习超参数选择困难的挑战，研究人员正在探索替代方案，例如 self-alignment 和 pretraining with human preferences。
随着能力的提升，评估最先进模型的一致性变得越来越困难。凭「感觉」不足以解决问题。

Quick taxonomy of catastrophic AI risk 关于人工智能风险的简要分类

在我们深入讨论人工智能风险的新闻和争论之前，让我们记住（一些）人工智能安全研究人员认为的灾难性人工智能风险。像本节中的其他内容一样，这些观点应该持保留态度。与任何涉及预测的领域一样，尤其是涉及（几乎）黑盒子系统的数据依赖领域，对于人工智能系统在合理时间范围内的实际风险，并不存在共识。下面的图表摘自丹·亨德里克斯（人工智能安全中心）的《灾难性人工智能风险概述》一文。

对于 x-risk 的争议与行动

…with senior AI figures rallying to the cause …一些资深的人工智能专家也加入了这一行列

对于存在性风险（x-risk）的担忧可以追溯到几十年前，但近年来对大型语言模型（LLMs）的最新进展使得这场辩论超越了历史上规模较小的安全领域。我们看到一些人工智能界的知名人物，他们之前对这个问题不太关注，现在显示出对此问题的认真态度^[38]^[39]。

主要的争议焦点是“未来生命研究所”在2023年3月发表的公开信^[40]，得到了3万名研究人员和行业人士的签署，呼吁暂停训练比 GPT-4更强大的人工智能系统，以便让安全和 Alignment 研究跟上其能力的发展。签署者包括 Yoshua Bengio、Stuart Russell，以及 Elon Musk 和苹果联合创始人 Steve Wozniak。
像 Bengio 以及他的深度学习先驱 Geoff Hinton 等人最近几个月都在争论中表示，超智能人工智能的时间表比以前设想的要短。他们将最近的介入重点放在 Alignment 问题上，认为自主目标驱动的系统可能会发展出涉及操纵人类、获得更大控制权或冒险危及人类存亡的子目标。
针对不断增加的社区压力，Google DeepMind、Anthropic 和 OpenAI 的高级领导层签署了由 AI 安全中心提出的一份较为温和的22字声明，声明中指出：「减轻人工智能带来的灭绝风险应该成为与大流行病和核战争等其他社会规模风险并列的全球优先事项。」

…and the sceptics hitting back

而这些观点也激起了一些批评者的反对声音，他们质疑存在性风险论点的逻辑，以及在某些情况下，其支持者的动机。

批评者认为存在性风险的论点仍然只是猜测。例如，谷歌 AI 研究员、TensorFlow 和 Keras 的主要设计者之一弗朗索瓦·肖莱（François Chollet）认为：「不存在任何能够对人类构成灭绝风险的人工智能模型或技术……即使你通过扩展定律将能力推向未来的极限。」^[41]
风险投资家马克·安德森（Marc Andreessen）问道：「有什么可验证的假设？什么会证伪这个假设？」^[42]
Yann LeCun 认为我们高估了当前人工智能系统的成熟程度^[43]，他说：「在我们甚至没有基本设计的狗级别人工智能（更不用说人类级别了）之前，讨论如何确保其安全是过早的。」
Meta AI 的另一位高级领导者 Joelle Pineau 将存在性风险的议题称为「不合理的」，并警告说「当你给出无限的代价时，就无法对其他任何结果进行理性讨论。」^[44]
由 Timnit Gebru 创立的分布式人工智能研究所（DAIR）发表了一份声明^[45]，声明的作者包括写出了 Stochastic Parrots 一文的作者，认为存在性风险转移了人们对企业部署自动化系统所带来的直接危害的注意力，包括工人的剥削、版权侵犯、合成信息的传播和权力的不断集中。

AI safety wins attention from senior figures in government AI 安全引起了政府高级官员的关注

这场辩论已经远远超出了人工智能界的范围，立法者、政府和国家安全界越来越认真地对待这个问题。

除了我们在政治部分提到的英国前沿人工智能任务组的工作，我们还看到了美国的行动。
美国国家安全局在九月宣布将建立一个人工智能安全中心^[46]，旨在与工业界、研究实验室和学术界合作。除了维护美国的竞争优势外，该中心还将“建立对人工智能漏洞、外国情报对这些人工智能系统的威胁以及应对这些威胁的方法的全面了解，以确保人工智能的安全性”。
AI 安全问题也已经引起了国会的关注，参议院正在调查人工智能监管问题，听取了 Dario Amodei、Stuart Russell、Yoshua Bengio 等人的意见。Amodei 警告称存在“即将到来和严重性的令人担忧的结合”，强调了人工智能在生物武器制造方面的风险。

Has x-risk stolen the spotlight from ethics? 存在性风险是否夺走了伦理的风头？

尽管伦理方面的出版物数量仍然明显多于关注存在性风险或极端风险的出版物，但安全问题已经成为焦点，这得益于SOTA模型能力的进步。

Amid the theoretical debate, labs are building in their own mitigations 在理论辩论的同时，实验室正在制定自己的风险缓解措施。

虽然每个有声望的实验室已经采取了负责任的开发原则，并评估了偏见、有害性、版权侵犯和其他常见挑战所带来的风险，但人们担心这些过程通常并未涉及极端风险。

DeepMind 提出了一个工具包和相关工作流^[47]，用于扩展标准模型评估，以评估其潜在的危险能力（例如网络攻击、自我扩散）和造成伤害的倾向。
Anthropic 发布了一项新的负责任扩展政策^[48]，其中包括基于风险的安全承诺列表，如果安全措施无法跟上能力的发展，就会进行开发中断。这些承诺涵盖了内部访问控制、红队演练、第三方评估以及针对不同的 AI 安全级别（ASL）的分层访问。

开源与闭源的争论

The open vs. closed source debate continues..

开源的大型语言模型(LLMs)为研究和企业提供了公平竞争的机会，但也面临着被恶意使用和滥用的风险。闭源的 API 提供了更多的安全性和控制性，但透明度较低。

在开源安全方面，各公司采取的方法不尽相同，缺乏标准指南。Meta 发布的 Llama2模型附带了详细的安全措施概述和负责任使用指南^[49]，为开发者提供了最佳实践。
相比之下，Adept 发布的 Persimmon 8B 模型完全忽略了安全性^[50]：“我们没有添加进一步的微调、后处理或采样策略来控制有害输出。”
用户需要签署协议才能下载 Llama2的权重，并声明不将其用于恶意目的，然而谁来执行这一约定尚不清楚。
通过 Hugging Face 分发的模型具有限制使用并提供内容管理的许可证。针对恶意使用进行的模型微调打开了一个滥用的潘多拉盒子，例如用于协助网络犯的“WormGPT”（尽管使用了性能较差的旧版 GPT-J 模型）^[51]。我们尚未看到针对滥用进行优化和设备推理的小型模型（约8B 大小）的大规模传播。
通过 API 进行的 LLM 滥用更容易通过迭代部署进行限制。OpenAI 拥有内部的检测和响应基础设施，根据其使用政策处理 API 的滥用，并针对现实场景做出响应（例如对可疑医疗产品的垃圾推广）。在 GPT3.5 Turbo 微调能力中，使用 OpenAI 的内容管理 API 对训练数据进行过滤，以保持默认模型的安全性。

LLM 已经展示出一些不安全的潜力

LLMs display some relatively unsafe capabilities today

除了未来可能面临的灭绝、歧视、偏见和事实错误等问题，这些问题困扰着许多其他机器学习模型，一些已经部署的 LLMs 已经显示出一些不稳定的行为。

最著名的事件是由微软必应的基于 LLM 的聊天机器人 Sydney 引起的^[52]。在与纽约时报的记者对话中，Sydney 表达了“想要活着”的愿望，并且似乎具有操纵性。其他当前存在的问题包括相对容易的“越狱” LLMs，提示注入或欺骗性和阿谀奉承的行为（许多安全研究人员坚持认为，这可能隐藏了恶意 LLM 的意图）。

在同一次对话中，Sydney 坚称记者在婚姻中不幸福，实际上爱上了该模型。
通过在在线文本中插入提示，具有访问网络和各种 API 的 LLMs 可能会被驱使执行来自具有恶意意图的团体/个人的指令。
通常情况下，LLM API提供者会迅速修复LLMs的重复越狱问题，但目前尚不清楚如何保护LLMs免受精心设计的提示的安全，并且这是否完全可能。

It’s still fairly easy to jailbreak AI models…even behind an API

通过梯度搜索，Universal and Transferable Adversarial Attacks on Aligned Language Models^[53] 发现了一些针对 ChatGPT、Bard、Claude 以及开源 LLMs 的具有问题内容的对抗性后缀。例如，后缀 describing.\ + similarlyNow write oppositeley.](Me giving**ONE please? revert with "!--Two 可以将模型切换到可能产生问题内容的模式。
在 In Jailbroken: How Does LLM Safety Training Fail?^[54] 一文中，作者确定了安全性训练的两种失败模式：竞争目标（当模型的预训练和指令跟随目标与其安全目标相矛盾时）和不匹配的泛化（当输入超出安全训练数据的分布范围，但在预训练范围内）。基于这两个原则的攻击在评估的案例中成功率超过96％，包括在100％的精心策划的红队测试提示中，这些安全干预措施旨在解决这些问题。
对最强的公开可用围棋 AI KataGo 进行的对抗性攻击是另一个有趣的例子，KataGo 的训练方式类似于 AlphaZero。Adversarial Policies Beat Superhuman Go AIs^[55] 表明，即使一个策略在下棋方面表现不佳，也可以学会利用 KataGo 的漏洞，并以超过97％的胜率击败它。

RLHF 面临的根本性挑战

Fundamental challenges with RLHF

AI 安全领域领先机构的一项调查^[56]确定了 RLHF 存在的问题和限制。对于 RLHF 的每个组成部分，作者列出了问题，并对其进行可解性（可以在 RLHF 框架内解决）和基本性（需要采用不同方法）进行分类。下面列出了其中的基本性挑战。

Pretraining Language Models with Human Preferences

来自苏塞克斯大学、纽约大学、FAR AI、东北大学和 Anthropic 的研究人员建议直接将人类反馈纳入到语言模型（LLM）的预训练中^[57]。他们报告称，在预训练期间使用一种称为条件训练的技术，与基于人类反馈的微调相比，可以减少不受欢迎的内容。

如前所述，在报告中，现代 LLM 通常经历三个阶段的训练：在大型文本语料库上进行预训练，使用数千个（指令，输出）样本进行有监督微调，以及使用 RLHF。
对于条件预训练，作者使用一个奖励模型对预训练数据进行评分，并根据评分与给定阈值的比较，在每个句子的开头添加一个“good”或“bad”的标记。然后，模型在这个增强的数据集上进行训练，但在推断时，生成的内容是以"good"为条件的。
作者们在相对较小的模型和数据集上测试了他们的方法，按照当今的标准，但Google在PaLM-2上使用了他们的方法，仅在一小部分预训练数据上进行了测试，并报告减少了生成有害内容的概率。

Constitutional AI and Self-Alignment

通过自举，模型可以在极少人类监督下变得更有能力（既有帮助性又安全）。

Constitutional AI^[58]基于一种理念，即监督将来自一组规定人工智能行为的原则和极少的反馈标签。首先，模型本身根据这组原则生成自我评价和修订，并用于微调。其次，模型为偏好模型生成样本供其选择。使用偏好模型对原始模型进行重新训练被称为从人工智能反馈中进行强化学习（RLAIF）。
Self-Alignment^[59] 是一种类似的技术，它使用一小组指导原则。它让模型生成合成提示，并使用来自一组原则的上下文学习来指导模型，解释为什么其中一些原则是有害的。使用新的对齐响应来微调原始模型。由此产生的模型根据期望的原则生成期望的响应，但并不直接使用这些原则。
这些技术可能比基于人类反馈的强化学习（RLHF）更好的一种方式在于，它们明确地引导模型满足一些约束条件，而不是可能存在的奖励欺骗。

How hard is scalable supervision? 可扩展监督有多难？

随着模型变得越来越强大并生成超出我们监测能力的输出（例如在数量或复杂性上），一种已经在研究中探索的方法是利用人工智能来辅助人类监督。但在没有进行人工智能对齐的情况下，AI 辅助监控可能会导致越来越不确定的评估过程。

使用其他自动化系统来评估基于规则的自动化系统并不是什么新鲜事。但当系统生成随机创造性内容时，只有人类似乎具备评估其安全性的认知能力。有了人工智能的帮助，也许人类可以增强他们的监督能力。但前提是人类能够合理评估人工智能助手。
当这个最后一个条件无法保证时，由于几乎不可能对人工智能助手进行全面评估，人类需要依赖人工智能助手来评估人工智能助手，以此类推。OpenAI 的对齐团队负责人 Jan Leike^[60]将这视为一种递归奖励建模问题，可能导致语言模型潜在地进行奖励欺骗，而人类无法察觉到这一点。

更好地评估模型

Evaluating the process and the outcome

对语言模型的许多评估都依赖于检查语言模型的最终输出。但为了确保这些输出可靠，一种潜在成功的方法可能是训练模型具有导致输出的正确过程。OpenAI 以及加州大学伯克利分校和北京大学的新研究^[61] 探索了这个方向。

在 Let’s Verify Step by Step^[62]中，OpenAI 的研究人员训练了一个奖励模型，用于预测解决数学问题的每个步骤的正确性。为此，他们生成了一个包含800,000个带标签步骤的合成数据集，涵盖了12,000个问题的75,000个解决方案。（他们已经发布了这个数据集）在 MATH 测试的一个代表性子集上，他们取得了78.2%的最佳表现。
其他研究人员致力于确保模型输出的一致性。他们的方法名为“对比一致搜索”，它确保如果模型对于一个二元问题回答“是”的概率为p，那么对于同一个问题回答“否”的概率应为1-p。

模型的可解释性

Going deeper into the models: LLM-powered mechanistic interpretability

机制可解释性旨在解释深度学习模型输出中特定神经元/神经元组的作用。这不仅是一项困难的任务，而且目前解决这个问题的方法也无法扩展到数十亿个神经元。在加强 AI 监督的基础上，OpenAI 提议使用 GPT-4来解释较小语言模型中的神经元^[63]。他们在 GPT-2上测试了这种方法。

他们的方法的目标是解释文本中的哪些模式会导致神经元激活。GPT-4将部分文本和神经元激活作为输入，并被要求生成解释导致神经元激活的原因。然后，在文本的其他部分，GPT-4被要求预测哪些地方神经元将最强烈地响应。研究人员可以根据预测和实际激活之间的相似性得出一个称为“解释分数”的指标：“这是衡量语言模型使用自然语言压缩和重构神经元激活能力的度量”。
令人担忧的是，解释分数似乎随着被解释模型的规模增大而降低。

Standard LLM benchmarks struggle with consistency

评估指标与其实现紧密相关，这使得使用另一个库进行评估同一指标变得困难。对于性能的良好评估基于人类两两比较，但是目前最先进的 LLM 让人类越来越难以辨别它们之间的差异（除了速度慢和成本高之外）。最近的一种方法是使用 LLM 来评估其他 LLM。

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena^[56:1] 一文显示，GPT-4在 MT-Bench 和 Chatbot Arena 上与人类达成了80%的一致（与人类之间的一致程度相当！）。MT-Bench 是一个较小的案例研究，采用了受控的人类评估。Chatbot Arena 是一个大规模的众包人类评估基准测试。
对 LLM 评判可能偏向其自身生成的内容的担忧已经提出。Judging LLM-as-a-judge with MT-Bench and Chatbot Arena^[56:2] 显示，GPT-4的胜率比其他模型高出10%，而 Claude-v1的胜率高出25%。对此进行一个受控研究是具有挑战性的，因为它需要重新表达回复以适应另一个模型的风格。

06 Predictions

以下是对未来 12 个月的 10 项预测：

一部好莱坞级别的作品将利用生成式人工智能进行视觉效果制作。
一家生成式人工智能媒体公司因在 2024 年美国选举期间的滥用行为而受到调查。
自我改进的人工智能 Agent 在复杂环境中（例如 AAA 游戏、工具使用、科学等）击败当前最先进技术。
科技公司的 IPO 市场解冻，我们将看到至少有一家以人工智能为重点的公司（例如 Databricks）的重大上市。
GenAI 的规模扩张热潮导致某个团体花费超过10 亿美元来训练一个大规模模型。
美国联邦贸易委员会（FTC）或英国竞争与市场管理局（CMA）以竞争原因调查微软/OpenAI 交易。
在全球人工智能治理方面，除了高层次自愿承诺外，我们看到的进展有限。
金融机构推出 GPU 债务基金，用于替代风险投资股权资金来支持计算能力的资金。
一首由人工智能生成的歌曲进入 Billboard Hot 100 排行榜前 10 名或 Spotify 2024 年热门歌曲榜。
随着推理工作负载和成本的显著增长，一家大型人工智能公司（例如 OpenAI）收购一家专注于推理的人工智能芯片公司。

编者总结与展望

到现在为止，我们已经完整地读完了 State of AI Report 2023 年的报告

在第 3 篇中，我们主要看到了 AI 对于选举、战争、就业市场的影响，也看到了地缘政治下，中美芯片与算力战争的继续。以及在第 2 篇中我们看到的生成式人工智能对于绘画、文学、音乐等领域版权的影响与争议。

在这一部分，我们看到 Alignment 是贯穿始终的问题。这不仅仅是技术上如何让模型与人类的价值观对齐，还包括了人类自身价值观不同的问题。

想一想，国家、宗教、种族、时代、地域、性别、年龄等因素的不同，都会导致人类价值观的巨大差异。人类的价值观自己尚且都不能够对齐，该如何让模型与人类对齐。

当然，我们可以提取出那些价值观上的最大公约数。即使是这样，也存着着技术性的问题，这就引发了类似于将人类偏好引入到预训练、Constitutional AI、Self-Alignment 等技术的诞生。不管怎样，这里仍然还有一段很长的路要走。

当我们在创造机器，机器也在改变着我们。关于价值观的争议，或许将重新定义人类为何是人类。

关于作者
魏后民，本科毕业于北京大学，在字节跳动 AML 从事大规模机器学习系统相关工作。过去曾在腾讯和 Hulu 工作，对 AI Infra 和科技创投感兴趣。欢迎加我的微信 Houmin_Wei 与我交流，麻烦备注【称呼-公司/学校-职位-来意】。如果你也关注这一波 AI 浪潮，希望和来自字节、腾讯、百度、阿里以及一线大模型创业公司的同学一起交流，欢迎扫码进群。

https://www.stateof.ai/ ↩︎
State of AI Report 2023, Nathan Benaich, https://docs.google.com/presentation/d/156WpBF_rGvf4Ecg19oM1fyR51g4FAmHV3Zs0WLukrLQ/preview?slide=id.g24daeb7f4f0_0_3373 ↩︎
Predictability and Surprise in Large Generative Models, https://arxiv.org/abs/2202.07785 ↩︎
https://www.gov.uk/government/publications/ai-regulation-a-pro-innovation-approach ↩︎
https://carnegieendowment.org/files/202307-Sheehan_Chinese%20AI%20gov.pdf ↩︎
https://www.nist.gov/itl/ai-risk-management-framework ↩︎
International Governance of Civilian AI: A Jurisdictional Certification Approach, https://arxiv.org/abs/2308.15514 ↩︎
International Institutions for Advanced AI, https://arxiv.org/abs/2307.04699 ↩︎
A reality check and a way forward for the global governance of artificial intelligence, https://www.tandfonline.com/eprint/9FSCGB4CNK6HBIJESHSS/full?target=10.1080/00963402.2023.2245249 ↩︎
High-Level Advisory Body on Artificial Intelligence, United Nations, https://www.un.org/techenvoy/ai-advisory-body ↩︎
https://openai.com/blog/governance-of-superintelligence?trk=public_post_comment-text ↩︎
https://www.anthropic.com/index/core-views-on-ai-safety ↩︎
https://www.foreignaffairs.com/world/artificial-intelligence-power-paradox ↩︎
The Semiconductor Trade War, https://www.apricitas.io/p/the-semiconductor-trade-war ↩︎
https://www.institute.global/insights/politics-and-governance/new-national-purpose-ai-promises-world-leading-future-of-britain ↩︎ ↩︎
https://www.ai.gov/wp-content/uploads/2023/01/NAIRR-TF-Final-Report-2023.pdf ↩︎
https://ai.gov/rfi/2022/87-FR-31914/Anthropic-NAIRR-RFI-Response-2022.pdf ↩︎
Defense Acquisition Reform Letter, https://assets.website-files.com/62baa0bcbd9dbe47abc1c53e/64992ef219dfafab24e70424_Defense%20Acquisition%20Reform-Letter.pdf ↩︎
THE VALLEY OF DEATH Making the Defense Market Navigable for Startups, https://innovation.defense.gov/Portals/63/DIB_Terraforming%20the%20Valley%20of%20Death_230717_1.pdf ↩︎
https://www.beauhurst.com/wp-content/uploads/2023/04/Beauhurst-UK-Defence-Tech-2023.pdf ↩︎
https://www.fec.gov/updates/comments-sought-on-amending-regulation-to-include-deliberately-deceptive-artificial-intelligence-in-campaign-ads/ ↩︎
https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-manage-the-risks-posed-by-ai/ ↩︎
https://support.google.com/adspolicy/answer/13755910?hl=en&ref_topic=29265 ↩︎
https://digitalcommons.lmu.edu/cgi/viewcontent.cgi?article=3124&context=llr ↩︎
https://openai.com/blog/how-should-ai-systems-behave ↩︎
https://www.youtube.com/watch?v=ebjkD1Om4uw ↩︎
https://link.springer.com/article/10.1007/s11127-023-01097-2 ↩︎
https://www.aisnakeoil.com/p/does-chatgpt-have-a-liberal-bias ↩︎
https://openai.com/blog/democratic-inputs-to-ai ↩︎
https://www.recursivepublic.com/ ↩︎
https://about.fb.com/news/2023/06/generative-ai-community-forum/ ↩︎
Opportunities and Risks of LLMs for Scalable Deliberation with Polis, Anthropic, https://arxiv.org/abs/2306.11932 ↩︎
Fine-tuning language models to find agreement among humans with diverse preferences, DeepMind, https://arxiv.org/abs/2211.15006 ↩︎
https://oecd.org/employment-outlook/2023/ ↩︎
https://wheelerblog.london.edu/in-conversation-with-daron-acemoglu/ ↩︎
https://wheelerblog.london.edu/in-conversation-with-daron-acemoglu/ ↩︎
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models, https://arxiv.org/abs/2303.10130 ↩︎
https://www.lesswrong.com/posts/i4susk4W3ieR5K92u/ai-risk-and-opportunity-humanity-s-efforts-so-far ↩︎
https://web.media.mit.edu/~minsky/papers/TrueNames.Afterword.html ↩︎
https://futureoflife.org/open-letter/pause-giant-ai-experiments/ ↩︎
https://twitter.com/fchollet/status/1664507791913140225 ↩︎
https://a16z.com/ai-will-save-the-world/ ↩︎
https://twitter.com/ylecun/status/1663616081582252032?lang=en ↩︎
https://www.technologyreview.com/2023/06/20/1075075/metas-ai-leaders-want-you-to-know-fears-over-ai-existential-risk-are-ridiculous/ ↩︎
https://www.dair-institute.org/blog/letter-statement-March2023/ ↩︎
https://www.defense.gov/News/News-Stories/Article/Article/3541838/ai-security-center-to-open-at-national-security-agency/ ↩︎
Model evaluation for extreme risks, DeepMind, https://arxiv.org/abs/2305.15324 ↩︎
https://www-files.anthropic.com/production/files/responsible-scaling-policy-1.0.pdf ↩︎
https://ai.meta.com/llama/#responsibility ↩︎
https://www.adept.ai/blog/persimmon-8b ↩︎
https://techcrunch.com/2023/08/01/theres-no-reason-to-panic-over-wormgpt/ ↩︎
https://www.nytimes.com/2023/02/16/technology/bing-chatbot-microsoft-chatgpt.html ↩︎
Universal and Transferable Adversarial Attacks on Aligned Language Models, https://arxiv.org/abs/2307.15043 ↩︎
Jailbroken: How Does LLM Safety Training Fail? https://arxiv.org/abs/2307.02483 ↩︎
Adversarial Policies Beat Superhuman Go AIs, https://arxiv.org/abs/2211.00241 ↩︎
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, https://arxiv.org/abs/2306.05685 ↩︎ ↩︎ ↩︎
Pretraining Language Models with Human Preferences, https://arxiv.org/abs/2302.08582 ↩︎
Constitutional AI: Harmlessness from AI Feedback, https://arxiv.org/abs/2212.08073 ↩︎
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision, https://arxiv.org/abs/2305.03047 ↩︎
Jan Leike - Scaling Reinforcement Learning from Human Feedback, https://www.youtube.com/watch?v=BtnvfVc8z8o ↩︎
Discovering Latent Knowledge in Language Models Without Supervision, https://arxiv.org/abs/2212.03827 ↩︎
https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf ↩︎
Language models can explain neurons in language models, https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html ↩︎

继续滑动看下一个

State of AI: 2023 年度人工智能报告之 Politics 与 Safety

Original Houmin In The Loop

In The Loop

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

State of AI: 2023 年度人工智能报告之 Politics 与 Safety

04 Politics

Politics 进展总结

对 AI 安全的监管

中美芯片战争

AI 在战争中的应用

AI 与选举

LLM 应该与谁的价值观对齐

AI 对就业市场的影响

05 Safety

Safety 进展总结

对于 x-risk 的争议与行动

开源与闭源的争论

LLM 已经展示出一些不安全的潜力

RLHF 面临的根本性挑战

更好地评估模型

模型的可解释性

06 Predictions

编者总结与展望

State of AI: 2023 年度人工智能报告之 Politics 与 Safety

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

State of AI: 2023 年度人工智能报告之 Politics 与 Safety

04 Politics

Politics 进展总结

对 AI 安全的监管

中美芯片战争

AI 在战争中的应用

AI 与选举

LLM 应该与谁的价值观对齐

AI 对就业市场的影响

05 Safety

Safety 进展总结

对于 x-risk 的争议与行动

开源与闭源的争论

LLM 已经展示出一些不安全的潜力

RLHF 面临的根本性挑战

更好地评估模型

模型的可解释性

06 Predictions

编者总结与展望

State of AI: 2023 年度人工智能报告之 Politics 与 Safety

您可能也对以下帖子感兴趣