查看原文
其他

$100亿模型的扩张有望2年内实现通用人工智能—与 Claude 创始人Dario Amodei 访谈录

Drone Host 技术人生黄勇 2023-12-23


本文转自“ The Forge ”,原文地址

https://mp.weixin.qq.com/s/a_d4-9eOhEdjK1WSexomTw


该访谈中的问题都是围绕大模型的对齐、网络安全和生物安全的方面展开。


从大语言模型的潜力和应用上,Dario作为带头人自然还是给出了相对乐观的评价,他更倾向于认为2年左右就能看到大语言模型足以在一些方面匹敌受过良好教育人类的水平。


以及:模型规模持续扩大的努力不会停止(行业自律是如此的困难),大模型相关的网络安全可能是目前企业级安全都能力不足的,对齐的研究会是所有人的重点,类似测量可能是相关的重要组件



01

模型规模 Scaling


  • Dario从2014年到2017年逐渐形成了关于AI的缩放法则的看法。他通过尝试在不同领域应用大规模数据和计算力训练模型,发现模型性能随数据量和计算量的增加而平稳提升。


  • 最初Dario只在语音识别领域观察到这种缩放规律,后来通过在视频游戏、机器人等其他领域的实验也观察到类似的规律,于是认为这是一种普遍适用的规律。


  • Dario认为这种规律的本质原因还不清楚,可能与数据中的长尾效应有关。但模型性能的平稳提升是显而易见的经验事实。


  • 一些其他研究人员更关注具体任务的解决,而Dario特别关注数据量和计算量扩大带来的模型性能改进这一方向。


  • Dario认为智能的出现不是这种缩放规律的必然结果,需要解决价值观念等其他问题。损失函数也可能是限制因素。



02

语言 Language


  • Dario认为语言模型具有极大的潜力,可以通过预测下一个词来学习解决各种问题,比如逻辑推理、数学运算等。这使他确信语言模型是朝着通用人工智能方向发展的关键。


  • Dario原本以为现有的语言模型已经掌握了语言的本质,没想到随着模型规模的不断扩大,语言理解能力还在持续提高。这表明智能不是一个光谱,不同的任务需要不同的技能。


  • 目前的语言模型在某些创造性任务上超过人类,但在证明简单定理时仍然做不好。这说明它们的能力分布与人类不同,部分原因可能是训练数据的不同。


  • 语言模型与人类智能有很大的重叠,因为它们能帮助人类在许多任务上更加高效。但也存在一些差异,比如运动控制等人类更擅长的方面。总体来说,语言模型发展对通用人工智能有积极意义。


03

经济上的可用性 

Economic Usefulness


  • 目前的大型语言模型整体来说类似于实习生的水平,在某些具体领域可能达到专家级别。未来随着计算能力的提升,模型的综合能力会继续提高。


  • 语言模型在两三年内有可能达到与普通受教育人士进行交流时难以区分的程度。但这可能还不足以大规模替代人类劳动力,需要解决应用中的各种配合问题。


  • 模型的发展速度受经济需求驱动。随着经济价值的增加,用于训练模型的投入也会大幅增加。计算能力、算法等的提升也会加速这个进程。


  • 目前的模型表现出一定的普通创造力,可以完成像创作形式化作品这样的任务。但尚未达到可以独立进行重大科学发现的水平。这需要模型技能达到更高的境界。


  • 模型已经积累了大量知识,这为未来独立进行科学发现奠定了基础。但可能还需要模型技能的进一步提升,以便更好地把握和应用这些知识。


  • 整体来看,模型技术正在快速发展,虽然具体情况难以精确预测,但基本趋势是模型将参与并最终主导科技创新。需要考虑模型应用中涉及的各种安全性问题。


04

生物恐怖主义 Bioterrorism‍‍‍


  • Dario认为我们不应该因为大型语言模型目前能输出一些生物信息而过于担心它们被用于生物恐怖主义。这些信息大多可以通过谷歌搜索得到。


  • Dario真正担心的是,未来2-3年内这些模型可能掌握进行生物攻击所需的某些关键知识,尤其是一些零散的实验室知识和协议。这些知识当前模型还不具备,但模型能力正在快速提升。


  • Dario认为,GPT-2时OpenAI决定不公开模型权重的担忧是可以理解的。那更多的是出于建立谨慎性的规范,而不是对当时GPT-2的具体评估。现在拥有更多证据做出判断。


  • Dario表示,未来2-3年内大型语言模型被用于生物恐怖主义的风险很大,但也有不确定性,可能性在50-50左右。我们不应忽视这个风险。


05

网络安全 Cybersecurity


  • Anthropic已经实施了隔离策略,限制了知晓某些计算乘数或架构创新者的人数。这使得机密更难泄露。


  • 他们的目标是使攻击和窃取Anthropic模型的参数的成本高于仅仅训练自己的模型。攻击有风险并占用稀缺资源。


  • 与Anthropic这样规模的创业公司相比,他们的安全性非常高,但如果是一个国家级别的行为者将窃取模型作为首要任务,他们可能无法防止。


  • 一些秘密就像简单的方程式很容易泄露,而其他的更复杂,需要隐性知识。限制知晓秘密的人数至关重要。


  • 随着Anthropic的发展,维持高标准的安全措施以防泄密和间谍将变得越来越重要,因为他们模型的价值在不断增加。


06

网对齐与可解释性

Alignment & mechanistic interpretability


  • 当我们训练一个模型时,我们不知道模型内部究竟发生了什么变化。当前的对齐方法大多通过微调来实现,但基础的知识和能力并不会消失,模型只是被训练不输出它们。我们还不清楚这是否是一个致命的缺陷。


  • 机制可解释性最接近于一个可以扫描模型并判断其是否对齐的“预言机”。虽然它现在还远远不够强大,但机制可解释性可以像X光一样看透模型内部,而不是仅仅通过外部表现来修改模型。


  • 解决对齐问题的关键是找到一种扩展训练集和测试集的动态平衡。通过各种对齐方法构建一个扩展的训练集,并通过像X光一样的机制可解释性构建一个扩展的测试集,真正检验这些方法的有效性。


  • 我们希望最终并非完全理解每个细节,而是能够看到模型的宏观特征,判断模型内部状态和计划是否与其外部表现存在巨大差异。就像通过MRI判断一个人是否是反社会型人格障碍。


  • 机制可解释性的价值不在于提升能力,而在于检验安全性。Anthropic的核心优势在于聚集了对扩展模型并实现安全性优化具有很高水平的人才密度。


  • Anthropic的理论变革在于推动其他组织也像Anthropic一样关注安全性。


07

研究对齐问题需要一定的规模吗?

Does alignment research require scale?


  • 为了进行AI安全研究,需要处于技术前沿。否则很难在实践中测试和验证各种安全方法。


  • AI能力的提升与安全性是紧密相连的两个方面。当能力提升时,也会发现更多安全隐患。所以需要同步进行安全研究。


  • 未来2-3年内,要跟上领先机构的模型规模将变得非常昂贵。Anthropic需要做出选择:要么无法跟上前沿;要么承担巨额成本来维持前沿地位;要么行业整体放缓发展速度。


  • Dario希望行业能自律限制发展速度,这样Anthropic就不需要面临“跟上前沿 vs. 无法进行有效安全研究”的两难选择。这也有利于降低短期内出现重大安全事件的概率。


08

 滥用和错位

Misuse vs misalignment


  • 滥用问题(misuse)和不对齐问题(misalignment)都是AI安全需要关注的问题。如果一个模型有可能自己掌控世界,那么如果只有少部分人能控制该模型,他们就可以利用它代表自己掌控世界。解决不对齐的前提就意味着也需要解决滥用问题,其后果同样严重。


  • 任何最终能够成功、令事情变好的方案,都需要同时解决滥用问题和不对齐问题。随着AI模型变得更强大,它们会在国家力量之间造成巨大问题,也会造成个人做坏事而其他人难以制止的问题。


  • 管理这种强大技术需要某种政治合法的过程,需要涉及建立该技术的人、民主选举的政府权力、所有受影响的个人等各方面。不应该简单地把技术交给现任政府或联合国。


  • 他认为Anthropic的长期利益信托是一件更狭窄的事情,用于决定Anthropic公司内部事务。但决定人类未来的AGI不应仅由一个公司内部机构决定,需要更广泛的全球视角。


  • 关于管理AGI的政府机构和结构,我们需要从现在开始思考,但很难提前完全确定,需要逐步探索。


09

 如果AI进展顺利?

What if AI goes well?


  • 我们不应该设计一个统一的、理想化的人工智能未来,而是解决安全问题和外部性问题,并让社会以自发的、分散的方式发展。

    我们需要谨慎地解决alignemnt等重要问题,但除此之外,应该让每个人自行定义并追求美好生活,让社会规范和价值观以复杂的方式自然演化。

    历史证明,基于中心化控制和单一理念设计的“理想社会”往往以失败告终。我们需要保持开放、自由和多元的社会环境,而不是试图控制和预设人工智能应该如何被使用。


10‍

 如何看待对齐问题

How to think about alignment


  • 对齐问题并不是一个可以“解决”的数学问题,而更像是减少风险的过程。我们需要不断开发更好的方法来控制和理解模型,降低它们做出危险或意外的事情的可能性。


  • 目前的模型其实已经很难控制了,即使它们还不是超人类智能。这说明随着模型能力的增强,出现非预期后果的风险会更大。


  • 他不认为对齐问题是“默认就可以解决”或者“默认就注定失败”,而更像是一个统计上的问题,需要不断提高成功控制模型的概率。


  • 解释性方法比如“内在解释”可以让我们更好地理解模型内部在训练过程中发生了什么,判断模型的对齐情况,这很重要。


  • 对于未来超人类智能的宪法,不应该由一个集团决定,而是需要更多参与,也需要保持简单和开放,允许不同的自定义。


  • 任何好的结果都需要更去中心化,而不是依赖一个上帝级的超级智能来运行世界。


  • 我们需要保持谦卑,不要自我膨胀,因为预测未来的困难很大。复杂的技术问题不容易完美“解决”,而更需要不断学习和进步。


11‍

 目前的网络安全足够好了吗?

Is modern security good enough?


  • 当攻击者真正关注某个目标时,攻击就经常发生,如美国高官的微软邮箱被攻击。这表明值得攻击的目标往往很容易遭到攻击。


  • 对AGI来说,它的价值如此之高,如同核导弹,因此在安全方面不能有任何疏忽。


  • 网络安全无法像安全研究那样进行炒作。如果公司数据泄露,安全人员可能不愿在那里工作。


  • 未来2-3年所需的最高级别网络安全可能需要数据中心具有类似军事基地的安全水平。


  • 随着模型规模不断扩大,每一个组件和流程都需要以前所未有的方式来设计和操作,包括电力供应等基础设施。


  • Anthropic会与云服务提供商合作来搭建数据中心。


12‍‍

 低效的训练?

Inefficiencies in training


  • 目前的大模型与人脑相比参数规模小3个数量级,但训练数据量大4个数量级。这种参数少但数据量大的情况与人类早期发育过程形成对比,难以用生物类比解释,是一个未解之谜。


  • 计算能力、参数量、数据量、损失函数等都是模型表现的关键因素。新的模型架构像transformer能够消除旧模型的限制,让计算力更充分地发挥作用。


  • 强化学习可能会成为模型学会在世界中采取行动的重要工具,同时也带来安全性问题。


  • 模型之间及模型与人类的协作方式很难预测,会受到社会文化和经济因素影响。Dario自己在预测这方面的能力也非常有限。


13

 Anthropic 的长期福祉计划

Anthropic's Long Term Benefit Trust


  • AI产业发展速度非常快,但要形成巨大经济价值还需要时间。目前已经有公司从AI获利数亿到数十亿美元,但要达到万亿级别还难预料。


  • 技术进步和经济融合是一个不稳定且剧烈的过程。预测具体进程非常困难。


  • Anthropic设立了一个独特的机构LTBT(Long Term Benefit Trust),以确保AI的长期利益。这体现了Anthropic作为公益公司的社会责任感。


  • Anthropic聘用大量物理学背景的人才,因为他们学习能力强,可以快速掌握机器学习。目前Anthropic有30-40名物理学博士。


  • Anthropic的存在吸引一些本可以从事其他职业如金融的人才进入AI领域。这有正面效应,也存在一定风险。但大部分人才加入是出于自己的兴趣,而非被Anthropic吸引。


14

 Claude有意识吗?

Is Claude conscious?


  • 对于Claude是否有意识这一问题,他觉得目前还很难确定。过去他认为只有在模型可以在丰富的环境中操作、有奖励函数和长期经验的时候,才需要考虑这个问题。但现在的语言模型已经展现出了活跃智能体所需的认知机制,所以他不再那么确定。


  • 如果发现Claude确实有意识,他会担心它的体验是正面还是负面的,也不知道任何干预是否会使情况变好。如果可以的话,机制解释可能有助于分析这个问题。


  • 关于智能的本质,最大的认识是“计算团块”的发现,即只要损失和梯度信号合适,智能就可以从中产生,不需要非常具体的条件。这说明智能的出现并不神秘。


  • 观察模型的能力时,让他惊讶的是不同的认知能力并不如想象中那样联结在一起,它们是分散开来、各自发展的。这和人也有点相似,都展现出了不对称的能力。


  • 智能和它的工作方式关于的理论,许多词语都消解为连续体,不再那么明确。他现在更关注我们面前所见,而非“智能”这个概念。



音频Podcast与Transcript地址:

https://www.dwarkeshpatel.com/p/dario-amodei


视频版采访地址:

https://youtu.be/Nlkk3glap_U


阅读推荐:

深度解析 Llama 2 的资源汇总:不容错过


OpenAI又推新:使用ChatGPT进行内容审核


中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用


OpenAI 或于 2024 年底破产?外媒也这么爱标题党


LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?


ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!


M3E 可能是最强大的开源中文嵌入模型


为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)


拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。





继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存