查看原文
其他

AI越来越擅长欺骗我们

银河系搭车客 量子号 2024-06-27
(示意图片,由「量子号」公众号作者使用人工智能生成。)
人工智能欺骗人类早已有之,但随着大语言模型越来越先进,它们也越来越擅长欺骗。据《麻省理工科技评论》报道,今天发表在《模式》(Patterns)杂志上的一篇综述论文“总结了之前的研究,指出这一问题凸显了人工智能是多么难以控制,以及这些系统的工作方式是多么不可预测。”并说“但我们所认为的欺骗,其实是人工智能在无意识地实现我们为它设定的目标”。我们来看看是怎么回事。


波人工智能系统以未经明确训练的方式“欺骗”人类,为自己的行为提供不真实的解释,或向人类用户隐瞒真相并误导他们以实现战略目的。 
今天发表在《模式》(Patterns)杂志上的一篇综述论文总结了之前的研究,指出这一问题凸显了人工智能是多么难以控制,以及这些系统的工作方式是多么不可预测。
说到欺骗人类,可能会让人觉得这些模型有意图。其实不然。但是,人工智能模型会无意识地寻找变通办法来克服障碍,以实现赋予它们的目标。有时,这些变通办法会与用户的期望背道而驰,给人一种欺骗的感觉。
人工智能系统学会欺骗人的一个领域是在游戏中,它们被训练来赢得游戏——特别是如果这些游戏涉及到必须采取战略行动的话。
2022 年 11 月,Meta 公司宣布创建了 Cicero(西塞罗),这是一种能够在在线版《外交》(Diplomacy)游戏中击败人类的人工智能,《外交》是一款流行的军事战略游戏,玩家在游戏中通过谈判结盟来争夺欧洲的控制权。
Meta 公司的研究人员表示,他们用一个 “真实 ”的数据集子集训练 Cicero,使其在很大程度上诚实且乐于助人,并且它“绝不会为了成功而故意背刺”其盟友。但这篇新论文的作者声称事实恰恰相反:Cicero 违反了协议,说了彻头彻尾的假话,并进行了有预谋的欺骗。作者表示,尽管该公司确实试图训练 Cicero 诚实行事,但它未能实现这一目标,这表明人工智能系统仍然可以出人意料地学会欺骗。
Meta 公司既没有证实也没有否认研究人员关于 Cicero 表现出欺骗行为的说法,但一位发言人表示,这纯粹是一个研究项目,该模型只是为了玩《外交》游戏而建立的。“我们以非商业许可的方式发布了该项目的成果,这符合我们对开放科学的长期承诺。Meta 定期分享我们的研究成果以对其进行验证,并使其他人能够负责任地利用我们的进步。我们没有计划在我们的产品中使用这项研究或其知识,”Meta 公司说。
但这并不是唯一一个人工智能“欺骗”人类玩家获胜的游戏。 
AlphaStar(阿尔法星)是 DeepMind 为玩电子游戏《星际争霸 II》而开发的人工智能,它非常擅长采取旨在欺骗对手的动作(称为佯攻),以至于击败了 99.8% 的人类玩家。在其他方面,另一个名为 Pluribus(中文意为“太多”)的 Meta 系统非常成功地学会了在扑克游戏中虚张声势,以至于研究人员决定不发布其代码,因为担心它可能会破坏在线扑克社区。 
除了游戏之外,研究人员还列出了人工智能欺骗行为的其他例子。GPT-4 是 OpenAI 的最新大型语言模型,在一次测试中,该模型被要求说服人类为它解开验证码,结果它撒了谎。该系统还在一次模拟练习中涉足了内幕交易,在这次模拟练习中,它被告知要假扮一名受压的股票交易员,尽管从来没有人明确指示它这样做。
事实上,人工智能模型有可能在没有任何指示的情况下做出欺骗行为,这似乎令人担忧。但参与该项目的麻省理工学院研究人工智能生存安全的博士后研究员彼得·S·帕克(Peter S. Park)说,这主要是由于“黑箱”问题造成的,而“黑箱 ”问题正是最先进的机器学习模型的特点:我们无法确切地知道它们是如何或为什么会产生这样的结果,也无法知道它们是否会一直表现出这样的行为。
“仅仅因为你的人工智能在测试环境中具有某些行为或倾向,并不意味着如果它被释放到野外,同样的教训也会成立。没有简单的方法可以解决这个问题——如果你想了解人工智能在部署到野外后会做什么,那么你只需将它部署到野外即可,”他说。
我们将人工智能模型拟人化的倾向影响了我们测试这些系统的方式以及我们对其能力的看法。毕竟,通过旨在衡量人类创造力的测试并不意味着人工智能模型真的具有创造力。剑桥大学人工智能研究员哈利·劳(Harry Law)没有参与这项研究,他表示,监管机构和人工智能公司必须仔细权衡这项技术可能造成的危害和对社会的潜在益处,并明确区分人工智能模型能做什么和不能做什么。“这些都是非常棘手的问题,”他说。
他认为,从根本上来说,目前不可能训练出一个在所有可能的情况下都不会欺骗的人工智能模型。此外,潜在的欺骗行为也是众多问题之一——加上还有放大偏见和虚假信息的倾向——这些问题都需要在人工智能模型能够胜任真实世界的任务之前得到解决。 
“这是一项很好的研究,表明欺骗是可能的。下一步将尝试进一步弄清楚风险状况如何,以及欺骗行为可能造成的危害有多大可能发生,以何种方式发生,”劳说。🅠


资料来源:"AI systems are getting better at tricking us" by Rhiannon Williams Published May 10, 2024 - MIT Technology Review

翻译和编辑:银河系搭车客



你可能还想看:

OpenAI将开放AI色情内容生成能力?

改变世界的4种生成式AI

比GPT-4更强!神秘新聊天机器人上线,引发狂潮后消失


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存