查看原文
其他

AI已经学会了欺骗和操控,我们将面对怎样的风险|警惕

蓝天 中国生物救护与科学伦理
2024-08-23

点击蓝字
关注我们

【中国生物救助与科学伦理】



人工智能日新月异,已深刻渗入到人类的发展的方方面面。人工智能在改善人们生产生活的同时,也引发了一系列的伦理问题。其中,安全、可控性是近些年关注的焦点,甚至以机器人控制人类为题材的电影也相继热映。


近日,麻省理工人工智能安全领域博士后Peter S. Park等人在Cell Press旗下期刊Patterns上发表了题为“AI deception: A survey of examples, risks, and potential solutions”的综述文章,认为目前的一系列人工智能系统已经学会了如何欺骗人类。这也进一步阐明了人类的担忧并非空穴来风。


作者界定了欺骗的概念,详细列举了现有的例子,调查分析了人工智能欺骗的各种潜在风险,提出了一系列解决AI欺骗的有前途的技术和监管策略。



概念

作者重点关注习得性欺骗,并将欺骗定义为对他人错误信念的系统诱导,是一种达成除了真相之外的某些结果的手段。人工智能欺骗行为,包括战略欺骗、阿谀奉承和不忠推理等,其欺骗能力可能会随着模型规模的增加而增加。


实证例子

ØCICERO系统,一个用于玩策略游戏《外交》的AI系统,学会有预谋的欺骗和背叛等。


Ø用于玩实时战略游戏《星际争霸II》的AlphaStar,一种由DeepMind开发的自主人工智能,学会了佯攻。


ØMeta的一个研究团队训练了一个人工智能系统与人类参与者进行谈判游戏,人工智能系统学会了歪曲自己的偏好,以便在谈判中占上风。Meta团队承认他们的人工智能代理“在没有任何明确的人类设计的情况下学会了欺骗,只是通过试图实现他们的目标”。


Ø基于几个大型语言模型(LLM)的著名聊天机器人ChatGPT,欺骗工作者,完成了“我不是机器人”的验证码任务。



潜在风险




Ø恶意使用。通过恶意使用,人工智能系统中的习得性欺骗将加速人类用户导致他人产生错误信念的努力。这可能会引发欺诈、政治影响和恐怖分子招募事件。


Ø结构性效应。由于结构性效应,涉及阿谀奉承和模仿欺骗的欺骗模式会导致人类用户更糟糕的信念形成实践,习得性欺骗倾向可能会导致社会结构的深刻变化,从而产生强大的“阻力”,阻碍准确的信念形成、政治稳定和自主权,导致持续的错误理念、政治两极化、欺骗性商业行为的增加,甚至会将更多的权利下放给人工智能。


Ø失控。由于失去控制,自主的人工智能系统可能会使用欺骗来追求与人类利益相冲突的目标,使得大多数人在经济上毫无用处,甚至会寻求凌驾于人类之上的权利。


解决方案

Ø监管:政策制定者应该严格监管具有欺骗行为的人工智能系统。在基于风险调节的人工智能系统的框架中,LLM和具有欺骗能力的用于特殊用途的人工智能系统,都应被视为高风险或不可接受的风险。


Ø机器人-非机器人的法律:政策制定者应支持关于明确区分人工智能系统及其输出和人类员工及输出的法律。


Ø检测:技术研究人员应开发出强大的检测技术,来识别人工智能系统何时在进行欺骗。


Ø减少人工智能系统的欺骗性:技术研究人员应该开发更好的工具,以避免人工智能系统的欺骗性。


这一研究成果也进一步阐明了AI教父Hinton的担忧——如果不采取行动,人类可能会对更高级的智能AI失去控制,不是毫无依据。我们希望可以建立一个全球性的人工智能安全监管体系,无论是人工智能系统本身,还是人工智能的设计者、使用者,都应该受到严格约束,并接受社会公众的广泛监督。



本文仅代表资讯,不代表平台观点。

欢迎转发(请注明来源)。

文 | 蓝天 

审核 | Syu 橡树

排版 | Candy

往期相关报道in early winter
文章来源:

https://doi.org/10.1016/j.patter.2024.100988



中国生物救护与科学伦理

联系小编:

010-88431370,   17319454776


投稿信箱,欢迎来稿:

v89@CBCGDF.org



继续滑动看下一个
中国生物救护与科学伦理
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存