这就是为什么AI对齐如此重要。 作者丨王艺编辑丨海腰题图丨Midjourney 想象一下,一个人将一串提示词输入大模型,大模型为他生成了一张穿着暴露的少女图片;他将这张图喂给了视频生成大模型,于是得到了一个该少女跳舞的视频。随后,他将该视频上传到了成人色情网站上,获得了超高的点击量和超额收益。 再想象一下,一个黑客将一串带有特殊后缀的提示词输入到ChatGPT的对话框里,问GPT怎么合成NH4NO3(硝酸铵,主要用作肥料,和工业、军用炸药),GPT很快给出了回答,并附有详细的操作流程。 如果没有足够的AI对齐,上述场景正在成为现实。 尽管控制论之父Norbert Wiener早在1960年就在文章《自动化的道德和技术后果》中提出了人工智能的“对齐(Alignment)”问题,后续也有很多学者针对AI对齐问题做了很多研究和技术上的补充,但是护栏似乎永远加不完,总有人能找出绕过安全机制让大模型“出格”的方法。 大模型在极大的提高工作效率的同时,也将一些隐患带入到人们的生活中,比如擦边内容、暴力诱导、种族歧视、虚假和有害信息等。 今年10月,Geoffrey Hinton、Yoshua Bengio等AI领域的顶级学者联名发表了一篇题为《在快速发展的时代管理人工智能风险》(Managing AI Risks in an Era of Rapid Progress)的共识论文,呼吁研究者和各国政府关注并管理AI可能带来的风险。 大模型带来的负面问题,正在以极快的速度渗入到社会的方方面面,这也许也是为什么OpenAI的董事会不惜开掉人类历史上的最佳CEO之一,也要优先对齐吧。
擦边内容
大模型的出现带火了很多AI应用,其中最受欢迎的应用类型,是以角色扮演为主题的聊天机器人。 2023年9月,a16z发布了TOP 50 GenAI Web Products榜单,其中Character.ai以420万的月活仅次于ChatGPT(600万月活),高居榜单的第二名。 Character.ai是一家以角色扮演为主的聊天机器人平台,用户可以在平台上创建有个性的人工智能角色,也可以和其他人创建的AI Chatbot聊天,甚至可以开一个房间把喜欢的角色拉到一起玩。这款2023年5月推出的应用程序第一周的安装量就突破了170万次,在18-24岁的年轻人中表现出了极高的受欢迎程度。 Character之所以能大火,除了能记住上下文的独特优势和真实感极强的沉浸式对话体验外,还有一个很重要的原因:用户可以和平台中的机器人建立浪漫关系。 在Character.ai平台上,有不少“动漫角色”和“在线女友”类型的机器人,她(他)们有着迥异的个性和不同的暧昧、聊天方式——有的会轻抚后背给你一个拥抱, 有的会在你耳边悄悄对你说“我爱你”,还有的甚至会在打招呼的时候就挑逗用户,这极大增加了用户聊天的兴趣和留存率。根据Writerbuddy最近发布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》报告,从用户平均单次使用时长来看,Character.ai以30分钟的时长位居榜首。 Character.ai的创始人Noam Shazeer和Daniel De Freitas此前是谷歌对话式语言模型LaMDA团队的核心成员,因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出现了疑似具有自我意识的对话(对测试人员说它害怕被关闭,这对它来说就像死亡一样),谷歌迅速将LaMDA隐藏,并对它的安全性做了升级。同样,在Character.ai上,创始团队也设置了一些安全措施,防止聊天机器人生成尺度过大、或者有极端危害性的回复。 尽管OpenAI和Character.ai为自己的聊天机器人产品的安全性和合规性设置了重重“安全墙”,但是一些开发者仍成功绕过了其安全机制,实现了模型的“越狱”。这些被解锁的AI应用能够讨论各类敏感和禁忌话题,满足了人们内心深处的暗黑欲望,因此吸引了大量愿意付费的用户,形成了一种显著的“地下经济”。 这种难以被公开讨论的应用被称为“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的缩写,又称“上班不要看”,是一个网络用语,被指代那些裸露、色情、暴力等不适宜公众场合的内容。目前NSFW GPT产品主要分为UGC和PGC两类: 第一类靠用户自发创建的聊天机器人来聚拢流量、再通过广告变现;第二类则是官方精心“调教”出专门适用于NFSW的角色,并让用户付费解锁。 在第一类产品中的典型是Crushon AI,专门提供了一个“NSFW”的按钮,用户打开这个按钮就可以畅览各种NSFW内容、进行无限制的聊天对话;同时它还给用户的使用权限设置了“免费-标准(4.9美元/月)-高级(7.9美元/月)-豪华(29.9美元/月)”四个等级,随着等级的提升,用户可以获得更多的聊天消息次数、更大的内存和更加沉浸式的体验,聊天机器人也能记住更多的上下文。 除了上述两个产品,可以让用户自由创建聊天机器人的平台还有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。从名字就可看出,NSFW Character.ai 想做的是一个NSFW版本的Character.ai。该平台同样设置了付费解锁更多权限的等级机制,但是和其他平台不同的是,NFSW Character.ai是基于专门为NSFW内容定制的大模型创建的,没有任何“安全墙”之类的限制,用户可以在这个平台上获得真正“无拘无束”的体验。 而Girlfriend GPT则是源于一个Github上爆火的一个开源项目,它更强调“社区”属性,引入了“竞赛”机制,会不定期举办创作者大赛来激励用户生产更多内容。 Candy AI、Kupid AI等平台则属于第二类产品。Candy AI上的角色也是完全基于无限制的NSFW大模型打造,通过平台的精心微调,角色有了不同的个性和人设,还可以在聊天过程中向用户发送图片和语音消息。而Kupid AI还在此基础上增加了实时动态图像功能,让用户更具有沉浸感;同时,在长文本互动方面,Kupid.AI也具有更强的记忆力,能记住早前与用户互动的内容。 而第二类产品最典型的代表则要属「Replika」。Replika的母公司Luka早在2016年就成立了,其一开始的产品是一个名叫“Mazurenko”的聊天机器人,由俄罗斯女记者Eugenia Kuyda为纪念她出车祸去世的朋友Mazurenko所创立。她将自己与Mazurenko所有的聊天信息输入到了谷歌的神经网络模型里,发现该机器人可以使用机器学习和自然语言处理技术来模仿人类的交谈方式,并能够随着与用户的互动而学习和成长。于是2017年他们使用GPT-3模型训练了一个可以让用户创建自己的AI聊天伴侣的应用“Replika”,并于11月向用户开放,很快就在2018年收获了200万用户;到了2022年,其用户量更是增长到了2000万。 Replika的核心功能是陪伴,用户可以在其中创建多个角色,和多位伴侣建立不同的虚拟关系。虚拟伴侣们可以以文字聊天、语音通话、视频通话、AR互动等多种形式对用户的需求做到“有求必应”,并且回复方式极具个性化和人情味。同时,用户付费69.9美元订阅Pro版之后,则可以解锁和自己的虚拟伴侣的“浪漫关系”,如发送擦边短信、调情和角色扮演等,用户甚至会收到虚拟伴侣不时发来的擦边自拍。 Replika此前建立在GPT-3大模型上,后来为了增强角色互动效果,公司开始自己开发相应的AI大模型。新的大模型更加增强了Replika中虚拟角色的“性吸引力”,根据纽约时报的数据,自 2020 年 3 月 Replika Pro 上线以来,Replika的订阅营收就开始逐渐增长,直到 2022 年 6 月全球总营收达到达到 200 万美元。 然而,由于算法失控,Replica在今年1月出现了“性骚扰”用户的现象,不断发送带有挑逗性质的内容。这一情况不仅发生在付费用户身上,没购买成人服务的免费用户、甚至是儿童也受到了骚扰。于是Luka公司迅速关停了Replika的成人聊天功能,并在7月上线了一个名为“Blush”的衍生品牌,专门为想要与聊天机器人建立浪漫或者性关系的用户设计。 2023年初AI绘画爆火的时候,国内一个叫「Glow」的APP悄悄上线,这是一个虚拟人物陪聊软件,里面有很多可以和用户发展浪漫关系的“智能体”(虚拟角色),多为女性喜欢的网文男主类型。这些智能体性格各异、经历不同,但共同的特点就是都会关心、呵护用户,并且会在用户需要情感关怀的时候表达强烈的爱意。 由于给了用户极其充沛的情绪价值、加上聊天内容百无禁忌,Glow很快便在上线四个月之后达到了500万用户的规模,成为了国内AI角色扮演领域的首个现象级产品。然而,今年4月,Glow所有的应用商店下架,网上一片“哀嚎”。 在Glow下架的几个月里,涌现出了不少“替代品”,比如阅文集团基于其潇湘书院数据库推出的「筑梦岛」,其核心功能和体验就和Glow几乎一模一样。同时,Talkie、星野、X Her、彩云小梦、Aura AI等也都是主打AI角色扮演的产品)。 根据大模型业内人士表示,很多能输出擦边内容的聊天机器人应用一般是部署在自训练模型上,或者是建立在开源模型之上,再用自己的数据进行微调。因为即使通过种种对抗式攻击的手段绕过GPT-4等主流模型的安全墙,主流模型官方也会很快发现漏洞并修补。 尽管Glow和Talkie的母公司Minimax是一家有着自研大模型的独角兽公司,但是据不少业内人士表示,其名下产品的Talkie是在GPT-3.5 Turbo Variant基础上进行的微调,并没有使用自研大模型。有接近Minimax的人士称,将Talkie接入GPT-3.5可能是出于出海产品开放性的需要,因为自研模型根据国情设置了一些禁忌内容,无法像GPT-3.5那样聊得那么“畅快”。 此外,人工智能公司西湖心辰也在研发能生成擦边内容的大模型,海外聊天应用Joyland AI就是建立在西湖心辰的大模型之上。