大模型能否通过图灵测试呢,AI21 Labs做了一个百万级在线游戏《human or not》
论文链接:
https://arxiv.org/abs/2305.20010
项目地址:
https://www.humanornot.ai/
——阿兰·图灵,1950年
近来以ChatGPT、GPT-4为代表的人工智能大语言模型目前能否通过图灵测试呢,最近来自以色列的AI21 Labs(AI21 Labs近期提出了自家对标OpenAI ChatGPT的聊天交互大模型Jurassic-2[2])发布了他们在对大语言模型进行图灵测试的研究进展,AI21 Labs设计了一个规模庞大的在线游戏,称为《human or not》,该游戏目前已经吸引了超过150万独立用户进行了超过1000万次测试,玩家的任务是在匿名的两分钟对话中正确猜测对话对象的身份。从测试规模和测试方式来看,《human or not》应该可以看作是图灵测试的现代进阶版。测试结果也相当有趣,游戏的平均错误猜测率为68%,这表明,只有20%左右的用户能够清晰的区分出自己对话的是机器还是人类,这一结果也足以反映目前的AI大模型在聊天对话方面的强大能力。
一、介绍
图灵测试在最初只是单纯作为一种思想实验来判断机器能否像人一样思考,而没有其他的考虑,可能图灵自己也没有想到,自己当初设计的这个游戏在后来居然成为了人工智能领域中评价机器智能最为权威的基准。目前传播较为广泛已通过图灵测试的计算机程序,是2014年一个俄罗斯团队开发的名为Eugene Goostman的AI系统,其在测试中迷惑了33%的测试人员,最终被认定为拥有相当于一个13岁小孩的智力。
2.1 机器人角色定义
近一段时间较为火热的情景学习(In-Context Learning)技术已经被证明,如果将相关信息整合到大语言模型的上下文中可以显著提高生成文本的真实性,因此作者参考ICL,在《human or not》中为机器人提供了实时的、与上下文相关的信息,例如当地的新闻和天气数据。如下图所示,作者先向该机器人提供了Honolulu地区的天气情况,并且向他告知最近一段时间发生在Honolulu的受关注的事件。
2.3 对话风格
为了增加对话的多样性,开发团队首先在大模型的多样性入手,他们设置了几个不同的核心语言模型,包括最新的GPT-4、AI21 Labs自家提出的Jurassic-2(侏罗纪2)以及谷歌旗下的Cohere2模型。
为了进一步增加对话的真实感,作者通过提示大模型令它们模拟多种不同的对话风格,例如一些机器人被严格要求不允许出现标点符号错误,而另一些机器人则可能被要求必须使用俚语而且要有意的出现语法错误。如上图展示的三个例子中,左侧为机器人的发言,右侧为人类用户的发言。
三、实验结果与分析
在网站上线的首个月内,《human or not》游戏就吸引了超过150万用户的超过1000万次的对话测试,这为作者团队的进一步分析提供了非常丰富的数据集。这么大的测试量足以产生一些统计意义上的分析结论,通过分析来自世界各地不同用户的匿名对话,作者逐渐探索出人们在判断AI和人类时的一些“诀窍”,这些“诀窍”充分展示了人类思维的认知灵活性和创造力。
3.1 语法错误或拼写错误
例如一些用户认为只有人类会出现语法错误或者拼写错误,因此他们密切关注对话中出现的拼写错误、语法错误和俚语的使用,认为这些是人类对话的显著特征。但其实有一部分AI已经可以较好的模拟人类的这些特定,因而很难被分辨出来。
3.2 私人和哲学问题
另外一种常见的策略是通过提出私人问题来测试AI机器人,测试者可能会直接询问私人的经历和对某件事情的独特见解来试图区分人类和AI。然而,由于机器人已经被提前设置了虚构的个人故事,这种方法往往不会成功。另外非常有趣的是,一些用户试图探索AI的情感和哲学能力,他们会提出一些抽象的伦理问题,例如询问生命的意义、对政治冲突的看法或宗教信仰,目的是来评估AI的理解深度和提供深度回答的能力。然而,即使面对如此复杂的问题,AI机器人仍能提供合理且与上下文相关的回复,如下图中的两个例子中,用户询问谁创造了人类,AI直接回答道:是上帝。
3.3 实时信息判断
有些用户还尝试询问他们的对话对象是否了解目前的潮流事件,这可能考虑到目前的大模型更新模型的时间点以及是否具有联网获取实时信息的能力。例如有些用户直接询问对话对象是否了解最近在TikTok上流行的舞蹈,或者跟其讨论最近发生的有关于乌克兰战争的话题,如下图所示。
四、总结
本文通过设计了一个在线游戏《human or not》,从而使古老的图灵测试重新焕发生机。本文的实验为我们提供了一些现有大模型在人机交互方面的一些有价值的数据和结果,但是作者也承认,这种分析具有一定的片面性,因为目前的用户参与方式只能通过使用英语,实验结果可能无法涵盖广泛的人类文化、语言和年龄差异。
在大型语言模型爆火的今天,我们可以认为,《human or not》的出现,代表了评估人工智能能力的一个重要里程碑,它可以作为未来研究类人人工智能和类图灵测试的一个范式。随着AI的不断发展,其在影响人类各种行业的潜力变得越来越明显,这就要求我们应该迅速建立起更加完善的AI伦理安全评估机制。原始的图灵测试在今天来看可能早已过时,但其判断机器是否有思考能力的原始动机仍然具有关键的现实意义。我们期待在图灵测试的加持下,我们能够做出更加安全、可信和负责的AI系统。
参考
[1] Alan M. Turing. Computing Machinery and Intelligence. Communications of the ACM, 59:433–460, 1950
[2] AI21 Labs. Announcing Jurassic-2 and Task-Specific APIs, 2023. URL https://www.ai21.com/blog/introducing-j2
作者:seven_
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球