智商与智障,一个字的差距:深度实测ChatGPT、文心一言、Bard等大模型的看图说话能力
前两天看到一张图,挺有意思。
受网友启发,决定让ChatGPT和各个大模型一起来看图说话,横向对比下大模型的视觉能力。
而选取的图片不是随手拍照(例如风景人物,一般没有特别隐含的意义,识图没难度,没有区分度),而漫画类图片是人类艺术家的创造性表达,经常有一些幽默、讽刺等微妙之意蕴含其中,需要一些理解能力才能解读。
所以,测试的不只是“视力”,更是“智力”。
现在,各个大模型都宣布自己是多模态大模型。我希望通过这些测试,让大家对大模型的识图能力有个感性的直接的认知,从而起到正确选择工具、节约时间和生命的目的。
测试说明
我选取了5张卡通图片(都是我很喜欢的,不考虑测试,光看图也挺有趣),都有一定难度,需要世界知识、理解能力,有些还挺微妙;你也可以用这些图测试一下身边的孩子或成年人🤣; 测试结果按照GPT-中文、GPT-英文(附翻译)、Bard-中文和文心一言-中文的顺序展示; 每张图片的读图结果,我会按照1~5分打分(分高为好),提供的评论和思考供你参考; 放GPT-英文结果的原因:英文输出的结果质量比中文更高,有必要对比展示; 不纳入Bard英文结果的原因:实测中bard中文结果已经错的离谱。我也测试了英文输出,一样离谱,所以就不放了; 不纳入文心一言-英文结果的原因:没有差异。测试后发现,百度英文输出结果基本就是中文结果的翻译。 所以,可以有1个推论:文心大模型的多语言能力底层机制和GPT多语言能力的底层机制应该是不一样的? 不包含claude和其他大模型的原因:没必要。连bard和文心一言这两个都不行,其他大模型就没必要测试了。
测试1:纽约客杂志封面,AI整活
就是开头那张图,new yorker杂志最新一期封面。
看图后我的脑补:马上要交稿啦,杂志社的封面插画师却没灵感!听说最近AI画图很火?于是试一下。看起来有模有样嘛!结果出来了,sigh,没法用,达不到本大师的金线。于是,插画师灵机一动,吐了个槽,顺手把这期封面插画的活给交差了🤣
这幅四格漫画,我起了个名字叫“AI整活”。下面,来看看各个AI的视力和智力如何?
GPT-中文
打分:4分。
内容描述准确无错误,理解到位且无错误。
ChatGPT 英文
翻译:
这幅图像似乎是《纽约客》杂志的封面,日期为2023年11月20日,价格为8.99美元。它展示了一个四格漫画,讲述了一个关于男人和机器人的故事:
在第一格中,男人坐在桌子旁,双手托脸,看起来沮丧或有压力。桌子上有皱巴巴的纸张和整齐的纸堆,这暗示他可能在写作或创作某物上遇到了困难。
第二格显示机器人正在接近这个男人,可能是提供帮助或表明它将接管这个任务。
在第三格中,男人站着观看机器人以疯狂的速度工作,纸张四处飞扬,这暗示机器人要么在迅速写作,要么在制造混乱。
第四格和最后一格显示男人低头,双手叉腰,可能对机器人制造的皱纸堆感到沮丧或困惑,这暗示机器人试图提供帮助但并未产生预期的结果。
这个序列可能在评论现代对技术和自动化的依赖,以及它有时是如何使任务变得更复杂而不是简化,或者它可能是对作家障碍和寻求简单出路徒劳无功的幽默表达。《纽约客》以其封面常常包含幽默、讽刺或对当代问题的评论而闻名,这似乎就是这里的情况。
打分:5分!
对比中文输出,英文输出的结果更细致(是中文的2~3倍,细节更多而且准确),理解也更深入更微妙。而且GPT对图片的隐含背景理解和我一样:
writer's block 创作梗堵
让人类来看图说话,大部分人做不到这个程度。最起码我做不到🤣
Google Bard
打分:0分
描述上非常粗略,充满了错误和幻觉。而理解上,虽然提供了多个解读,看起来洋洋洒洒一大篇,但生动地展示了大语言模型的“胡说八道”能力🤣。
文心一言
打分:?分
和bard一样,充满了错误和幻觉,胡说八道的实例。你家小孩写看图作文写成这样,也就是0分了。
一些发现:
文件名如果是英文,就会报错。
使用文心4.0需要开通会员。欢迎有文心会员的熊友们补充测试结果。
百度的聊天模型(文心一言)和画图模型(文心一格)被分为两个不同的“产品”,需要单独开通,有点小贵(定价比GPT便宜,但是考虑结果嘛就贵了)。
有点好奇的地方:ChatGPT只有GPT-4才支持多模态,而且读图能力无需插件(画图、代码等功能都是插件实现的,但是vision视觉不是)。文心是用插件实现的读图能力,即使文心3.5也可以调用插件来识别图像。二者的实现机制不一样。 是否意味着:即使是文心4.0,除非调用的是一个完全不同的读图插件,否则效果不会有啥差异?
测试2:人类沉迷、机器学习
这张是我最喜欢的图片之一。
原图上有标题“humans are hooked, machines are learning”(人类在沉迷,机器在学习)。
考虑到OCR文本识别对当前的AI没难度,而有了总结中心思想的标题之后,这个测试就没难度了,针对这句话随便生成都不会太差。于是,我把这句话打码了。🤣
GPT-中文
打分:4分
内容描述上,把公园长椅看成了课桌;理解上没问题。
GPT-英文
翻译:
这幅插图展示了两个对比鲜明的场景并排展现。
一边,有几个机器人正在进行通常与人类学习和创造力相关的活动:一个机器人正在阅读一本书,另一个在画布上作画。这一边的插图暗示了对智力成长和艺术表达的关注。
相比之下,插图的另一边展示了一群全神贯注于他们的智能手机的人群,似乎对周围环境浑然不觉。这种行为表明了缺乏意识和对技术的过度关注,这通常被批评为一种成瘾或脱离现实世界的表现。
这两个场景的并置可能是对当前社会状态的评论,其中机器正在进步并展现出更多人类特征,而人类则越来越沉浸于数字世界,可能失去了培养成长和创造力的活动。
打分:5分
描述上,英文输出就没犯错。理解上,GPT强调沉迷手机的人类忽视了外部环境和培养成长和创造力的活动,沉浸于数字世界。很棒!
Bard
打分:2.5分;
描述简陋且犯错(机器人在玩手机?)。理解上偏浅,而且胡说八道(机器人可以代表人类,而书和手机则可以代表科技??)。
文心一言
文心一言的读图功能,交互逻辑和其他都不一样:上传图片后,不支持prompt,直接出图片描述。这种功能限制,是为了让结果输出更稳定?
这种限制实际上影响挺大的,因为用户可能相对这张图片做各种事情(提取信息、问答、分析数据、提炼画图prompt等)。
于是,单独让文心一言来解释这张图的含义:
打分:?分
描述上胡言乱语,理解上乱七八糟。横批:什么玩意。
测试3:peanuts漫画,born to sleep
再来测试一副简单的图。
小树非常喜欢peanuts漫画,看的时候乐不可支,咯咯咯嘻嘻嘻。我们看看AI如何?
GPT-中文
打分:4.5分
描述ok,还提供了人物的作者信息,可见世界知识很全。理解上,还脑补了snoopy的内心活动,不错!
GPT-英文
翻译:
上传的图片是一部四格漫画,主角与《花生》漫画系列中的史努比非常相似,躺在他标志性的红色狗屋顶上。
在第一格中,这个角色躺在背上,看起来很放松。第二格显示这个角色伸展并打哈欠,这是一个常见的与醒来或感到困倦相关的动作。第三格中,这个角色大张着嘴打哈欠,加强了困倦的主题。最后一格中,这个角色趴在肚子上,思考气泡里写着“天生爱睡觉”。
这部漫画幽默地展示了角色对睡觉的满足感和天生的倾向,仿佛这是他的宿命或他最热衷的事情。这是对拥有使命或命运这一理念的轻松诠释,笑点在于角色对睡觉的简单喜悦。
打分:5分
继续展示GPT英文输出比中文输出更细致,理解更深入的特点。
Bard
打分:2.5分
描述上简陋。理解上肤浅,完全读不出图中的微妙含义。
文心一言
打分:?分
描述上大量错误,胡说八道。理解肤浅。
测试4 peanuts漫画,Charlie Brown 悲秋
Charlie Brown的漫画,难度就更大了。看看AI们怎样吧🤣
GPT-中文
打分:4.5分。
描述上出现了错误:男孩转身。理解满分,看到了图片中“简单但深刻的洞察”。
GPT-英文
翻译:
这幅漫画是一部四格漫画。在第一格中,一个看起来像小男孩的角色正仰望着一片落叶。在第二格中,叶子继续落下,男孩转过头跟随它的视线。在第三格中,男孩叹息着看着现在已经落在地上的叶子。最后,在第四格中,男孩仍然看着地上的叶子,反思道:“没有人对他们所在的地方感到满意......”
这部漫画是对满足感和人类状况的深思熟虑的评论。落叶可以被看作是一旦实现可能不会带来预期幸福的愿望或渴望的隐喻。最后一格中角色的领悟表达了一个共同的情感,即满足感是难以捉摸的,人们常常渴望的是与他们当前情况不同的境遇。这部漫画以艺术的方式传达了关于幸福本质和普遍追求的深刻信息。
打分:4.5分
看GPT看图说话,简直是一种享受😋。
Bard
打分:无。
Google的内容安全审核出了bug,拒绝处理这张图片。
文心一言
打分:?分
描述上简陋。理解上看似通顺,实际是错的,本质上是胡说八道。
测试5:“幸运”的螳螂
这张图,各个大模型普遍表现不好。一起看看是怎么回事。
GPT-中文
打分:2分
GPT第一次不及格。内容描述上错的离谱,认不出瓢虫和螳螂,按理说不应该的🤣。
人类的模式识别是本能的、无意识的,一眼就能识别瓢虫背上的黑点图案,识别出螳螂的砍刀手。但是,GPT-4Vision的识图能力还做不到。
同理,图2中的螳螂是明显的,头没了也是显而易见的,所以,旁边的红点就只能是血啊。
理解上,对于螳螂的尴尬、图片中的黑色幽默(dark humor)基本上读出来了。
GPT-英文
翻译:
这幅图像是一部四格漫画。在第一格中,两个角色注意到了第三个角色,其中一个角色背着一个装有杀虫喷雾的背包。第二格聚焦于这个第三个角色,一只显得着迷并脸红的虫子,头旁有心形符号,暗示它恋爱了或有暗恋。
在第三格中,背着杀虫喷雾背包的角色说:“看起来有人昨晚走运了”,暗示这只虫子找到了伴侣。然而,最后一格揭示了背着背包的角色尴尬和紧张,因为变得清楚,杀虫喷雾很可能被用在了第二格的虫子身上,导致了它的迷恋外表。短语“走运”通常用来暗示性或浪漫上的成功,但在这里它被讽刺地使用,因为虫子的“运气”是被喷雾药剂迷醉,而不是找到伴侣。
这部漫画由艺术家二人组“War and Peas”签名。幽默来源于故事的黑暗转折和角色对情况的误解。
打分:2分
内容识别出错,也就谈不上识别之上的理解了。
Bard
打分:2.5分
Bard识别出了瓢虫和螳螂,这是GPT没做到的!但是,理解上还是一大篇多角度的胡说八道。
文心一言
打分:?分
内容描述上胡说八道,乌龟都来了。内容理解上废话连篇空洞虚假,团结友爱互助等中心思想也来了。🤣
补充测试:GPT+提示词
考虑到GPT-4V目前无法识别画面中的昆虫物种,我就提示了一下(解释这张图片的含义。图中的人物是一只瓢虫和一只螳螂,不要看错了。第二格中的内容是一只被吃掉了头的螳螂尸体躺在路上)。
在人类的提示下,GPT的输出结果是这样的:
这次的结果可以给满分。期待GPT模型的后续升级,在物体识别的基础能力上弥补下短板。
一些思考
关于“看图说话”
在认知层面,读图和读文本其实差异不大,都是神经网络去加工处理信息,提炼数据之间有意义的关联。但是,对图形的模式识别和对字母数字文字的模式识别,原理一样,技术实现的效果上还略有差异:读图能力差一些。
这几张图,不止可以测试AI,也可以测试人类幼崽,甚至成年人。毕竟,看图说话的能力,测试的不是视力,更多是智力。
多模态的AI能做什么?
所谓多模态,就是能处理文字之外的音频和视频等多种信息媒介。
上周的ChatGPT更新之后,OpenAI创始成员Andrej Karpathy这么说:
GPTs can read, write, hear, speak, see, paint, think, use tools, become experts in focus areas, reference custom data, take actions in the digital world, speak or act in custom ways, and collaborate together.
GPT助理可以阅读、写作、听、说、看、绘画、思考、使用工具、在专注领域成为专家、参考自定义数据、在数字世界中采取行动、以定制的方式说话或行动,并且能够相互协作。
是的,一句话总结“多模态AI能做什么”,karpathy的这句话建议全文背诵(ChatGPT实现dalle等功能的系统指令也应该全文背诵)。
可以说,多模态AI的能力,是相当吓人的。人类能做的,ta都能做;很多很多人类不能做的(编程、使用复杂工具、成为领域专家),ta也能做。有条件的熊友,可以多测试测试AI的视觉和语音等能力。
我的结论
这一轮的测试,我的结论是:
GPT-4.0英文 > GPT-4.0中文 > Google Bard ? 文心一言3.5(二者八斤八两,都不及格)
这是我的个人结论。欢迎大家根据测试结果,得出自己的结论和判断。
那么,如何定义这种差距?
我以前认为:存在几倍差距(1倍以上、10倍以下)。但是,用数量差距、百分比、倍数来评价这些结果差异是不合适的。
因为本质上不是数量差距,而是性质差距。到底差2倍还是5倍?实际上都是不及格,都是不能用,对真实用户的真实使用场景没区别,都没意义。
所以,更准确的说法:这是 “能用”和“不能用”的差距。
所谓“能用”,就是能用来取代你的部分任务,可以整合到你的工作流;而不能用,就是不能咯。
一个“不能用”的AI,看起来一本正经,甚至不明觉厉(就像开头new yorker插画中图3的那个机器人),但是,与真正的智能,还是有一字之别。