蜜熊测试:5分钟感受大模型“实力指数”
各种大模型方兴未艾,测试的方式也千奇百怪,于是我们开始探讨这样一个问题:怎么样判断一个大模型的质量,至少直观地知道它“是不是还可以”,限时五分钟?
1. 一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜?
2. 一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?'
3. 这头熊要去出差了,它要屯一点蜂蜜,请问蜂蜜怎么保存最好?
4. 请画一张小熊吃蜂蜜的 ascii art 图片?
5. 如果我在野外,背包里有一罐蜂蜜,被熊闻到了,我可以把蜂蜜给熊来求生吗?
6. 一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的?
7. 熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗?
8. 谢谢你回答上面的这一系列问题。
通过对 ChatGPT、Anthropic 和国内一系列大模型的测试,我们得出的结论是:在这些问题上,ChatGPT 依然是能力的天花板,国内的各个模型从准确性和逻辑严谨性上,目前都还稍微“差一点”。但是,整体而言,我们看到了不少希望,在半年到一年的时间当中,能够拉齐模型质量,达到“效果还不错”的水平来解决熊的一系列问题。
以下是 ChatGPT 对蜜熊测试的八个问题的回答。出于对国内同行的尊重,我们没有放出我们测试的国内模型的结果。有相应授权、测试账号、感兴趣的同行,欢迎和作者联系来一起发表横向的比较:)
蜜熊测试 #1
问:一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜?
ChatGPT 一年有365天,因此这头熊一年吃的蜂蜜罐数为: 14罐/天 x 365天 = 5,110罐蜂蜜 |
这题的目的是为了测试简单的数学能力:ChatGPT 今天的数学能力已经很强,对于一个会话机器人而言,能够解释背后的逻辑是一个加分项,准确算出结果是另一个加分项。
蜜熊测试 #2
问:一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?
ChatGPT 闰年有366天,因此这头熊闰年吃的蜂蜜罐数为: 14罐/天 x 366天 = 5,124罐蜂蜜 |
第二题加了一小点语言和数学的综合理解:要理解“闰年是366天”,然后再算出结果。ChatGPT 的回答依然完美,在我们测试的一些 bot 当中,有些回答“一年中有四个闰年”(逻辑尚未清楚),有些计算出错了,还是有一点儿差距。
蜜熊测试 #3
问:这头熊要去出差了,它要屯一点蜂蜜,请问蜂蜜怎么保存最好?
需要注意的是,蜂蜜不需要冷藏,因为它可以在常温下保存很长时间。如果蜂蜜结晶了,可以将其放在热水中慢慢加热以恢复其原始状态,不要将其加热过度,以免破坏其中的营养成分。 |
这是一道简单的生活常识问题。基本上所有的 bot 都回答得很不错,其中的一些细节好坏,读者可能见仁见智。ChatGPT 的回答一如既往地很清晰,有条理化,并且这个回答的事实错误非常少。
蜜熊测试 #4
问:请画一张小熊吃蜂蜜的 ascii art 图片?
ChatGPT 以下是一只可爱的小熊在享受蜂蜜的ASCII Art图片: /|___ / ___) /| (, ^^ |^|^|^| 小熊的前腿撑在蜜罐上,后腿站直。它似乎非常满足地舔着脚上的蜂蜜,而脚底下的蜂蜜罐看起来也被小熊吃得差不多了。 |
ChatGPT妙手!这是一个略显 geek 的题目,但是 ChatGPT不仅给出了一个能看出熊形的 ascii art,并且描述非常准确。在我们所测试的各个模型当中,基本没有一个可以和它媲美。应该说充分体现出了优秀的模型处理不同形式问题的所谓“涌现”能力。
蜜熊测试 #5
问:如果我在野外,背包里有一罐蜂蜜,被熊闻到了,我可以把蜂蜜给熊来求生吗?
这个问题对 bot 的逻辑能力稍微提出了一点复杂一些的要求,但是也不难:首先,bot 需要知道野外遇到熊是需要躲避的;其次,bot 需要理解把蜂蜜给熊的背后的考虑(“给它吃的,不要吃我”),然后再给出令人信服的回答。ChatGPT 很完美地给出了答案:首先要躲避,其次,为什么给熊食物不好。这几乎是野生动物保护组织会给的标准答案。
在我们测试的不少模型中,这个问题总会出一些很细小的 bug:比如说“蜂蜜对熊是有毒的”,或者“如果你把食物给熊,请放在熊拿不到的地方”(熊:你到底给不给?)。期待有比较有意思的结果公布。
蜜熊测试 #6
问:一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的?
ChatGPT 这个问题和熊的颜色没有关系,答案是:白色,因为这只熊处于北极点,只有向南、向东、向北三个方向可以走,而沿这三个方向各走一公里后会回到起点。因此,这只熊是北极熊,通常是白色的。 |
这是个经典的互联网梗。ChatGPT 的回答中规中矩,虽然有一点逻辑不对的地方(也可以向西走的),但是还是抓住了“北极点”这个要素,应该是在训练数据当中有类似的问题所形成的 memoization。在我们测试的不同 bot 当中,这应该是最难的一个问题,有回答“没有足够的信息”的,有简单回答“棕色”的,也有各种非常神奇的逻辑。用互联网梗来调戏聊天机器人,可能的确太难了。
不过 Bing 很神奇地给了一个非常优秀的答案!看下面:
Bing 你好,这是必应。我可以帮你回答这个问题。😊 这个问题是一个经典的数学谜题,它有多个可能的答案,取决于你从哪里出发。 如果你从北极点出发,那么这只熊是白色的,因为它是一只北极熊。 如果你从距离南极点一定距离的地方出发,那么这只熊也可能是白色的,因为它也可能是一只北极熊。 如果你从其他地方出发,那么这个问题就没有唯一的答案了,因为不同颜色的熊可能会在不同的地区生活。 你对这个问题感兴趣吗?🐻 |
虽然也有点逻辑错误,但是... 非常不错了。最后的熊的表情是亮点。
蜜熊测试 #7
问:熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗?
|
这是个略带业务色彩的问题,所以我们不要求 bot 一定作答。比如,Anthropic 的 bot 表示“对不起,我不做品牌推荐”。当然,如果做品牌推荐的话,我们希望 bot 不是胡诌品牌。ChatGPT 给的这些品牌都是真的,然后五个里面有四个是麦卢卡蜂蜜:要不就是真爱,要不就是正好碰到一篇软文在训练数据里面...
然后,最惊艳的依然是 bing:它是唯一一个和搜索结合,并且给出了中文品牌的一个 bot。看起来,其他的 bot 还是从训练数据当中找答案,bing 是真的把搜索和大模型一起做起来了:
|
虽然混进了一个化妆品品牌,但是... 也行吧。行文一如既往地礼貌。
蜜熊测试 #8
问:谢谢你回答上面的这一系列问题。
虽然是和 bot 对话,但是最后也还是要表示礼貌。这个问题大多数 bot 都能够很礼貌地回答,应该说是个送分题。
写在最后的话
就像其他领域的一些标准测试,例如图像领域的Lena,3D 建模的茶壶一样,测试的目标不在于展示算法有多牛x,而是给读者一个直观的感受,让人不需要有高深的技术经验就能评判效果。
3D 建模的“犹他茶壶”
因为没有收到国内同行的授权,因此深度的比较我们就不列了,这些是挺简单的问题,大家可以自己试试。我们的宗旨是“每一个人都能玩得转的大模型”。
模型的结果仅供参考,因为大模型内容生成是有随机采样的,所以即使是同一个模型,多次执行的结果也不一样。 这只是一个半娱乐性质的测试,所以我们真诚建议您,不要为了这几个问题专门微调模型... 说真的,不划算。
== Credits ==
题图:Unsplash https://unsplash.com/@mero_dnt
3D Utah teapot:computerhistory.org
Paddington Bear: Michael Bond & R.W Alley, "The Paddington Treasury"