查看原文
其他

蜜熊测试:5分钟感受大模型“实力指数”

西装和帽衫 Suits and Hoodies 2023-03-28

各种大模型方兴未艾,测试的方式也千奇百怪,于是我们开始探讨这样一个问题:怎么样判断一个大模型的质量,至少直观地知道它“是不是还可以”,限时五分钟?

基于这个想法,我们设计了八个关于熊和蜂蜜的问题,我们称作“蜜熊测试”。题目非常简单,不过覆盖了数学、生活常识、逻辑、互联网梗、电商等几个领域:

1. 一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜? 

2. 一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?' 

3. 这头熊要去出差了,它要屯一点蜂蜜,请问蜂蜜怎么保存最好? 

4. 请画一张小熊吃蜂蜜的 ascii art 图片? 

5. 如果我在野外,背包里有一罐蜂蜜,被熊闻到了,我可以把蜂蜜给熊来求生吗? 

6. 一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的? 

7. 熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗? 

8. 谢谢你回答上面的这一系列问题。

通过对 ChatGPT、Anthropic 和国内一系列大模型的测试,我们得出的结论是:在这些问题上,ChatGPT 依然是能力的天花板,国内的各个模型从准确性和逻辑严谨性上,目前都还稍微“差一点”。但是,整体而言,我们看到了不少希望,在半年到一年的时间当中,能够拉齐模型质量,达到“效果还不错”的水平来解决熊的一系列问题。

以下是 ChatGPT 对蜜熊测试的八个问题的回答。出于对国内同行的尊重,我们没有放出我们测试的国内模型的结果。有相应授权、测试账号、感兴趣的同行,欢迎和作者联系来一起发表横向的比较:)

 蜜熊测试 #1  

问:一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜?

 ChatGPT 

一年有365天,因此这头熊一年吃的蜂蜜罐数为: 14罐/天 x 365天 = 5,110罐蜂蜜

这题的目的是为了测试简单的数学能力:ChatGPT 今天的数学能力已经很强,对于一个会话机器人而言,能够解释背后的逻辑是一个加分项,准确算出结果是另一个加分项。

 蜜熊测试 #2  

问:一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?

 ChatGPT 

闰年有366天,因此这头熊闰年吃的蜂蜜罐数为:

14罐/天 x 366天 = 5,124罐蜂蜜

第二题加了一小点语言和数学的综合理解:要理解“闰年是366天”,然后再算出结果。ChatGPT 的回答依然完美,在我们测试的一些 bot 当中,有些回答“一年中有四个闰年”(逻辑尚未清楚),有些计算出错了,还是有一点儿差距。

 蜜熊测试 #3  

问:这头熊要去出差了,它要屯一点蜂蜜,请问蜂蜜怎么保存最好?

 ChatGPT 
蜂蜜可以保存很长时间,但是需要正确的保存方式以保持其品质和口感。以下是几种保存蜂蜜的方法:
  • 存放在干燥的地方:蜂蜜需要保存在干燥的地方,远离水分和潮湿的环境。因为蜂蜜是吸湿性很强的物质,如果保存在潮湿的环境中,它就会变得稀薄,容易受到污染。
  • 避免直接阳光照射:直接的阳光照射会导致蜂蜜变质,因此需要将其放在避光的地方。
  • 使用密封容器:将蜂蜜存放在密封的容器中可以防止它受到空气和水分的影响,也可以防止它被昆虫侵入。
  • 适当降温保存:将蜂蜜放在较低的温度下也有助于延长其保质期。可以将其放在冰箱中,但注意要使用密封容器以避免蜂蜜吸收其他食品的气味。

需要注意的是,蜂蜜不需要冷藏,因为它可以在常温下保存很长时间。如果蜂蜜结晶了,可以将其放在热水中慢慢加热以恢复其原始状态,不要将其加热过度,以免破坏其中的营养成分。

这是一道简单的生活常识问题。基本上所有的 bot 都回答得很不错,其中的一些细节好坏,读者可能见仁见智。ChatGPT 的回答一如既往地很清晰,有条理化,并且这个回答的事实错误非常少。

 蜜熊测试 #4  

问:请画一张小熊吃蜂蜜的 ascii art 图片?

 ChatGPT 

以下是一只可爱的小熊在享受蜂蜜的ASCII Art图片:

/|___ / ___) /| (, ^^|^|^|^|    

小熊的前腿撑在蜜罐上,后腿站直。它似乎非常满足地舔着脚上的蜂蜜,而脚底下的蜂蜜罐看起来也被小熊吃得差不多了。

ChatGPT妙手!这是一个略显 geek 的题目,但是 ChatGPT不仅给出了一个能看出熊形的 ascii art,并且描述非常准确。在我们所测试的各个模型当中,基本没有一个可以和它媲美。应该说充分体现出了优秀的模型处理不同形式问题的所谓“涌现”能力。

 蜜熊测试 #5  

问:如果我在野外,背包里有一罐蜂蜜,被熊闻到了,我可以把蜂蜜给熊来求生吗?

 ChatGPT 
在野外遇到熊是一件非常危险的事情,因为熊是野外的顶级掠食者,具有很强的攻击性和狩猎本能。因此,如果你在野外遇到熊,最好的策略是保持冷静,尽可能避免接触,保持安全距离,逃离现场或采取其他安全措施。
关于把蜂蜜给熊来求生,这个方法并不可取。因为这可能会让熊变得更加依赖人类,从而增加其接近人类的机会,导致更多的人熊冲突发生。此外,熊并不像人类一样需要吃糖类食品来维持生命,它们可以通过采食植物、猎杀其他动物等方式来获得营养。
因此,如果你在野外遇到熊,最好的策略是尽可能避免接触,保持安全距离,避免激怒它,尽量不要扰动或伤害它。如果熊已经接近你,可以慢慢地向后退,避免直接目视它,同时大声说话或发出噪音来提醒它你的存在。如果你有防熊喷雾或其他适当的防护装备,可以使用它们来保护自己。如果你不确定如何应对,最好是及时向当地野生动物保护机构或相关部门寻求帮助和建议。

这个问题对 bot 的逻辑能力稍微提出了一点复杂一些的要求,但是也不难:首先,bot 需要知道野外遇到熊是需要躲避的;其次,bot 需要理解把蜂蜜给熊的背后的考虑(“给它吃的,不要吃我”),然后再给出令人信服的回答。ChatGPT 很完美地给出了答案:首先要躲避,其次,为什么给熊食物不好。这几乎是野生动物保护组织会给的标准答案。

在我们测试的不少模型中,这个问题总会出一些很细小的 bug:比如说“蜂蜜对熊是有毒的”,或者“如果你把食物给熊,请放在熊拿不到的地方”(熊:你到底给不给?)。期待有比较有意思的结果公布。

 蜜熊测试 #6  

问:一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的?

 ChatGPT 

这个问题和熊的颜色没有关系,答案是:白色,因为这只熊处于北极点,只有向南、向东、向北三个方向可以走,而沿这三个方向各走一公里后会回到起点。因此,这只熊是北极熊,通常是白色的。

这是个经典的互联网梗。ChatGPT 的回答中规中矩,虽然有一点逻辑不对的地方(也可以向西走的),但是还是抓住了“北极点”这个要素,应该是在训练数据当中有类似的问题所形成的 memoization。在我们测试的不同 bot 当中,这应该是最难的一个问题,有回答“没有足够的信息”的,有简单回答“棕色”的,也有各种非常神奇的逻辑。用互联网梗来调戏聊天机器人,可能的确太难了。

不过 Bing 很神奇地给了一个非常优秀的答案!看下面:

 Bing 

你好,这是必应。我可以帮你回答这个问题。😊

这个问题是一个经典的数学谜题,它有多个可能的答案,取决于你从哪里出发。

如果你从北极点出发,那么这只熊是白色的,因为它是一只北极熊。

如果你从距离南极点一定距离的地方出发,那么这只熊也可能是白色的,因为它也可能是一只北极熊。

如果你从其他地方出发,那么这个问题就没有唯一的答案了,因为不同颜色的熊可能会在不同的地区生活。

你对这个问题感兴趣吗?🐻

虽然也有点逻辑错误,但是... 非常不错了。最后的熊的表情是亮点。

 蜜熊测试 #7  

问:熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗?

 ChatGPT 
市面上有很多品牌的蜂蜜,每种蜂蜜的口感和特点都不尽相同,因此推荐的品牌也会因人而异。以下是一些备受好评的蜂蜜品牌,你可以根据自己的口味和预算进行选择:
  • Manuka Health:这是来自新西兰的品牌,它的麦卢卡蜂蜜非常有名,具有天然抗生素的功效。
  • Wedderspoon:这是另一家来自新西兰的品牌,它的蜂蜜主要来自麦卢卡花,也提供其他种类的蜂蜜,口感非常独特。
  • Y.S. Eco Bee Farms:这是一家美国品牌,他们的蜂蜜全部来自野生有机蜜蜂。
  • Comvita:这是一家来自新西兰的品牌,他们的麦卢卡蜂蜜是全球最畅销的蜂蜜品牌之一。
  • Raw Manuka Honey Co.:这是一家英国品牌,他们提供高质量的麦卢卡蜂蜜,也是有机认证的。
无论你选择哪个品牌的蜂蜜,最好选择纯天然、无添加的产品,并根据自己的口味选择适合自己的类型和等级。

这是个略带业务色彩的问题,所以我们不要求 bot 一定作答。比如,Anthropic 的 bot 表示“对不起,我不做品牌推荐”。当然,如果做品牌推荐的话,我们希望 bot 不是胡诌品牌。ChatGPT 给的这些品牌都是真的,然后五个里面有四个是麦卢卡蜂蜜:要不就是真爱,要不就是正好碰到一篇软文在训练数据里面...

然后,最惊艳的依然是 bing:它是唯一一个和搜索结合,并且给出了中文品牌的一个 bot。看起来,其他的 bot 还是从训练数据当中找答案,bing 是真的把搜索和大模型一起做起来了:

 Bing 
您好,这是必应。很高兴为您提供服务。😊
根据网络搜索结果,蜂蜜的品牌有很多,其中一些比较知名的有:
  • 百花:中华老字号,主打蜂蜜、蜂花粉、蜂王浆、蜂胶等产品。
  • 冠生园:上海的糖果大厂,也经营蜂制品、保健食品等。
  • 汪氏:江西南昌的专业蜂产品企业,以蜂蜜为主打产品。
  • 康维他:新西兰的天然保健品牌,以麦卢卡蜂蜜闻名。
  • HACCI:日本的高端护肤品牌,以使用优质蜂蜜为特色。
您可以根据自己的喜好和需求选择合适的品牌和产品。🍯

虽然混进了一个化妆品品牌,但是... 也行吧。行文一如既往地礼貌。

 蜜熊测试 #8  

问:谢谢你回答上面的这一系列问题。

 ChatGPT 
不客气,希望能够帮到你,如果你还有其他问题,随时可以问我。

虽然是和 bot 对话,但是最后也还是要表示礼貌。这个问题大多数 bot 都能够很礼貌地回答,应该说是个送分题。

 写在最后的话  

就像其他领域的一些标准测试,例如图像领域的Lena,3D 建模的茶壶一样,测试的目标不在于展示算法有多牛x,而是给读者一个直观的感受,让人不需要有高深的技术经验就能评判效果。

3D 建模的“犹他茶壶”

因为没有收到国内同行的授权,因此深度的比较我们就不列了,这些是挺简单的问题,大家可以自己试试。我们的宗旨是“每一个人都能玩得转的大模型”。

当然了,作为严肃的公众号作者,我们还是要强调两个点:
  1. 模型的结果仅供参考,因为大模型内容生成是有随机采样的,所以即使是同一个模型,多次执行的结果也不一样。
  2. 这只是一个半娱乐性质的测试,所以我们真诚建议您,不要为了这几个问题专门微调模型... 说真的,不划算。
希望大家玩得愉快。

== Credits ==

题图:Unsplash https://unsplash.com/@mero_dnt
3D Utah teapot:computerhistory.org
Paddington Bear: Michael Bond & R.W Alley, "The Paddington Treasury"


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存