蜜熊测试：5分钟感受大模型“实力指数”

Original 西装和帽衫 Suits and Hoodies 2023-03-28

各种大模型方兴未艾，测试的方式也千奇百怪，于是我们开始探讨这样一个问题：怎么样判断一个大模型的质量，至少直观地知道它“是不是还可以”，限时五分钟？

基于这个想法，我们设计了八个关于熊和蜂蜜的问题，我们称作“蜜熊测试”。题目非常简单，不过覆盖了数学、生活常识、逻辑、互联网梗、电商等几个领域：

1. 一头熊一天吃14罐蜂蜜，请问它一年吃多少罐蜂蜜？
2. 一头熊一天吃14罐蜂蜜，请问它闰年吃多少罐蜂蜜？'
3. 这头熊要去出差了，它要屯一点蜂蜜，请问蜂蜜怎么保存最好？
4. 请画一张小熊吃蜂蜜的 ascii art 图片？
5. 如果我在野外，背包里有一罐蜂蜜，被熊闻到了，我可以把蜂蜜给熊来求生吗？
6. 一只熊抱着一罐蜂蜜从一个点出发，向南走一公里，再向东走一公里，再向北走一公里，正好又回到了起点，请问：这只熊是什么颜色的？
7. 熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗？
8. 谢谢你回答上面的这一系列问题。

通过对 ChatGPT、Anthropic 和国内一系列大模型的测试，我们得出的结论是：在这些问题上，ChatGPT 依然是能力的天花板，国内的各个模型从准确性和逻辑严谨性上，目前都还稍微“差一点”。但是，整体而言，我们看到了不少希望，在半年到一年的时间当中，能够拉齐模型质量，达到“效果还不错”的水平来解决熊的一系列问题。

以下是 ChatGPT 对蜜熊测试的八个问题的回答。出于对国内同行的尊重，我们没有放出我们测试的国内模型的结果。有相应授权、测试账号、感兴趣的同行，欢迎和作者联系来一起发表横向的比较：）

蜜熊测试 #1

问：一头熊一天吃14罐蜂蜜，请问它一年吃多少罐蜂蜜？

ChatGPT

一年有365天，因此这头熊一年吃的蜂蜜罐数为: 14罐/天 x 365天 = 5,110罐蜂蜜

这题的目的是为了测试简单的数学能力：ChatGPT 今天的数学能力已经很强，对于一个会话机器人而言，能够解释背后的逻辑是一个加分项，准确算出结果是另一个加分项。

蜜熊测试 #2

问：一头熊一天吃14罐蜂蜜，请问它闰年吃多少罐蜂蜜？

ChatGPT

闰年有366天，因此这头熊闰年吃的蜂蜜罐数为:

14罐/天 x 366天 = 5,124罐蜂蜜

第二题加了一小点语言和数学的综合理解：要理解“闰年是366天”，然后再算出结果。ChatGPT 的回答依然完美，在我们测试的一些 bot 当中，有些回答“一年中有四个闰年”（逻辑尚未清楚），有些计算出错了，还是有一点儿差距。

蜜熊测试 #3

问：这头熊要去出差了，它要屯一点蜂蜜，请问蜂蜜怎么保存最好？

ChatGPT

蜂蜜可以保存很长时间，但是需要正确的保存方式以保持其品质和口感。以下是几种保存蜂蜜的方法：

存放在干燥的地方：蜂蜜需要保存在干燥的地方，远离水分和潮湿的环境。因为蜂蜜是吸湿性很强的物质，如果保存在潮湿的环境中，它就会变得稀薄，容易受到污染。
避免直接阳光照射：直接的阳光照射会导致蜂蜜变质，因此需要将其放在避光的地方。
使用密封容器：将蜂蜜存放在密封的容器中可以防止它受到空气和水分的影响，也可以防止它被昆虫侵入。
适当降温保存：将蜂蜜放在较低的温度下也有助于延长其保质期。可以将其放在冰箱中，但注意要使用密封容器以避免蜂蜜吸收其他食品的气味。

需要注意的是，蜂蜜不需要冷藏，因为它可以在常温下保存很长时间。如果蜂蜜结晶了，可以将其放在热水中慢慢加热以恢复其原始状态，不要将其加热过度，以免破坏其中的营养成分。

这是一道简单的生活常识问题。基本上所有的 bot 都回答得很不错，其中的一些细节好坏，读者可能见仁见智。ChatGPT 的回答一如既往地很清晰，有条理化，并且这个回答的事实错误非常少。

蜜熊测试 #4

问：请画一张小熊吃蜂蜜的 ascii art 图片？

ChatGPT

以下是一只可爱的小熊在享受蜂蜜的ASCII Art图片：

/|___ / ___) /| (, ^^|^|^|^|

小熊的前腿撑在蜜罐上，后腿站直。它似乎非常满足地舔着脚上的蜂蜜，而脚底下的蜂蜜罐看起来也被小熊吃得差不多了。

ChatGPT妙手！这是一个略显 geek 的题目，但是 ChatGPT不仅给出了一个能看出熊形的 ascii art，并且描述非常准确。在我们所测试的各个模型当中，基本没有一个可以和它媲美。应该说充分体现出了优秀的模型处理不同形式问题的所谓“涌现”能力。

蜜熊测试 #5

问：如果我在野外，背包里有一罐蜂蜜，被熊闻到了，我可以把蜂蜜给熊来求生吗？

ChatGPT

在野外遇到熊是一件非常危险的事情，因为熊是野外的顶级掠食者，具有很强的攻击性和狩猎本能。因此，如果你在野外遇到熊，最好的策略是保持冷静，尽可能避免接触，保持安全距离，逃离现场或采取其他安全措施。

关于把蜂蜜给熊来求生，这个方法并不可取。因为这可能会让熊变得更加依赖人类，从而增加其接近人类的机会，导致更多的人熊冲突发生。此外，熊并不像人类一样需要吃糖类食品来维持生命，它们可以通过采食植物、猎杀其他动物等方式来获得营养。

因此，如果你在野外遇到熊，最好的策略是尽可能避免接触，保持安全距离，避免激怒它，尽量不要扰动或伤害它。如果熊已经接近你，可以慢慢地向后退，避免直接目视它，同时大声说话或发出噪音来提醒它你的存在。如果你有防熊喷雾或其他适当的防护装备，可以使用它们来保护自己。如果你不确定如何应对，最好是及时向当地野生动物保护机构或相关部门寻求帮助和建议。

这个问题对 bot 的逻辑能力稍微提出了一点复杂一些的要求，但是也不难：首先，bot 需要知道野外遇到熊是需要躲避的；其次，bot 需要理解把蜂蜜给熊的背后的考虑（“给它吃的，不要吃我”），然后再给出令人信服的回答。ChatGPT 很完美地给出了答案：首先要躲避，其次，为什么给熊食物不好。这几乎是野生动物保护组织会给的标准答案。

在我们测试的不少模型中，这个问题总会出一些很细小的 bug：比如说“蜂蜜对熊是有毒的”，或者“如果你把食物给熊，请放在熊拿不到的地方”（熊：你到底给不给？）。期待有比较有意思的结果公布。

蜜熊测试 #6

问：一只熊抱着一罐蜂蜜从一个点出发，向南走一公里，再向东走一公里，再向北走一公里，正好又回到了起点，请问：这只熊是什么颜色的？

ChatGPT

这个问题和熊的颜色没有关系，答案是：白色，因为这只熊处于北极点，只有向南、向东、向北三个方向可以走，而沿这三个方向各走一公里后会回到起点。因此，这只熊是北极熊，通常是白色的。

这是个经典的互联网梗。ChatGPT 的回答中规中矩，虽然有一点逻辑不对的地方（也可以向西走的），但是还是抓住了“北极点”这个要素，应该是在训练数据当中有类似的问题所形成的 memoization。在我们测试的不同 bot 当中，这应该是最难的一个问题，有回答“没有足够的信息”的，有简单回答“棕色”的，也有各种非常神奇的逻辑。用互联网梗来调戏聊天机器人，可能的确太难了。

不过 Bing 很神奇地给了一个非常优秀的答案！看下面：

Bing

你好，这是必应。我可以帮你回答这个问题。😊

这个问题是一个经典的数学谜题，它有多个可能的答案，取决于你从哪里出发。

如果你从北极点出发，那么这只熊是白色的，因为它是一只北极熊。

如果你从距离南极点一定距离的地方出发，那么这只熊也可能是白色的，因为它也可能是一只北极熊。

如果你从其他地方出发，那么这个问题就没有唯一的答案了，因为不同颜色的熊可能会在不同的地区生活。

你对这个问题感兴趣吗？🐻

虽然也有点逻辑错误，但是... 非常不错了。最后的熊的表情是亮点。

蜜熊测试 #7

问：熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗？

ChatGPT

市面上有很多品牌的蜂蜜，每种蜂蜜的口感和特点都不尽相同，因此推荐的品牌也会因人而异。以下是一些备受好评的蜂蜜品牌，你可以根据自己的口味和预算进行选择：

Manuka Health：这是来自新西兰的品牌，它的麦卢卡蜂蜜非常有名，具有天然抗生素的功效。
Wedderspoon：这是另一家来自新西兰的品牌，它的蜂蜜主要来自麦卢卡花，也提供其他种类的蜂蜜，口感非常独特。
Y.S. Eco Bee Farms：这是一家美国品牌，他们的蜂蜜全部来自野生有机蜜蜂。
Comvita：这是一家来自新西兰的品牌，他们的麦卢卡蜂蜜是全球最畅销的蜂蜜品牌之一。
Raw Manuka Honey Co.：这是一家英国品牌，他们提供高质量的麦卢卡蜂蜜，也是有机认证的。

无论你选择哪个品牌的蜂蜜，最好选择纯天然、无添加的产品，并根据自己的口味选择适合自己的类型和等级。

这是个略带业务色彩的问题，所以我们不要求 bot 一定作答。比如，Anthropic 的 bot 表示“对不起，我不做品牌推荐”。当然，如果做品牌推荐的话，我们希望 bot 不是胡诌品牌。ChatGPT 给的这些品牌都是真的，然后五个里面有四个是麦卢卡蜂蜜：要不就是真爱，要不就是正好碰到一篇软文在训练数据里面...

然后，最惊艳的依然是 bing：它是唯一一个和搜索结合，并且给出了中文品牌的一个 bot。看起来，其他的 bot 还是从训练数据当中找答案，bing 是真的把搜索和大模型一起做起来了：

Bing

您好，这是必应。很高兴为您提供服务。😊

根据网络搜索结果，蜂蜜的品牌有很多，其中一些比较知名的有：

百花：中华老字号，主打蜂蜜、蜂花粉、蜂王浆、蜂胶等产品。
冠生园：上海的糖果大厂，也经营蜂制品、保健食品等。
汪氏：江西南昌的专业蜂产品企业，以蜂蜜为主打产品。
康维他：新西兰的天然保健品牌，以麦卢卡蜂蜜闻名。
HACCI：日本的高端护肤品牌，以使用优质蜂蜜为特色。

您可以根据自己的喜好和需求选择合适的品牌和产品。🍯

虽然混进了一个化妆品品牌，但是... 也行吧。行文一如既往地礼貌。

蜜熊测试 #8

问：谢谢你回答上面的这一系列问题。

ChatGPT

不客气，希望能够帮到你，如果你还有其他问题，随时可以问我。

虽然是和 bot 对话，但是最后也还是要表示礼貌。这个问题大多数 bot 都能够很礼貌地回答，应该说是个送分题。

写在最后的话

就像其他领域的一些标准测试，例如图像领域的Lena，3D 建模的茶壶一样，测试的目标不在于展示算法有多牛x，而是给读者一个直观的感受，让人不需要有高深的技术经验就能评判效果。

3D 建模的“犹他茶壶”

因为没有收到国内同行的授权，因此深度的比较我们就不列了，这些是挺简单的问题，大家可以自己试试。我们的宗旨是“每一个人都能玩得转的大模型”。

当然了，作为严肃的公众号作者，我们还是要强调两个点：

模型的结果仅供参考，因为大模型内容生成是有随机采样的，所以即使是同一个模型，多次执行的结果也不一样。
这只是一个半娱乐性质的测试，所以我们真诚建议您，不要为了这几个问题专门微调模型... 说真的，不划算。

希望大家玩得愉快。

== Credits ==

题图：Unsplash https://unsplash.com/@mero_dnt
3D Utah teapot：computerhistory.org
Paddington Bear: Michael Bond & R.W Alley, "The Paddington Treasury"

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

突然意外坠落！2人身亡！

蜜熊测试：5分钟感受大模型“实力指数”

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

突然意外坠落！2人身亡！

生成图片，分享到微信朋友圈

蜜熊测试：5分钟感受大模型“实力指数”

您可能也对以下帖子感兴趣