挑战弱智吧问题 | Grok VS GPT4

Original 思辨view kate人不错

2024-08-22

昨日，我介绍了16美元/月的Grok，值得入手吗 | 分享实际上手体验，后看到up主林亦《我教AI学弱智吧问题，结果它疯了》的视频，很想知道Grok能否应对弱智吧问题，于是有了这篇文章。

这道题，Grok就想偷懒，还幽默地说我的要求像宇宙本身一样浩瀚...

看看GPT4最后回答的这一句，多么合适。

GPT-4实在太聪明了。

被Grok的回答乐到了。

Grok被设计成按固定模板回答，有些像是重复的车轱辘话。

这老鼠药是为人类设计的？被Grok的回答惊到了。

综上，很容易看出，GPT4的推理能力要比Grok好太多。

16美元/月的Grok，值得入手吗？

针对现在的版本，我觉得不值得入手。

理由：

输入字符数较少（只有4k）。
写文章能力一般，文章层级混乱，推理能力弱。
对比GPT4，Grok现只支持文本输入，其实时检索功能生成的内容，也不如perplexity（GPT4模型下）。

我期待Grok能快速迭代更新，AI领域的激烈竞争会推动更多技术进步。

延伸阅读：

Grok的诞生背景

“Grok”这个名字源自科幻小说《银河系漫游指南》，意味着深刻理解和共鸣。xAI公司的愿景是创建一种能够帮助全人类在理解和知识追求上的工具。Grok的设计不仅仅是为了回答问题，更能够以一种带有智慧和幽默的方式，甚至提出问题。这种设计哲学标志着一个巨大的飞跃，因为它意味着AI不再是单一的信息处理工具，而是能够更深入地与人类的思维模式接轨。

Grok的技术优势

Grok的核心是Grok-1，一个开创性的LLM（大型语言模型），它在短短四个月内完成了多次迭代。从原型Grok-0到现在的Grok-1，性能有了显著的提升，在HumanEval编码任务中达到63.2％的成绩，在MMLU多学科选择题中达到73％。这些成绩表明，即使与数据和计算资源更丰富的模型如GPT-4相比，Grok-1在其计算级别的模型中也显示出了强大的竞争力。

Grok与现存AI的比较

在Grok-1的基准测试中，它在GSM8k中学校数学问题解决中得到62.9％的成绩，而在同类测试中，其他模型如GPT-3.5和Claude 2的表现都未能达到这一水平。这一结果不仅证实了Grok在处理复杂问题上的出色能力，还展示了xAI在训练高效LLMs方面取得的快速进步。

Grok的实际应用前景

除了在标准测试中的好成绩，Grok在2023年匈牙利国家高中数学考试中也得到了C（59％）的评级。这一“真实世界”的测试进一步验证了Grok在处理未经特别调整的数据集时的能力。这意味着Grok在日常应用中的潜力巨大，它可以帮助研究人员、学生和业余爱好者等广泛用户群体。

xAI公司的研究与工程

在深度学习研究的前沿，xAI公司构建了一套基于Kubernetes、Rust和JAX的定制培训和推理堆栈。这套系统能够处理数以万计的GPU在数月时间内的同步计算，即使面对硬件不稳定的情况也能保持高效运行。

以下是一些我之前的文章，你可能会对它们感兴趣：

效果炸裂 | Google 刚发布 Gemini，开启多模态智能的新时代

用AI生成PPT、用AI优化PPT

tldraw make real：利用AI一键从原型图到生成真实可用的代码

深度使用GPTs的分享——授人以鱼不如授人以渔

继续滑动看下一个

kate人不错

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

天佑开麦再赞阿哲！阿厦爆瓜老爸三亚看阿哲！阿哲开干多元赛！

老塔申请强制执行，小白龙被限高！主播要账晨一，遭警告冻结！

夺人气票！爆阿哲拉菲聊天记录！旭旭宝宝被封，@阿哲！怒斥官方权限双标！

哲家没面子！俊雅呆呆爆骂某主播，主播现场致歉阿哲！美人哥豪刷俊雅！

挑战弱智吧问题 | Grok VS GPT4

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

天佑开麦再赞阿哲！阿厦爆瓜老爸三亚看阿哲！阿哲开干多元赛！

老塔申请强制执行，小白龙被限高！主播要账晨一，遭警告冻结！

夺人气票！爆阿哲拉菲聊天记录！旭旭宝宝被封，@阿哲！怒斥官方权限双标！

哲家没面子！俊雅呆呆爆骂某主播，主播现场致歉阿哲！美人哥豪刷俊雅！

生成图片，分享到微信朋友圈

挑战弱智吧问题 | Grok VS GPT4

您可能也对以下帖子感兴趣