查看原文
其他

挑战弱智吧问题 | Grok VS GPT4

思辨view kate人不错
2024-08-22

昨日,我介绍了16美元/月的Grok,值得入手吗 | 分享实际上手体验,后看到up主林亦《我教AI学弱智吧问题,结果它疯了》的视频,很想知道Grok能否应对弱智吧问题,于是有了这篇文章。

这道题,Grok就想偷懒,还幽默地说我的要求像宇宙本身一样浩瀚...

看看GPT4最后回答的这一句,多么合适。

GPT-4实在太聪明了。

被Grok的回答乐到了。

Grok被设计成按固定模板回答,有些像是重复的车轱辘话。

这老鼠药是为人类设计的?被Grok的回答惊到了。

综上,很容易看出,GPT4的推理能力要比Grok好太多。

16美元/月的Grok,值得入手吗?

针对现在的版本,我觉得不值得入手。

理由:

  1. 输入字符数较少(只有4k)。

  2. 写文章能力一般,文章层级混乱,推理能力弱。

  3. 对比GPT4,Grok现只支持文本输入,其实时检索功能生成的内容,也不如perplexity(GPT4模型下)。

我期待Grok能快速迭代更新,AI领域的激烈竞争会推动更多技术进步。

延伸阅读:

Grok的诞生背景
“Grok”这个名字源自科幻小说《银河系漫游指南》,意味着深刻理解和共鸣。xAI公司的愿景是创建一种能够帮助全人类在理解和知识追求上的工具。Grok的设计不仅仅是为了回答问题,更能够以一种带有智慧和幽默的方式,甚至提出问题。这种设计哲学标志着一个巨大的飞跃,因为它意味着AI不再是单一的信息处理工具,而是能够更深入地与人类的思维模式接轨。
Grok的技术优势
Grok的核心是Grok-1,一个开创性的LLM(大型语言模型),它在短短四个月内完成了多次迭代。从原型Grok-0到现在的Grok-1,性能有了显著的提升,在HumanEval编码任务中达到63.2%的成绩,在MMLU多学科选择题中达到73%。这些成绩表明,即使与数据和计算资源更丰富的模型如GPT-4相比,Grok-1在其计算级别的模型中也显示出了强大的竞争力。
Grok与现存AI的比较
在Grok-1的基准测试中,它在GSM8k中学校数学问题解决中得到62.9%的成绩,而在同类测试中,其他模型如GPT-3.5和Claude 2的表现都未能达到这一水平。这一结果不仅证实了Grok在处理复杂问题上的出色能力,还展示了xAI在训练高效LLMs方面取得的快速进步。
Grok的实际应用前景
除了在标准测试中的好成绩,Grok在2023年匈牙利国家高中数学考试中也得到了C(59%)的评级。这一“真实世界”的测试进一步验证了Grok在处理未经特别调整的数据集时的能力。这意味着Grok在日常应用中的潜力巨大,它可以帮助研究人员、学生和业余爱好者等广泛用户群体。
xAI公司的研究与工程
在深度学习研究的前沿,xAI公司构建了一套基于Kubernetes、Rust和JAX的定制培训和推理堆栈。这套系统能够处理数以万计的GPU在数月时间内的同步计算,即使面对硬件不稳定的情况也能保持高效运行。

以下是一些我之前的文章,你可能会对它们感兴趣:

效果炸裂 |  Google 刚发布 Gemini,开启多模态智能的新时代

用AI生成PPT、用AI优化PPT

tldraw make real:利用AI一键从原型图到生成真实可用的代码

深度使用GPTs的分享——授人以鱼不如授人以渔

继续滑动看下一个
kate人不错
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存