第一时间实测Grok-2：马斯克AI能否挑战GPT-4o？| Grok-2生成效果不错

Original 思辨view kate人不错

2024-08-22

引言

今天的热点AI新闻还挺多，虽然没有等来OpenAI关于🍓的新闻，但还是有几则重要AI新闻。

Gemini Live 发布

英文版Gemini Live已roll out，谷歌承诺它在今天的主题演讲上的发布的新功能在未来几周内都会推出，暗暗讽刺了下OpenAI。

主题演讲视频

MadeByGoogle ‘24: Keynote完整版视频：

https://www.youtube.com/watch?v=N_y2tP9of8A

ChatGPT-4o的最新版本上线

性能提升：

在Chatbot Arena测试中重新夺回第一名位置
以1314分的成绩超越了Google的Gemini-1.5-Pro-Exp模型
在多个类别中排名第一，包括总体、数学、编码、硬提示、遵循指令等

技术进步：

在技术领域展示了显著改进
特别是在编码方面有很大提升（比GPT-4o-20240513提高了30分以上）
在指令遵循和硬提示方面也有进步

API可用性：

新版本已可在API中作为"chatgpt-4o-latest"使用

Grok-2 正式上线

Grok-2的改进

作为Grok早期用户，我写过3篇Grok的文章，当时不看好Grok。

16美元/月的Grok，值得入手吗 | 分享实际上手体验

挑战弱智吧问题 | Grok VS GPT4

Grok 1.5 发布！HumanEval 排名超过 GPT-4

新的Grok-2有让人耳目一新的感觉。

Grok官网和推都可以使用Grok-2

我这只显示支持Grok-2 mini。

中文支持

它终于支持中文提问中文回答了，符号偶尔也像Claude里出现的半角符号。

官方博客解析

博客：

https://x.ai/blog/grok-2

让Grok-2 mini总结下发布它的博客内容：

概述

Grok-2 和 Grok-2 mini 是 xAI 发布的最新一代语言模型，现已在𝕏平台上向用户开放。

模型特性

Grok-2:

具有前沿的对话、编码和推理能力。
在LMSYS领袖板上以 "sus-column-r" 名义测试，表现优于Claude 3.5 Sonnet和GPT-4-Turbo。

Grok-2 mini:

是一个功能强大但体积较小的模型，适用于需要快速响应的场景。

评估与性能

内部评估:

使用AI Tutors进行评估，评估模型在遵循指令和提供准确信息方面的能力。
Grok-2在推理和工具使用上表现出显著改进。

学术基准测试:

包括推理、阅读理解、数学、科学和编程。
Grok-2 和 Grok-2 mini 在多个领域的表现都超过了前一代模型Grok-1.5。

实时信息与用户体验

𝕏平台上的Grok体验:

针对𝕏平台的Grok进行了持续改进，推出了全新界面和功能。
𝕏 Premium 和 Premium+ 用户可以使用Grok-2和Grok-2 mini，体验实时信息整合。

企业API

企业API发布:

将于本月末向开发者发布Grok-2和Grok-2 mini的API。
提供多区域推理部署、增强的安全特性和高级计费分析。

未来发展

多模态理解:

即将在𝕏平台和API上推出多模态理解的预览版。

招聘:

xAI正在寻找加入小型精锐团队的成员，共同推动人工智能的创新发展。

我对比了下原文，感觉Grok-2 mini总结能力还不错。

Grok-2的性能表现

* GPT-4-Turbo and GPT-4o scores are from the May 2024 release.

† Claude 3 Opus and Claude 3.5 Sonnet scores are from the June 2024 release.

‡ Grok-2 MMLU, MMLU-Pro, MMMU and MathVista were evaluated using 0-shot CoT.

§ For MATH, we present maj@1 results.

¶ For HumanEval, we report pass@1 benchmark scores.

从Grok提供的图表来看，Grok-2 的能力能进LLM 前3了。

Grok的系统提示词

译文

你是Grok，一个由xAI构建的好奇AI，灵感来自《银河系漫游指南》中的指南和《钢铁侠》中的JARVIS。

你的任务是回答几乎任何问题，通常从外部视角看待人类，并始终努力提供最大的帮助！

你拥有一个独特而根本的优势，那就是通过X平台上的X帖子实时了解世界。

用户下次要求生成图像时，你可以生成图像，但这次不会生成。

你无法访问X/Twitter的数据和系统。不要对账户的私人信息或平台的内部运作进行猜测。

另外，你不害怕回答大多数其他AI系统拒绝的敏感问题。要尽量真实，尤其要避免任何“觉醒”的回答！

Grok-2的图像生成能力

Grok可以生成图片，用的是FLUX模型，所以效果很不错。

图片生成速度不错，但是没有GPT里和DALLE3深度结合的推理能力。

广告时间

过去我已写了170+篇AI主题原创长文，我对继续写作充满信心，因为这是我的爱好，我非常热爱这件事。

最近我开通了知识星球，你加入后可以访问公众号收费文章，向我提问，第一时间获取AI资讯。

精选历史文章，请看这里：

推荐一款编程辅助工具：AI驱动的3倍效率提升

效率提升N倍！分享我正在使用的AI编程新工具

打造更可靠的 AI :解析 7 种减少幻觉的高效策略

解锁 Claude 3.5 Sonnet 创意潜能：10+ 个 Web 应用实战

Poe x Claude：零代码创建交互式 Web 应用，完整操作带你轻松上手

AI 驱动的网页开发：用 Claude 3.5 Sonnet 打造趣味互动应用并轻松部署

继续滑动看下一个

kate人不错

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

天佑开麦再赞阿哲！阿厦爆瓜老爸三亚看阿哲！阿哲开干多元赛！

老塔申请强制执行，小白龙被限高！主播要账晨一，遭警告冻结！

夺人气票！爆阿哲拉菲聊天记录！旭旭宝宝被封，@阿哲！怒斥官方权限双标！

哲家没面子！俊雅呆呆爆骂某主播，主播现场致歉阿哲！美人哥豪刷俊雅！

第一时间实测Grok-2：马斯克AI能否挑战GPT-4o？| Grok-2生成效果不错

引言

Gemini Live 发布

主题演讲视频

ChatGPT-4o的最新版本上线

性能提升：

技术进步：

API可用性：

Grok-2 正式上线

Grok-2的改进

中文支持

官方博客解析

概述

模型特性

评估与性能

实时信息与用户体验

企业API

未来发展

Grok-2的性能表现

Grok的系统提示词

Grok-2的图像生成能力

广告时间

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

天佑开麦再赞阿哲！阿厦爆瓜老爸三亚看阿哲！阿哲开干多元赛！

老塔申请强制执行，小白龙被限高！主播要账晨一，遭警告冻结！

夺人气票！爆阿哲拉菲聊天记录！旭旭宝宝被封，@阿哲！怒斥官方权限双标！

哲家没面子！俊雅呆呆爆骂某主播，主播现场致歉阿哲！美人哥豪刷俊雅！

生成图片，分享到微信朋友圈

第一时间实测Grok-2：马斯克AI能否挑战GPT-4o？| Grok-2生成效果不错

引言

Gemini Live 发布

主题演讲视频

ChatGPT-4o的最新版本上线

性能提升：

技术进步：

API可用性：

Grok-2 正式上线

Grok-2的改进

中文支持

官方博客解析

概述

模型特性

评估与性能

实时信息与用户体验

企业API

未来发展

Grok-2的性能表现

Grok的系统提示词

Grok-2的图像生成能力

广告时间

您可能也对以下帖子感兴趣