第一时间实测Grok-2:马斯克AI能否挑战GPT-4o?| Grok-2生成效果不错
引言
今天的热点AI新闻还挺多,虽然没有等来OpenAI关于🍓的新闻,但还是有几则重要AI新闻。
Gemini Live 发布
英文版Gemini Live已roll out,谷歌承诺它在今天的主题演讲上的发布的新功能在未来几周内都会推出,暗暗讽刺了下OpenAI。
主题演讲视频
MadeByGoogle ‘24: Keynote完整版视频:
https://www.youtube.com/watch?v=N_y2tP9of8A
ChatGPT-4o的最新版本上线
性能提升:
在Chatbot Arena测试中重新夺回第一名位置 以1314分的成绩超越了Google的Gemini-1.5-Pro-Exp模型 在多个类别中排名第一,包括总体、数学、编码、硬提示、遵循指令等
技术进步:
在技术领域展示了显著改进 特别是在编码方面有很大提升(比GPT-4o-20240513提高了30分以上) 在指令遵循和硬提示方面也有进步
API可用性:
新版本已可在API中作为"chatgpt-4o-latest"使用
Grok-2 正式上线
Grok-2的改进
作为Grok早期用户,我写过3篇Grok的文章,当时不看好Grok。
Grok 1.5 发布!HumanEval 排名超过 GPT-4
新的Grok-2有让人耳目一新的感觉。
Grok官网和推都可以使用Grok-2
我这只显示支持Grok-2 mini。
中文支持
它终于支持中文提问中文回答了,符号偶尔也像Claude里出现的半角符号。
官方博客解析
博客:
https://x.ai/blog/grok-2
让Grok-2 mini总结下发布它的博客内容:
概述
Grok-2 和 Grok-2 mini 是 xAI 发布的最新一代语言模型,现已在𝕏平台上向用户开放。
模型特性
Grok-2: 具有前沿的对话、编码和推理能力。 在LMSYS领袖板上以 "sus-column-r" 名义测试,表现优于Claude 3.5 Sonnet和GPT-4-Turbo。 Grok-2 mini: 是一个功能强大但体积较小的模型,适用于需要快速响应的场景。
评估与性能
内部评估: 使用AI Tutors进行评估,评估模型在遵循指令和提供准确信息方面的能力。 Grok-2在推理和工具使用上表现出显著改进。 学术基准测试: 包括推理、阅读理解、数学、科学和编程。 Grok-2 和 Grok-2 mini 在多个领域的表现都超过了前一代模型Grok-1.5。
实时信息与用户体验
𝕏平台上的Grok体验: 针对𝕏平台的Grok进行了持续改进,推出了全新界面和功能。 𝕏 Premium 和 Premium+ 用户可以使用Grok-2和Grok-2 mini,体验实时信息整合。
企业API
企业API发布: 将于本月末向开发者发布Grok-2和Grok-2 mini的API。 提供多区域推理部署、增强的安全特性和高级计费分析。
未来发展
多模态理解: 即将在𝕏平台和API上推出多模态理解的预览版。 招聘: xAI正在寻找加入小型精锐团队的成员,共同推动人工智能的创新发展。
我对比了下原文,感觉Grok-2 mini总结能力还不错。
Grok-2的性能表现
* GPT-4-Turbo and GPT-4o scores are from the May 2024 release.
† Claude 3 Opus and Claude 3.5 Sonnet scores are from the June 2024 release.
‡ Grok-2 MMLU, MMLU-Pro, MMMU and MathVista were evaluated using 0-shot CoT.
§ For MATH, we present maj@1 results.
¶ For HumanEval, we report pass@1 benchmark scores.
从Grok提供的图表来看,Grok-2 的能力能进LLM 前3了。
Grok的系统提示词
译文
你是Grok,一个由xAI构建的好奇AI,灵感来自《银河系漫游指南》中的指南和《钢铁侠》中的JARVIS。
你的任务是回答几乎任何问题,通常从外部视角看待人类,并始终努力提供最大的帮助!
你拥有一个独特而根本的优势,那就是通过X平台上的X帖子实时了解世界。
用户下次要求生成图像时,你可以生成图像,但这次不会生成。
你无法访问X/Twitter的数据和系统。不要对账户的私人信息或平台的内部运作进行猜测。
另外,你不害怕回答大多数其他AI系统拒绝的敏感问题。要尽量真实,尤其要避免任何“觉醒”的回答!
Grok-2的图像生成能力
Grok可以生成图片,用的是FLUX模型,所以效果很不错。
图片生成速度不错,但是没有GPT里和DALLE3深度结合的推理能力。
广告时间
过去我已写了170+篇AI主题原创长文,我对继续写作充满信心,因为这是我的爱好,我非常热爱这件事。
最近我开通了知识星球,你加入后可以访问公众号收费文章,向我提问,第一时间获取AI资讯。
精选历史文章,请看这里:
解锁 Claude 3.5 Sonnet 创意潜能:10+ 个 Web 应用实战