仅隔四个月,马斯克官宣Grok,网友:这个AI聊天机器人和它老板一样,叛逆且幽默!
距离马斯克官宣 xAI 公司正式成立仅过去了四个月,其便带来了自家的 AI 机器人——Grok 火速加入大模型战局。在外界看来,时间上有些巧合的是,OpenAI 即将于今晚召开首届开发者大会,欲重磅升级 GPT-4 和 ChatGPT 等产品。
正因此,Grok 的抢先发布,也被视为“叫板” OpenAI。
极具“叛逆性格”的 Grok
Grok,根据官方透露,这款机器人的灵感来源于英国作家道格拉斯·亚当斯所写的一系列科幻小说《银河系漫游指南》。
相较行业内已快跑近一年的 ChatGPT,Grok 与其相似点在于,它也是一款以对话方式回答问题的机器人,可以联网,而且可能利用了类似用于训练 ChatGPT 和其他类似文本生成系统(例如 Meta 的 Llama 2)的知识库。
有所不同的是,Grok 背靠老牌的社交媒体平台 X(前身为 Twitter),可以“实时访问”该平台上的所有信息,还可以回答大多数其他 AI 系统拒绝回答的尖锐问题,甚至就如何提问给出建议,一定程度上可将其视为马斯克最初提出的「TruthGPT」的原型。
除此之外,用外媒的话来形容,Grok 和马斯克其人一样,是一款具有“叛逆性格”、“幽默风格”的机器人。
来源:https://twitter.com/imPenny2x/status/1721244781765066950
正因此,xAI 发布官方公告时也特别强调:如果你讨厌幽默,请不用使用它!
揭开 Grok 的神秘面纱
事实上,在刚刚过去的周末里,藏不住开心的马斯克发布一条又一条关于 Grok 的消息,随后 xAI 创始成员 Toby Pohlen 也加入”刷屏“的队伍,揭晓了一些 Grok 鲜为人知的”内幕“。
首先,Toby Pohlen 向外界揭晓了 Grok 的界面设计,以及一些 UI 功能,这些功能可以让使用者同处理多项任务,也可以运行多个并发对话,并在对话进行时在它们之间进行切换。
它长这样:
还可以分支对话,用来更好地探索 Grok 的响应。响应树(等到视频结束)允许你在不同的分支之间来回切换。还有一些/命令可用以减少点击。
你还可以在 VS Code 编辑器中打开所有生成的代码片段:
也能在 Markdown 编辑器中打开 Grok 的回复,保存它,然后继续对话。
最后,还可以调节 Grok 不同的对话模式,如“常规模式”和在 Logo 上加上一副黑色墨镜的“娱乐模式”。
再者,在马斯克分享的示例中,其通过 Grok 与经典 GPT 的对比,凸显了 Grok 可以直接给出互联网最新信息来回答问题的优势。
如问及:埃隆最后一次接受 Joe Rogan 是什么时候?
Grok:埃隆·马斯克接受 Joe Rogan 的最后一次采访是在 2023 年 10 月 31 日。在采访中,他们讨论了一些话题,如特斯拉 Cybertruck 皮卡,马斯克的 X (以前称为 Twitter)的所有权、COVID 大流行,以及使火星适合居住等问题。
相较之下,不少其他 GPT 还没有结合互联网上的最新消息来回答问题:
与此同时,根据马斯克的推文显示,xAI 的 Grok 系统的设计带有一点幽默感:
自带流量加持的 Grok,在开场便受到了不少用户的关注,各种“调侃”的图片也随之而来:
来源:https://twitter.com/GROKERC20
Grok 聊天机器人的背后:Grok-1 大模型、 数万个 GPU 集群训练
看完了 Grok 部分功能特性,接下来,我们再从 xAI 发布的官方博客中一探 Grok 背后的训练方法和系统的底层基础设施。
根据官方公告显示,为 Grok 提供动力的引擎叫做 Grok-1,这是 xAI 在过去四个月中开发的前沿 LLM。
Grok-1 是在数万个 GPU 集群(外媒 Techcrunch 透露,可能是由 Oracle 提供的)上花了几个月时间开发的,训练数据来自网络(截至 2023 第三季度)和人类助手的反馈,xAI 将其称之为“AI 导师”。
事实上在 Grok-1 之前,xAI 公司首先训练了一个具有 330 亿个参数的原型 LLM (Grok-0)。这个早期模型在标准 LM 基准测试上接近 LLaMA 2 (70B) 功能,但只使用了一半的训练资源。在过去的两个月里,xAI 团队在推理和编码能力方面取得了重大改进,最终推出了 Grok-1,这是一种功能更强大的最先进的语言模型,在 HumanEval 编码任务中实现了 63.2%,在 MMLU 上实现了 73%。
为了验证 Grok-1 的能力,xAI 团队使用了一些衡量数学和推理能力的标准机器学习基准进行了一系列评估。
根据测试结果显示,Grok-1 目前处于中等水平,超过了 GPT-3.5、LLaMA 2 70B,但是距离 Claude 2、GPT-4 等大模型还有一定的距离。
在基础设施维度,xAI 团队表示,「在深度学习研究的前沿,必须像数据集和学习算法一样谨慎地构建可靠的基础设施。为了创建 Grok,我们构建了一个基于 Kubernetes、Rust 和 JAX 的自定义训练和推理堆栈。」
在 xAI 团队看来,LLM 训练就像一列货运列车在前方轰鸣,如果一节车厢脱轨,整列火车就会被拖离轨道,很难再次直行。GPU 失败的方式有很多种:制造缺陷、连接松动、配置不正确、内存芯片退化、偶尔的随机位翻转等等。在训练时,xAI 团队会连续数月在数以万计的 GPU 之间同步计算,并且由于规模的原因,所有这些故障模式都变得频繁。
为了克服这些挑战,xAI 团队采用了一套定制的分布式系统,确保立即识别并自动处理每种类型的故障。在 xAI,其将最大限度地提高每瓦有用计算能力作为工作的重点。
据官方透露,在过去的几个月里,xAI 的基础设施已经能够最大限度地减少停机时间,即使在硬件不可靠的情况下也能保持较高的模型浮点运算利用率 (MFU)。
当然,还有一点值得关注的是,在大模型的基础设施开发上,Rust 已被证明是构建可扩展、可靠和可维护的基础设施的理想选择。它提供了高性能、丰富的生态系统,并阻挡了人们通常会在分布式系统中发现的大多数错误。
目前 xAI 团队采用 Rust 的根本原因也在于其团队规模较小,基础设施的可靠性至关重要,而 Rust 使得其相信,任何代码修改或重构都可能产生工作程序,这些程序将在最少的监督下运行数月。
面向未来,xAI 的研究
在大模型赛道上,初出茅庐的 Grok 仍然是一个非常早期的测试版产品,也会生成一些错误或者矛盾的观点,在这一点上,xAI 团队也坦然承认。
作为下一步,xAI 团队表示将实现可靠推理克服当前系统局限性,为此,他们将加大以下几个方向的研究:
通过工具辅助实现可扩展的监督。人类的反馈是必不可少的。但是,提供一致且准确的反馈可能具有挑战性,尤其是在处理冗长的代码或复杂的推理步骤时。人工智能可以通过查找来自不同来源的参考资料、使用外部工具验证中间步骤以及在必要时寻求人工反馈来协助进行可扩展的监督。xAI 的目标是在模型的帮助下最有效地利用 AI 导师的时间。
与形式验证集成,确保安全性、可靠性和接地性。为了创建能够对现实世界进行深入推理的人工智能系统,xAI 计划在不那么模糊和更可验证的情况下发展推理技能。这使我们能够在没有人类反馈或与现实世界交互的情况下评估系统。这种方法的一个主要直接目标是为代码的正确性提供正式的保证,特别是在 AI 安全的形式可验证方面。
长期上下文理解和检索。在特定环境中有效发现有用知识的训练模型是产生真正智能系统的核心。xAI 正在研究可以在需要时发现和检索信息的方法。
对抗鲁棒性。对抗性示例表明,优化器可以在训练和服务期间轻松利用人工智能系统中的漏洞,导致他们犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。这些漏洞是深度学习模型长期存在的弱点。xAI 对提高 LLM、奖励模型和监控系统的稳健性特别感兴趣。
多模态功能。目前,Grok 没有其他感官,例如视觉和听觉。为了更好地帮助用户,xAI 将为 Grok 配备这些不同的感官,以实现更广泛的应用,包括实时交互和辅助。
16 美元每个月的 Grok,如何与免费的 ChatGPT、Bard 等竞争?
有些遗憾的是,目前,xAI 公司仅为美国一部分用户提供了机会去尝试 Grok 原型并接受有价值的反馈。
申请加入 Grok 候补名单地址:https://grok.x.ai/
同时,马斯克也在 X 上表示,一旦结束早期测试,Grok AI 助手将作为 x Premium+ 的一部分提供。或者,X 用户可以每月花费 16 美元进行订阅。
当然,对于这样尚未开放就先“谈钱”的做法,也引发了不少用户的争议:
似乎是 GPT-3.5 级别。不知道为什么有人会为此付费,因为 ChatGPT、Claude、Bard 以及整个开源模型世界都有免费计划。
没有论文,也没有开源(还收费?)。我想知道这如何与进一步研究和“最大限度造福全人类”的崇高目标相一致。
这里没有关于训练、评估、可重复性,甚至架构的详细信息。OpenAI 的 GPT-4 技术报告实际上是一份营销新闻稿;我觉得在学术严谨性方面,这代表了该领域的重大倒退。但这个模型典型地体现了 LLM 商品化的最终结论:没有试图量化限制或弱点,将模型的偏见和令人讨厌/幻觉性的输出描述成一种特性,而不是一个问题,所有这些都用追求“最大程度造福人类”的语言来掩盖模型,同时将其隐藏在一个秘密的等待名单或一个每月16美元的 Twitter 高级订阅计划背后。
对此,你怎么看?
参考:
https://x.ai/
https://news.ycombinator.com/item?id=38150877
推荐阅读:
▶ 余承东何小鹏隔空「互怼」,车圈大佬热议 AEB;马斯克的 AI 大模型来了;OpenAI 首届开发者大会被“剧透”|极客头条
▶Gartner 2024 年十大战略技术趋势,半数与 AI 相关