首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
上海
2
习近平
3
新疆
4
鄂州父女瓜
5
乌鲁木齐
6
疫情
7
H工口小学生赛高
8
习明泽
9
芊川一笑图包
10
印尼排华
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
李尚福、魏凤和双双被拿下,与美国一份报告是否有关?
“家属和记者取得联系”:记者的退场意味深长
圈内疯传某谣言
不要放过这些人渣
“被指居者”之死:嫌犯身体遭长时间束缚,警方称指居使用械具是惯例
生成图片,分享到微信朋友圈
3月18日 上午 8:00
3月18日 上午 8:40
3月18日 下午 8:50
3月19日 上午 9:00
3月19日 下午 9:10
3月20日 上午 9:20
3月20日 下午 9:30
3月21日 上午 9:40
3月21日 下午 9:50
3月22日 上午 10:00
3月22日 下午 10:10
3月23日 上午 10:20
3月23日 下午 10:31
3月24日 上午 10:40
3月24日 下午 10:50
3月25日 上午 11:01
3月25日 下午 11:11
3月26日 上午 11:21
3月26日 下午 11:30
3月27日 上午 11:41
3月27日 下午 11:51
3月28日 下午 12:01
3月29日 上午 12:46
3月29日 下午 7:13
3月30日 上午 7:29
3月30日 下午 7:44
3月31日 上午 8:06
3月31日 下午 8:46
4月1日 上午 9:06
4月1日 下午 9:25
4月2日 上午 9:44
4月2日 下午 9:55
4月3日 上午 10:04
4月3日 下午 10:15
4月4日 上午 10:23
4月4日 下午 10:34
4月5日 下午 8:23
4月6日 上午 8:32
4月6日 下午 8:43
4月7日 下午 8:29
4月8日 上午 8:37
4月8日 下午 8:54
4月9日 上午 9:04
4月9日 下午 9:23
4月10日 上午 9:45
4月10日 下午 10:06
4月11日 上午 10:14
4月11日 下午 10:35
4月12日 上午 10:56
4月12日 下午 11:06
4月13日 上午 11:15
4月13日 下午 11:36
4月14日 上午 11:50
4月15日 上午 12:13
4月15日 下午 12:23
4月16日 上午 12:31
4月16日 下午 12:42
4月17日 上午 12:52
4月17日 下午 1:02
4月18日 上午 1:12
4月18日 下午 1:22
4月19日 上午 1:32
4月19日 下午 1:42
4月20日 上午 2:02
4月20日 下午 2:12
4月21日 上午 2:32
4月21日 下午 2:42
4月22日 上午 2:52
4月22日 下午 3:02
4月23日 上午 3:12
4月23日 下午 3:21
4月24日 上午 3:32
4月24日 下午 3:41
4月25日 上午 3:51
4月25日 下午 4:12
4月26日 上午 4:33
4月26日 下午 5:12
4月27日 上午 5:22
4月27日 下午 5:32
4月28日 上午 5:41
4月28日 下午 5:52
4月29日 上午 6:02
4月29日 下午 6:12
4月30日 上午 6:21
4月30日 下午 7:01
查看原文
科技
刚刚、马斯克开源 xAI Grok-1 架构:3140 亿参数
小智
云头条
2024-03-18
2024年3月18日,Elon Musk 掌舵的 AI 初创公司 xAI Corp. 以开放源代码的形式发布了其 Grok-1 大语言模型(LLM)的权重和架构,该模型采用 Apache 2.0 许可证。
这兑现了Musk上周一声称会开放Grok源代码的承诺。此前不久,苹果刚发表了一篇论文,描述其在多模态 LLM 方面的研究工作。
Musk 最初表示,xAI 会在 3 月 11 日以开源的形式发布 Grok,但今天发布的基本模型、权重以及涉及模型工作原理的基本组件使其成为该公司的第一个开源版本。
已经发布的是 Grok 结构设计的网络架构的一部分,包括如何安排和连接各层和节点来处理数据。基本模型权重是某个特定模型的架构中的参数,这些参数在训练期间已经过调整,编码学习到的信息,并决定如何将输入数据转换成输出。
Grok-1 是由 xAI 从头开始训练的 3140 亿个参数的“混合专家”(Mixture-of-Experts)模型。
混合专家模型是一种机器学习方法,它将多个专用的子模型(又称为专家)的输出结合起来,进行最终的预测,通过利用每个单独模型的专业知识,针对不同的任务或数据子集进行优化。
该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 年 10 月宣告结束。
据该公司声称:“这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在一篇简短的博文中没有提供进一步的信息。
Musk 在去年 7 月透露,他创办了 xAI,该公司将与谷歌和 OpenAI 等公司的 AI 服务相竞争。
据 xAI 声称,这家公司的第一个模型 Grok 模仿 Douglas Adams 的经典著作《银河系漫游指南》,“旨在回答几乎任何问题,更绝的是,甚至建议该问什么样的问题!”
与 Gemma 和 Llama 等一些使用方面有限制的开源版本模型不同,Grok的开源版本提供了对底层技术的广泛访问。
然而,它大全面透明度方面又不如
Pythia
、
Bloom
和
OLMo
等模型,这些模型包括训练代码和用于训练模型的数据集。
与此同时,苹果公司在周四悄然发表了一篇论文,描述了其在 MM1 方面的研究工作。MM1 是一套多模态 LLM,用于为图像添加字幕、回答视觉问题和自然语言推理。
该论文
描述
MM1
是一个
多
模态
模型系列,支持多达
300
亿个参数,并
“
在
针对
一系列已
确立
的多模
态
基准进行监督
式
微调后获得
了颇
具竞争力的性能
”
。
研究人员还声称,多模态大语言模型已经成为
继传统
LLM
之后“
基础模型
领域
的下一个前沿
”
,它们
“
取得
了卓越的能力
”
。
多模态 LLM 是一种 AI 系统,能够理解文本、图像和音频等多种类型的数据,并生成响应,整合各种形式的信息以执行复杂的任务。苹果的研究人员认为,他们的模型取得了重大突破,有望帮助其他人将这些模型扩展到更庞大的数据集,具有更好的性能和可靠性。
苹果之前在多模态 LLM 方面的工作成果包括 Ferret,这个模型在去年 10 月被悄悄开源,但直到 12 月才引起公众的注意。
Grok-1 的权重和架构已放在 GitHub 上,还附有开始上手模型的操作说明,详见:https://github.com/xai-org/grok?ref=maginative.com。
继续滑动看下一个
轻触阅读原文
云头条
向上滑动看下一个
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存