查看原文
其他

深度求索开源国内首个MoE大模型,技术报告、模型权重同时发布

深度求索 DeepSeek
2024-09-10

MoE(Mixture-of-Experts),混合专家架构,已是GPT4公开的秘密...


今天,我们率先开源国内首个MoE大模型 DeepSeekMoE,全新架构支持中英,免费商用。

自研全新MoE架构多尺度(2B->16B->145B)模型效果均领先:

· DeepSeekMoE 2B 接近MoE模型的理论上限 2B Dense 模型性能(即相同Attention/FFN 参数配比的 2B Dense模型)仅用了17.5%计算量
· DeepSeekMoE 16B 性能比肩 LLaMA2 7B 的同时,仅用了40%计算量(如下图),也是本次主力开源模型,40G 显存可单卡部署
· DeepSeekMoE 145B 上的早期实验进一步证明该MoE架构明显领先于Google的MoE架构GShard仅用28.5%(甚至18.2%)计算量即可匹配 67B Dense 模型的性能
图1:不同激活参数量的模型(横轴)
在Open LLM Leaderboard上的效果(纵轴)


多重发布

模型、代码、论文均已同步发布。
模型下载:https://huggingface.co/deepseek-ai
微调代码:https://github.com/deepseek-ai/DeepSeek-MoE
技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

图2:DeepSeekMoE 16B模型已开放下载

无需申请即可商用


图3:DeepSeekMoE 技术报告

自研全新MoE框架

图4:DeepSeekMoE 架构

DeepSeekMoE在框架上做了两大创新

· 细粒度专家划分:不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家(如Mistral 7B*8 采取8个专家选2专家),我们把N个专家粒度划分更细,如上图4(b),在保证激活参数量不变的情况下,从mN个专家中选择激活mK个专家(如DeepSeekMoE 16B 采取64个专家选8个专家),如此可以更加灵活地组合多个专家
· 共享专家分离:我们把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),如上图4(c),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余


   开源MoE模型表现

在相同语料训练了2万亿token,DeepSeekMoE 16B 模型(实际激活参数量为2.8B)性能匹敌DeepSeek 7B Dense 模型(左下图),而同时节省了60%的计算量。

与目前Dense模型的开源代表LLaMA2相比,DeepSeekMoE 16B 在大部分数据集上的性能依旧领先LLaMA2 7B(右下图),但仅用了40%计算量。


   多尺度模型进阶

DeepSeekMoE包含三个模型规模:2B->16B->145B。

DeepSeekMoE 2B (性能验证)

我们首先基于 2B 总参数的规模,对 DeepSeekMoE 的架构进行了充分的探索和研究:
· 相同总参数量的对比下,DeepSeekMoE 大幅优于相同总参数下的其他MoE架构
图5:DeepSeekMoE 2B 对比相同参数MoE模型

· 与更大规模(总参数量或者计算量)的模型相比,DeepSeekMoE 2B 能匹配 GShard 2.8B (1.5 倍专家参数量和专家计算量)的性能同时能非常接近MoE模型的理论性能上限,即相同Attention/FFN总参数量下 2B Dense 模型的性能

图6:DeepSeekMoE 2B 模型性能上限分析
· 消融实验进一步证明了共享专家分离和细粒度专家划分两个策略的有效性
图7:DeepSeekMoE两大创新的消融实验

此外,我们还验证了 DeepSeekMoE 相比于 GShard,有更好的专家化程度,体现在更少的专家知识冗余和更精准的专家知识命中上,具体请参见技术报告的第4.5节。

DeepSeekMoE 16B (开源版本)

基于在 2B 规模上建立的对模型架构的认知,我们训练了总参数量为16.4B的 DeepSeekMoE 16B 模型,并将其开源以促进研究社区的发展。

开源模型效果如下:

· 在仅用40%计算量的前提下,DeepSeekMoE 16B 能达到与 DeepSeek 7B(左图) 和 LLaMA2 7B(右图)相匹配的性能,在知识密集性任务上,DeepSeekMoE 16B 的优势尤其突出

· 我们同时还对 DeepSeekMoE 16B 进行了SFT以构建了一个对话模型,评测显示,其同样能够与基于 DeepSeek 7B 和 LLaMA2 7B 构建的对话模型性能相匹配

图10:DeepSeekMoE 16B SFT后模型效果对比

DeepSeekMoE 145B (持续研究)

我们正在持续研究更大规模的 DeepSeekMoE 模型,基于 200B 语料训练得到的初步实验结果显示,DeepSeekMoE 145B 依旧保持对 GShard 137B 的极大领先优势,同时能够以 28.5%甚至18.2%) 的计算量达到与 DeepSeek 67B Dense 模型相匹配的性能。
图11DeepSeekMoE 145B 早期实验结果

NOTE:DeepSeekMoE 145B 正在持续开发中,在未来,我们同样会将其开源给研究社区。

   关于DeepSeek

DeepSeek始终坚持:

长期主义,专注于人工智能的底层技术和基础研究,不断挑战前沿性难题。

开放共享,以开源汇聚更多的创造力和生产力,促进应用的创新与生态的繁荣。

怀抱雄心,致力于探索AGI的本质,带着对世界的好奇,务实地实现浪漫的目标。

我们会持续为开源社区贡献更多优秀的作品,并共享我们的研究成果,不断发掘AI领域新的惊喜。


——完——

扫码即可加入 DeepSeek 官方群聊
如果你想参与构建下一代通用人工智能(AGI),那么请不要犹豫,加入 DeepSeek,与我们共同在 AGI 征程上“深度求索”吧!简历投递邮箱:talent@deepseek.com(备注:岗位-姓名-电话)


修改于
继续滑动看下一个
DeepSeek
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存