深度求索发布 67B 大模型，以「开源」加速 AGI 时代到来

Original DeepSeek DeepSeek

2024-09-10

因为开源，所以信赖；因为体验，所以惊喜

继11月初发布 Coder 代码模型之后，我们在一个月之内又发布了通用大语言模型：DeepSeek LLM 67B。模型已完全开源，同时服务已经全面开放内测，访问 chat.deepseek.com 或者扫描以下二维码，立即使用。

相比开源的同级别模型 LLaMA2 70B，DeepSeek LLM 67B 在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力（如：HumanEval、MATH、CEval、CMMLU）。

因为开源，所以信赖

DeepSeek 已同时开源 7B 和 67B 的两种规模模型，均含基础模型（base）和指令微调模型（chat）。无需申请，免费商用。

Hugging Face 首页：https://huggingface.co/deepseek-ai

GitHub 仓库：https://github.com/deepseek-ai/DeepSeek-LLM

此外，我们还将训练中途的9个模型 checkpoints 开放下载。

因为体验，所以惊喜

在公开评测榜单成绩领先，只是检验大模型能力的第一道关卡。但模型是否在更广泛、更新、更难的问题上表现更好，才是 AGI 真正需要关注的事情。

故而，为进一步验证模型在真实样本外的泛化效果，我们采纳一系列从未见过的考试题，覆盖编程、数学、指令跟随等方面，相对客观、公平地评价大模型的真实能力。

测试1

数学，智力水平的试金石

GSM8k 和 MATH 是评估大型语言模型数学能力的标准基准，但存在过度拟合这些数据集的风险。故而，我们选择 xAI 使用的2023年匈牙利高中数学考试题，来评估模型的样本外的数学泛化能力。

图2：数学能力样本内外对比，横轴：匈牙利高中数学考试分数，纵轴：GSM8K分数

可以看到，本次发布的 DeepSeek LLM 67B 模型位于右上角，在样本内数学能力（纵轴 GSM8K）排名第三，仅次于 Claude2 和 GPT-4，但在样本外数学能力（横轴 Exam Score）排名第二，仅次于 GPT-4。

测试2

指令跟随，智能对齐的比武台

大模型的智能，是否真正符合“人”直觉智能？这就是指令跟随能力测试题的设计目的。我们使用了 Google 在2023年11月15日公开的指令跟随评测集，是完全“新题”的同时，也能测试大模型真正“听话”程度。

结果如下图，DeepSeek LLM 67B 在一众开源模型中明显领先，拉近了与智能标杆 GPT-4 的距离。

图3：Google 指令跟随结果对比

测试3

LeetCode 周赛，编程的竞技场

LeetCode 全球竞赛，作为码农实力检验的最佳竞赛之一，每周更新全新测试题，是真正意义上样本外的 HumanEval 测试题。

我们用今年7月2号到11月12号之间竞赛题（即第351-372周竞赛，双周竞赛108-117中的问题）作为考试题进行测试，竞赛排序结果如下图。可以看到，来自 DeepSeek 的两大模型遥遥领先，包括本次发布的通用领域的 DeepSeek LLM 67B 和11月初发布的 DeepSeek Coder 33B。

图4：LeetCode 周赛结果对比

从今天起，把你刷下 LeetCode 全球排位的，说不定就是 DeepSeek 竞赛选手！

测试4

开放域推理，复杂问题压测

最后，我们在开放域上的一些脑洞大开的难题，进一步观测模型到底是知其然，还是知其所以然。

例如，看一下这道常识性知识和推理题目，DeepSeek LLM 67B 回答表现明显优于GPT3.5 turbo。

DeepSeek LLM 67B（上），GPT3.5turbo（下）

再来看看 DeepSeek LLM 67B 模型的中文知识储备和创造力~

DeepSeek LLM 67B（上），GPT3.5 turbo （下）

关于 DeepSeek

好奇心，驱使我们不断探索、大胆求证、勇于进取。耐心，保证我们更加专注于长远的目标，不囿于眼前的喧嚣。

不积跬步无以至千里，在“百模大战”的当今时代，DeepSeek 始终致力于探索 AGI 的本质，稳步前行，务实地实现浪漫的目标。

我们会为开源社区持续带来更优秀的开源作品。让我们在这个激动人心的时代，共同推进 AGI 的到来！

——完——

扫码即可加入 DeepSeek 官方群聊

如果你想参与构建下一代通用人工智能（AGI），那么请不要犹豫，加入 DeepSeek，与我们共同在 AGI 征程上“深度求索”吧！简历投递邮箱：talent@deepseek.com（备注：岗位-姓名-电话）

↓点击“阅读原文”，抢先加入内测

修改于

继续滑动看下一个

DeepSeek

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

深度求索发布 67B 大模型，以「开源」加速 AGI 时代到来

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

深度求索发布 67B 大模型，以「开源」加速 AGI 时代到来

您可能也对以下帖子感兴趣