继11月初发布 Coder 代码模型之后,我们在一个月之内又发布了通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测,访问 chat.deepseek.com 或者扫描以下二维码,立即使用。相比开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。
DeepSeek 已同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。无需申请,免费商用。Hugging Face 首页:https://huggingface.co/deepseek-aiGitHub 仓库:https://github.com/deepseek-ai/DeepSeek-LLM
此外,我们还将训练中途的9个模型 checkpoints 开放下载。
在公开评测榜单成绩领先,只是检验大模型能力的第一道关卡。但模型是否在更广泛、更新、更难的问题上表现更好,才是 AGI 真正需要关注的事情。
故而,为进一步验证模型在真实样本外的泛化效果,我们采纳一系列从未见过的考试题,覆盖编程、数学、指令跟随等方面,相对客观、公平地评价大模型的真实能力。GSM8k 和 MATH 是评估大型语言模型数学能力的标准基准,但存在过度拟合这些数据集的风险。故而,我们选择 xAI 使用的2023年匈牙利高中数学考试题,来评估模型的样本外的数学泛化能力。图2:数学能力样本内外对比,横轴:匈牙利高中数学考试分数,纵轴:GSM8K分数可以看到,本次发布的 DeepSeek LLM 67B 模型位于右上角,在样本内数学能力(纵轴 GSM8K)排名第三,仅次于 Claude2 和 GPT-4,但在样本外数学能力(横轴 Exam Score)排名第二,仅次于 GPT-4。大模型的智能,是否真正符合“人”直觉智能?这就是指令跟随能力测试题的设计目的。我们使用了 Google 在2023年11月15日公开的指令跟随评测集,是完全“新题”的同时,也能测试大模型真正“听话”程度。结果如下图,DeepSeek LLM 67B 在一众开源模型中明显领先,拉近了与智能标杆 GPT-4 的距离。LeetCode 全球竞赛,作为码农实力检验的最佳竞赛之一,每周更新全新测试题,是真正意义上样本外的 HumanEval 测试题。我们用今年7月2号到11月12号之间竞赛题(即第351-372周竞赛,双周竞赛108-117中的问题)作为考试题进行测试,竞赛排序结果如下图。可以看到,来自 DeepSeek 的两大模型遥遥领先,包括本次发布的通用领域的 DeepSeek LLM 67B 和11月初发布的 DeepSeek Coder 33B。从今天起,把你刷下 LeetCode 全球排位的,说不定就是 DeepSeek 竞赛选手!最后,我们在开放域上的一些脑洞大开的难题,进一步观测模型到底是知其然,还是知其所以然。例如,看一下这道常识性知识和推理题目,DeepSeek LLM 67B 回答表现明显优于GPT3.5 turbo。
DeepSeek LLM 67B(上),GPT3.5turbo(下)
再来看看 DeepSeek LLM 67B 模型的中文知识储备和创造力~DeepSeek LLM 67B(上) ,GPT3.5 turbo (下)好奇心,驱使我们不断探索、大胆求证、勇于进取。耐心,保证我们更加专注于长远的目标,不囿于眼前的喧嚣。不积跬步无以至千里,在“百模大战”的当今时代,DeepSeek 始终致力于探索 AGI 的本质,稳步前行,务实地实现浪漫的目标。我们会为开源社区持续带来更优秀的开源作品。让我们在这个激动人心的时代,共同推进 AGI 的到来!如果你想参与构建下一代通用人工智能(AGI),那么请不要犹豫,加入 DeepSeek,与我们共同在 AGI 征程上“深度求索”吧!简历投递邮箱:talent@deepseek.com(备注:岗位-姓名-电话)