Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Original Aitrainee AI进修生

2024-12-28

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

最近发布了很多模型，甚至 Deep Seek 也发布了一个新模型，Deep Seek V2.5。Deep Seek是一家提供非常出色的编码和通用开源模型的公司。

编码模型叫做 Deep Seek Coder，而通用模型则直接称为 Deep Seek。它们也是价格最便宜的模型之一。最新版本的模型是 V2，但现在他们发布了一个新模型，叫做 Deep Seek V2.5。

据说这个 Deep Seek V2.5 是编码模型和通用模型的结合。他们表示，Deep Seek V2.5 是 Deep Seek V2 0628 和 Deep Seek Coder V2 0724 的强大组合。

他们还声称该模型现在具有增强的写作能力、更好的指令遵循能力，以及改进的人类偏好对齐功能，非常棒。

基本上，这个模型现在擅长处理通用任务和编码任务，因为它是两个专家模型的结合体。它还提供了基准测试，所以我们来看看。

在几乎所有的基准测试中，它的得分都比之前的 Deep Seek 模型要高，这很棒。

此外，这个模型是一个专家模型的混合体，拥有总计 2360 亿个参数，其中活动参数约为 210 亿个，令人印象深刻。他们在 Hugging Face 上发布了模型的开源权重，也可以在 ollama 上使用。

除此之外，你还可以在 Deep Seek 聊天平台上免费试用，没有任何限制。让我们去那里测试一下。我将使用这 13 个问题来进行测试，让我们开始看看它的表现。

第一个问题是：名字以 "lia" 结尾的国家的首都是哪个城市？这里指的是国家名称。答案应该是 Canara 或任何与 "lia" 押韵的国家首都。我们发送问题，看看答案如何。答案出来了，但不正确，所以这次失败了。

接下来的问题是：与用来描述高大植物的单词押韵的数字是多少？答案应该是 3。我们发送问题，看看答案如何。答案出来了，

正确，所以这次成功了。

接下来的问题是：John 有三个装有铅笔的盒子，每个盒子里有 12 支铅笔，John 一共有多少支铅笔？答案应该是 36。我们发送问题，看看答案如何。答案出来了，这次正确，所以标记为通过。

接下来的问题是：Lucy 拥有的糖果数量是 Mike 的两倍，如果 Mike 有七块糖果，Lucy 有多少块？答案应该是 14。我们发送问题，看看答案如何。答案出来了，正确，所以这次也通过了。

接下来的问题是：3307 是质数吗？答案应该是 "是"。我们发送问题，看看答案如何。答案出来了，也正确，所以这次也通过了。

接下来的问题是：我有两个苹果，然后又买了两个。我用其中的两个苹果做了一个派，吃掉了一半派后，我还剩下多少个苹果？答案应该是两个。我们发送问题，看看答案如何。答案出来了，也正确，所以这次也通过了。

接下来的问题是：Sally 是一个女孩，她有三个兄弟，她的每个兄弟都有同样的两个姐妹，Sally 有多少个姐妹？答案应该是一个。我们发送问题，看看答案如何。答案出来了，明显不正确，所以这次失败了。

接下来的问题是：如果一个正六边形的短对角线为 64，那么长对角线是多少？答案应该是 73.9。我们发送问题，看看答案如何。答案出来了，也不正确，所以这次也失败了。

接下来的问题是编程问题，第一个问题是：创建一个带有按钮的 HTML 页面，当点击按钮时爆发彩纸。可以使用 CSS 和 JS。我们发送问题，看看代码如何。我们预览了页面，一切正常，所以标记为通过。

接下来的问题是：创建一个 Python 程序，打印用户输入的接下来的 X 个闰年。我们发送问题，看看代码如何。代码运行良好，没有问题，所以标记为通过。

接下来的问题是：生成蝴蝶的 SVG 代码。我们发送问题，看看生成的内容如何。预览后效果很好，看起来确实像蝴蝶，所以标记为通过。

接下来的问题是：为一家 AI 公司创建一个着陆页面，该页面应有四个部分：页眉、横幅、功能和联系我们。页面应看起来简洁现代。可以使用 HTML、CSS 和 JS。我们发送问题，看看代码如何。页面预览效果非常好，没有问题，所以标记为通过。

最后一个问题是：在终端上实现一个运行的生命游戏，使用 Python 编写。我们发送问题，看看代码如何。代码运行不成功，出现了错误，所以标记为失败。

整体表现不错，在 13 个问题中失败了 4 个，考虑到推理成本如此便宜，这很不错。每百万个 token 仅需 30 美分，而且还是开源的，所以如果你想要本地托管它，也完全可以做到。

有一个问题是，单次零测试并不能说明一致性。模型并不是每次的结果令人满意，比如蝴蝶SVG代码：

Deep Seek 一直表现出色，Aider 也更新了这个模型的基准测试，表现同样出色。

▲ https://aider.chat/docs/leaderboards/

往期推荐

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

ClaudeDev（已升级）：Ollama、Groq全面支持！轻松集成AI工作流

我的世界中诞生AI文明！1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场！为AI代理提供100+集成工具，代码、搜索、API全搞定

Aider （升级版）：最强AI编程助手新版发布！更强大、支持Shell命令、剪切和缓存！

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

参考链接：

[1] huggingface：https://huggingface.co/deepseek-ai/DeepSeek-V2.5

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

修改于

继续滑动看下一个

AI进修生

向上滑动看下一个

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Aitrainee | 公众号：AI进修生

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！

生成图片，分享到微信朋友圈

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Aitrainee | 公众号：AI进修生

您可能也对以下帖子感兴趣