查看原文
其他

Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作

Aitrainee AI进修生
2024-12-28

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

最近发布了很多模型,甚至 Deep Seek 也发布了一个新模型,Deep Seek V2.5。Deep Seek是一家提供非常出色的编码和通用开源模型的公司。

编码模型叫做 Deep Seek Coder,而通用模型则直接称为 Deep Seek。它们也是价格最便宜的模型之一。最新版本的模型是 V2,但现在他们发布了一个新模型,叫做 Deep Seek V2.5。

据说这个 Deep Seek V2.5 是编码模型和通用模型的结合。他们表示,Deep Seek V2.5 是 Deep Seek V2 0628 和 Deep Seek Coder V2 0724 的强大组合。

他们还声称该模型现在具有增强的写作能力、更好的指令遵循能力,以及改进的人类偏好对齐功能,非常棒。

基本上,这个模型现在擅长处理通用任务和编码任务,因为它是两个专家模型的结合体。它还提供了基准测试,所以我们来看看。

在几乎所有的基准测试中,它的得分都比之前的 Deep Seek 模型要高,这很棒。

此外,这个模型是一个专家模型的混合体,拥有总计 2360 亿个参数,其中活动参数约为 210 亿个,令人印象深刻。他们在 Hugging Face 上发布了模型的开源权重,也可以在 ollama 上使用。

除此之外,你还可以在 Deep Seek 聊天平台上免费试用,没有任何限制。让我们去那里测试一下。我将使用这 13 个问题来进行测试,让我们开始看看它的表现。

第一个问题是:名字以 "lia" 结尾的国家的首都是哪个城市?这里指的是国家名称。答案应该是 Canara 或任何与 "lia" 押韵的国家首都。我们发送问题,看看答案如何。答案出来了,但不正确,所以这次失败了。

接下来的问题是:与用来描述高大植物的单词押韵的数字是多少?答案应该是 3。我们发送问题,看看答案如何。答案出来了,

正确,所以这次成功了。

接下来的问题是:John 有三个装有铅笔的盒子,每个盒子里有 12 支铅笔,John 一共有多少支铅笔?答案应该是 36。我们发送问题,看看答案如何。答案出来了,这次正确,所以标记为通过。

接下来的问题是:Lucy 拥有的糖果数量是 Mike 的两倍,如果 Mike 有七块糖果,Lucy 有多少块?答案应该是 14。我们发送问题,看看答案如何。答案出来了,正确,所以这次也通过了。

接下来的问题是:3307 是质数吗?答案应该是 "是"。我们发送问题,看看答案如何。答案出来了,也正确,所以这次也通过了。

接下来的问题是:我有两个苹果,然后又买了两个。我用其中的两个苹果做了一个派,吃掉了一半派后,我还剩下多少个苹果?答案应该是两个。我们发送问题,看看答案如何。答案出来了,也正确,所以这次也通过了。

接下来的问题是:Sally 是一个女孩,她有三个兄弟,她的每个兄弟都有同样的两个姐妹,Sally 有多少个姐妹?答案应该是一个。我们发送问题,看看答案如何。答案出来了,明显不正确,所以这次失败了。

接下来的问题是:如果一个正六边形的短对角线为 64,那么长对角线是多少?答案应该是 73.9。我们发送问题,看看答案如何。答案出来了,也不正确,所以这次也失败了。

接下来的问题是编程问题,第一个问题是:创建一个带有按钮的 HTML 页面,当点击按钮时爆发彩纸。可以使用 CSS 和 JS。我们发送问题,看看代码如何。我们预览了页面,一切正常,所以标记为通过。

接下来的问题是:创建一个 Python 程序,打印用户输入的接下来的 X 个闰年。我们发送问题,看看代码如何。代码运行良好,没有问题,所以标记为通过。

接下来的问题是:生成蝴蝶的 SVG 代码。我们发送问题,看看生成的内容如何。预览后效果很好,看起来确实像蝴蝶,所以标记为通过。

接下来的问题是:为一家 AI 公司创建一个着陆页面,该页面应有四个部分:页眉、横幅、功能和联系我们。页面应看起来简洁现代。可以使用 HTML、CSS 和 JS。我们发送问题,看看代码如何。页面预览效果非常好,没有问题,所以标记为通过。

最后一个问题是:在终端上实现一个运行的生命游戏,使用 Python 编写。我们发送问题,看看代码如何。代码运行不成功,出现了错误,所以标记为失败。

整体表现不错,在 13 个问题中失败了 4 个,考虑到推理成本如此便宜,这很不错。每百万个 token 仅需 30 美分,而且还是开源的,所以如果你想要本地托管它,也完全可以做到。

有一个问题是,单次零测试并不能说明一致性。模型并不是每次的结果令人满意,比如蝴蝶SVG代码:

Deep Seek 一直表现出色,Aider 也更新了这个模型的基准测试,表现同样出色。

▲ https://aider.chat/docs/leaderboards/


往期推荐



Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?

ClaudeDev(已升级):Ollama、Groq全面支持!轻松集成AI工作流

我的世界中诞生AI文明 !1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场!为AI代理提供100+集成工具,代码、搜索、API全搞定

Aider (升级版):最强AI编程助手新版发布!更强大、支持Shell命令、剪切和缓存!

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2.5

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

修改于
继续滑动看下一个
AI进修生
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存