Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
最近发布了很多模型,甚至 Deep Seek 也发布了一个新模型,Deep Seek V2.5。Deep Seek是一家提供非常出色的编码和通用开源模型的公司。
编码模型叫做 Deep Seek Coder,而通用模型则直接称为 Deep Seek。它们也是价格最便宜的模型之一。最新版本的模型是 V2,但现在他们发布了一个新模型,叫做 Deep Seek V2.5。
据说这个 Deep Seek V2.5 是编码模型和通用模型的结合。他们表示,Deep Seek V2.5 是 Deep Seek V2 0628 和 Deep Seek Coder V2 0724 的强大组合。
他们还声称该模型现在具有增强的写作能力、更好的指令遵循能力,以及改进的人类偏好对齐功能,非常棒。
基本上,这个模型现在擅长处理通用任务和编码任务,因为它是两个专家模型的结合体。它还提供了基准测试,所以我们来看看。
在几乎所有的基准测试中,它的得分都比之前的 Deep Seek 模型要高,这很棒。
此外,这个模型是一个专家模型的混合体,拥有总计 2360 亿个参数,其中活动参数约为 210 亿个,令人印象深刻。他们在 Hugging Face 上发布了模型的开源权重,也可以在 ollama 上使用。
除此之外,你还可以在 Deep Seek 聊天平台上免费试用,没有任何限制。让我们去那里测试一下。我将使用这 13 个问题来进行测试,让我们开始看看它的表现。
第一个问题是:名字以 "lia" 结尾的国家的首都是哪个城市?这里指的是国家名称。答案应该是 Canara 或任何与 "lia" 押韵的国家首都。我们发送问题,看看答案如何。答案出来了,但不正确,所以这次失败了。
接下来的问题是:与用来描述高大植物的单词押韵的数字是多少?答案应该是 3。我们发送问题,看看答案如何。答案出来了,
正确,所以这次成功了。
接下来的问题是:John 有三个装有铅笔的盒子,每个盒子里有 12 支铅笔,John 一共有多少支铅笔?答案应该是 36。我们发送问题,看看答案如何。答案出来了,这次正确,所以标记为通过。
接下来的问题是:Lucy 拥有的糖果数量是 Mike 的两倍,如果 Mike 有七块糖果,Lucy 有多少块?答案应该是 14。我们发送问题,看看答案如何。答案出来了,正确,所以这次也通过了。
接下来的问题是:3307 是质数吗?答案应该是 "是"。我们发送问题,看看答案如何。答案出来了,也正确,所以这次也通过了。
接下来的问题是:我有两个苹果,然后又买了两个。我用其中的两个苹果做了一个派,吃掉了一半派后,我还剩下多少个苹果?答案应该是两个。我们发送问题,看看答案如何。答案出来了,也正确,所以这次也通过了。
接下来的问题是:Sally 是一个女孩,她有三个兄弟,她的每个兄弟都有同样的两个姐妹,Sally 有多少个姐妹?答案应该是一个。我们发送问题,看看答案如何。答案出来了,明显不正确,所以这次失败了。
接下来的问题是:如果一个正六边形的短对角线为 64,那么长对角线是多少?答案应该是 73.9。我们发送问题,看看答案如何。答案出来了,也不正确,所以这次也失败了。
接下来的问题是编程问题,第一个问题是:创建一个带有按钮的 HTML 页面,当点击按钮时爆发彩纸。可以使用 CSS 和 JS。我们发送问题,看看代码如何。我们预览了页面,一切正常,所以标记为通过。
接下来的问题是:创建一个 Python 程序,打印用户输入的接下来的 X 个闰年。我们发送问题,看看代码如何。代码运行良好,没有问题,所以标记为通过。
接下来的问题是:生成蝴蝶的 SVG 代码。我们发送问题,看看生成的内容如何。预览后效果很好,看起来确实像蝴蝶,所以标记为通过。
接下来的问题是:为一家 AI 公司创建一个着陆页面,该页面应有四个部分:页眉、横幅、功能和联系我们。页面应看起来简洁现代。可以使用 HTML、CSS 和 JS。我们发送问题,看看代码如何。页面预览效果非常好,没有问题,所以标记为通过。
最后一个问题是:在终端上实现一个运行的生命游戏,使用 Python 编写。我们发送问题,看看代码如何。代码运行不成功,出现了错误,所以标记为失败。
整体表现不错,在 13 个问题中失败了 4 个,考虑到推理成本如此便宜,这很不错。每百万个 token 仅需 30 美分,而且还是开源的,所以如果你想要本地托管它,也完全可以做到。
有一个问题是,单次零测试并不能说明一致性。模型并不是每次的结果令人满意,比如蝴蝶SVG代码:
Deep Seek 一直表现出色,Aider 也更新了这个模型的基准测试,表现同样出色。
▲ https://aider.chat/docs/leaderboards/
往期推荐
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~