查看原文
其他

SiliconCloud上线推理加速版Qwen2.5-7B/14B/32B/72B

SiliconCloud 硅基流动
2024-09-30
今天凌晨,阿里通义千问团队发布了Qwen2.5系列模型,在基准评估中取得显著提升。该系列模型的四个主要更新包括:支持最长可达8K token的长文本生成;大幅提升了对结构化数据的理解能力;生成结构化输出(尤其是JSON格式)更加可靠;在多样化的系统提示下的表现得到了加强,这有助于有效进行角色扮演。
一如既往,硅基流动SiliconCloud率先上线了推理加速版的Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B。

先来直观感受一下Qwen2.5-7B在SiliconCloud上推理加速后的效果。
Playground体验传送门:
• https://cloud.siliconflow.cn/s/Qwen2_5_72B

• https://cloud.siliconflow.cn/s/Qwen2_5_32B

• https://cloud.siliconflow.cn/s/Qwen2_5_14B

• https://cloud.siliconflow.cn/s/Qwen2_5_7B
API文档:
https://docs.siliconflow.cn/reference/chat-completions-1
与其他各类开源大模型一样,开发者在本地运行Qwen2.5系列模型有较高部署门槛与成本。现在,SiliconCloud上线Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B后,免去了开发部署的门槛,开发者可以轻松调用相应的API服务到实际应用中。
更重要的是,SiliconCloud平台上的Qwen2.5系列输出速度极快,能为你的生成式AI应用带来更高效的用户体验。

目前,Qwen2.5-7B可免费使用,而Qwen2.5-72B与此前发布的Qwen2-72B模型保持一致,仅需¥4.13/1M token,Qwen2.5-32B仅需¥1.26/M token,
Qwen2.5-14B仅需¥0.7/M token

此外,平台还支持开发者自由对比体验各类大模型,最终为自己的生成式AI应用选择最佳实践。
很快,SiliconCloud还将上线Qwen2-VL-72B等模型。

Qwen2.5系列模型评测表现及亮点


大语言模型性能评估主要考察在自然语言理解、通用问答、代码、数学、科学知识、推理及多语言能力等方面的表现。
与上一代模型Qwen2系列模型相比,Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B具有以下特点:
  1. Qwen2.5-14B&32B为Qwen2.5系列新增的中型规模模型:Qwen2.5-32B的整体表现超越了Qwen2-72B,Qwen2.5-14B则领先于Qwen2-57B-A14B。

  2. 更大规模、更高质量的预数据训练集:预训练数据集规模从7T token扩展到了18T token。

  3. 知识储备升级:Qwen2.5的知识涵盖更广。在MMLU基准中,相较于Qwen2,Qwen2.5-7B&72B的得分分别从70.3提升到74.2,从84.2提升到86.1。此外,Qwen2.5还在GPQA、MMLU-Pro、MMLU-redux和ARC-c等多个基准测试中有明显提升。

  4. 代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的得分分别是55.5、75.1和88.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。

  5. 数学能力提升:引入了Qwen2-math的技术后,Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中,Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了75.5/83.1。

  6. 更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从48.1大幅提升至81.2,MT-Bench得分也从9.12提升到了9.35,与之前的Qwen2-72B相比提升显著。

  7. 其他核心能力提升:Qwen2.5在指令跟随、生成长文本(从1K升级到 8K token)、理解 结构化数据(如表格),以及生成结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的系统提示,用户可以给模型设置特定角色或自定义条件。

Qwen2.5-72B指令微调模型与基础模型
Qwen2.5-72B是一个拥有720亿参数的稠密decoder-only语言模型,官方将该模型与领先的开源模型如Llama-3.1-70B、Mistral-Large-V2和DeepSeek-V2.5进行了基准测试对比。Qwen2.5-72B在多个基准测试中展示了经过指令调优的版本的综合结果,评估了模型的能力和人类偏好。
Qwen2.5-72B-Instruct模型表现出色,甚至在多个关键任务中超越了更大参数规模的Llama-3.1-405B。Qwen2.5-72B-Instruct 在数学(MATH:83.1)、编程(LiveCodeBench:55.5)和聊天(Arena-Hard:81.2)方面表现出色。与基础模型 Qwen2.5-72B 和其前代Qwen2-72B-Instruct 相比,Qwen2.5-72B-Instruct在所有任务上都展现出了全面的改进。
除了指令微调的模型之外,Qwen2.5-72B的基础模型在同类任务中表现出色,广泛涵盖了各种任务,尤其在参数仅为Llama-3-405B的五分之一的情况下,达到了与之相当的效果。
此外,与前代Qwen2-72B相比,Qwen2.5-72B在几乎所有基准评估中都显示出显著改进,尤其是在通用任务、数学和编程挑战方面表现出色。
Qwen2.5-14B&32B指令微调模型与基础模型
Qwen2.5-32B-Instruct在大多数任务中表现优于同类规模的模型。与GPT-4o-mini相比,Qwen2.5-14B-Instruct也在所有任务中展现出了相当的竞争力。


Qwen2.5-14B模型在多项任务中表现稳健,尤其是在像MMLU和BBH这样的通用任务上,分别取得了79.7分和78.2分,超越了许多规模更大的竞品。

Qwen2.5-32B表现尤为出色,甚至优于参数更大的同类模型,特别是在数学和代码等挑战性任务中,Qwen2.5-32B大幅领先其前身Qwen1.5-32B,在MATH任务中获得57.7分,在MBPP中获得84.5分。

Qwen2.5-7B指令微调模型与基础模型
在小规模参数模型Qwen2.5-7B-Instruct性能表现上,除IFeval任务外都显著优于Gemma2-9b-IT和Llama3.1-8B-Instruct。值得注意的是,Qwen2.5-7B-Instruct在数学(MATH:75.5)和编程(HumanEval:84.8)方面表现出明显的优势。
Qwen2.5-7B基础模型则在多个基准测试中超越了其前代和同类产品,尽管其非嵌入参数较少。它在各种任务中表现出显著改进,MMLU通用基准得分为74.2,数学任务如 MATH得分为49.8,编码任务如HumanEval得分为57.9。


Token工厂SiliconCloud

Qwen2.5(7B)、Llama3.1(8B)等免费用


作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

除了Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B,SiliconCloud已上架包括FLUX.1DeepSeek-V2.5InternLM2.5-20B-ChatBCE、BGESenseVoice-SmallLlama-3.1DeepSeek-Coder-V2SD3 MediumGLM-4-9B-Chat、InstantID在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。
其中,Qwen2.5(7B)、Llama3.1(8B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。
近期更新

 硅基流动成立这一年
• SiliconCloud上线Flux.1[dev]
• SiliconCloud上线DeepSeek-V2.5
• SiliconCloud更新日志0912:新增六大功能
• 一针见血,硅基流动发布毒舌AI“智说新语”
• 你与AI应用开发之间,只隔着一个API密钥

让超级产品开发者实现“Token自由”

邀请好友体验SiliconCloud
狂送2000万Token/人

邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud

扫码加入用户交流群
继续滑动看下一个
硅基流动
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存