查看原文
其他

开源VS闭源:大模型发展路在何方


北京时间9月19日凌晨阿里巴巴史上最大规模的开源发布包含基础模型Qwen2.5用于编码的Qwen2.5-Coder和用于数学的Qwen2.5-Math刷新业界纪录引发关注

图源:Qwen X平台截图

Qwen2.5有何不同


Qwen2.5虽然只有720亿参数但在多个基准测试击败了Meta拥有4050亿参数的Llama-3.1超过了Mistral最新开源的Large-V2成为目前最强大参数的开源模型之一
本次开源的三类模型共有10多个版本适用于个人、企业以及移动端、PC等不同人群、不同业务场景

Qwen2.5-Coder-7B指令微调版本在众多测试基准中获得较好成绩。图源:Qwen
Qwen2.5系列支持超过29种主流语言语言模型支持128K tokens并能生成最多8K tokens的内容Qwen2.5系列的预训练数据大幅度增长达到了18万亿tokens超过了Llama-3.1的15万亿成为目前训练数据最多的开源模型
此外Qwen2.5在指令跟踪生成长文本(从1k增加到超过8K标记)理解结构化数据(例如表格)以及生成结构化输出(尤其是JSON)等方面实现了显著改进同时对系统提示的多样性更具弹性增强了聊天机器人的角色扮演实施和条件设置能力

开源模型VS闭源模型

谁更胜一筹?


在大语言模型领域选择开源还是闭源一直都是颇具争议的话题众多企业做出了不同选择
其中Meta、阿里云选择了开源OpenAI、百度选择了极致闭源而更多大模型公司选择了中间路线即模型“低配版”开源更高参数量的模型闭源比如谷歌Gemini多模态模型闭源但单模态Gemma语言模型开源法国的Mistral AI最初一直是开源模型的拥趸但获得微软投资后其新发布的旗舰级大模型 Mistral Large选择了闭源百川智能的前两代大模型均开但Baichuan 3则完全闭源智谱AI在今年1月发布GLM-4时同样选择了闭源模式

2024世界人工智能大会现场图源:观察者网
阿里云的负责人表示 大模型的训练和迭代成本极高绝大部分的AI开发者和中小企业都无法负担Meta、阿里云等推动的大模型开源风潮让开发者不必从头训练模型还把模型选择的主动权交给了开发者大大加速了大模型的应用落地进程
而百度创始人、董事长兼首席执行官李彦宏认为模型开源与代码开源不同无法做到众人拾柴火焰高激烈竞争环境中商业化闭源模型“最能打”

让大模型为人类服务


有专家指出未来开源和闭源的大模型会并存和互补正如百川智能CEO王小川所说开源和闭源并不只能二选一从toB角度来看开源闭源都需要他预计未来80%的企业会用到开源大模型闭源可以给剩下的20%提供服务二者不是竞争关系而是在不同产品中互补的关系

2024世界人工智能大会现场图源:观察者网
关于大模型开源的安全风险“AI教父”杰弗里·辛顿呼吁政府和大公司应投入更多资源进行安全研究以确保AI技术发展尽量避免失控此外李彦宏也表示AI永远只是工具不是人类的竞争对手我们构建和应用人工智能技术是为了满足人的需求增强人的能力让人类的生活更美好




点击文末“阅读原文”

进入世界互联网大会官网





相关阅读

AI基建,加速!

3D打印,“打”出万亿市场

AIGC出书了,还上了新书榜

撰文:曾震宇、孙新武  编辑/排版:李汶键 统筹:李政葳

参考|新华网、中国青年网、南方都市报、观察者网、搜狐科技

扫描二维码

关注我们


戳我~  一键进入官网

继续滑动看下一个
世界互联网大会
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存