查看原文
其他

小红花大语言模型排行榜(2024年11月):国产第一是豆包

小红花 小红花技术领袖
2024-12-31

这是小红花技术领袖俱乐部旗下内容平台「小红花·文摘」发布2024年11月的大语言模型排行榜,前三名是GPT、Llama和Claude。全文包括排行榜详情,排行依据及统计说明,解释与其它排行榜的不同之处,等。

本榜单仅是对各种大语言模型在当下的流行度(热门程度,或被采用/使用程度)进行排名,与它们本身的特性(如优缺点、适用性、功能、性能、价格、授权机制和厂商等)无关。

11月标题:国产第一是豆包

首先来看排行榜的前20名(以首位为100分计算其它元素的相对得分):

名次大语言模型得分
1GPT100.00
2Llama49.43
3Claude37.05
4Gemini34.30
5o127.71
6豆包11.9
7文心9.79
8千问7.11
9Granite5.00
10Phi4.83
11Grok4.35
12Orion4.12
13deepseek3.84
14Nemotron3.04
15GLM2.76
16Mistral2.66
17混元2.37
18Gemma2.28
19讯飞星火1.97
20盘古1.97

从表中可见,GPT王者地位仍然非常稳固,首位度很高,堪称遥遥领先;同样的,Llama在开源模型里也是不可撼动的存在。有赖火山引擎的大力推广,豆包已经成为国产第一,尽管和其它厂商的产品没有拉开很大距离,但字节跳动是国内唯一仍然在大力投入的互联网厂商,估计后面会进一步拉大与其它对手的差距,预计半年后将能够确立国内绝对第一的位置。

在大语言模型(LLM)上烧钱实在太快了,每一轮更新都是让人绝望的成本。Deepseek 号称是大厂外唯一一家储备万张A100芯片的公司,也是引发中国大模型价格战的源头,有AI界的拼多多之称。现在国内第一轮就跟进的创业公司已经只剩下GLM的厂商智谱还在前20强了。

以上是本月小红花大语言模型排行榜的全景图,往后排列的大语言模型是:Pixtral、Molmo、Cohere、Yi、Moonshot、Baichuan、InternLM、MiniCPM、ChipNemo、Abab6、日日新大模型、Tulu、WizardLM、Alpaca、TigerBot,等。尽管我们试图统计的模型有将近100个,但是实在上在开发者内容中当过「主角」的已经是屈指可数,LLM的竞争比想象中的更加残酷。

排行依据和统计说明

排行依据

小红花技术领袖俱乐部旗下内容平台「小红花·文摘」聚合全球(以中文、英文为主,基于AI进行摘要和翻译)开发者博客的准实时内容(延迟通常不超过1小时),目前每月内容数量接近1万篇,绝大部分内容为编程相关的硬核文章,通过分析文章涉及的大语言模型,并据此进行统计,发现大语言模型的流行度差异性、聚集度基本对得上,因此作为一个大语言模型流行度指标榜单是可信的。

统计说明

1、整体而言,小红花大语言模型排行榜就是统计时间范围之内各大语言模型相关的内容数量,在乘以针对不同大语言模型制定的系数之后,各大语言模型内容在总数量上的得分及排行。

2、考虑到小红花大语言模型库排行榜刚刚开始制订,未来可能会有比较大的调整和修改,暂时不会公开算法和系数。

3、为确保尽可能地统计不同大语言模型,我们对大语言模型的别名也进行了归一化处理,如GLM包括了ChatGLM、ChatGLM3等、千问包括了qwen等。

特此说明。

与其它排行榜的不同之处

1、 首先是量的不同,等其它榜单大多统计不同大语言模型相关内容的总量,而小红花大语言模型排行榜采用的数据是1年维度内的中短期内容为基数,1个月维度内的新内容为参照,能够快速反映大语言模型的流行度变化。

2、 然后是质的不同,因为小红花大语言模型排行榜大约有一半数据源是中文的,所以会和基于英文的排行榜有比较大的差异。

3、 最后统计口径也有比较大的差异,小红花大语言模型排行榜统计内容时间窗口短,选择受到厂商影响更少、噪音更少的博客内容,和真实世界的「体感」更为接近。

小结

整体来说,一个中文内容占比较大的大语言模型排行榜,对项目的技术方案选型是有参考意义的,这是小红花大语言模型排行榜的动力之源,也是以后继续编制的意义所在。接下来我们将在「小红花·文摘」开辟排行榜栏目以便发布相关信息和内容,同时也会发布在我们公众号,敬请关注。

鸣谢

小红花大语言模型排行榜得到了广大的认可和支持,很多自媒体公众号参与了上一月的内容转载,特此鸣谢(以下排名不分先后):

•TechParty•东波哥说•QPython•Tap4AI导航网•得云AI•鹤鸣工作室•白鲸技术栈•开源服务指南•光哥说AI

现在继续诚征公众号转载本文,微信公众号运营者可以直接使用快捷转载功能转发,或者留言转发+公众号号ID,我们将在后台为您开启白名单。其它平台的自媒体账号可以直接复制内容发布,也欢迎视频号等其它形式的自媒体依据本榜进行二次创作。

感谢大家支持!



小红花数据库排行榜(2024年11月):来势汹汹的Valkey

小红花编程语言排行榜(2024年11月):Java已经远远落后

小红花大语言模型排行榜(2024年10月):o1 锋芒毕露



自2021年成立以来,小红花技术领袖俱乐部以内容和服务为抓手,通过流量赋能开发者个人 IP 建设,在学习、工作、社交、创业等方面帮助开发者提升生产力、影响力和消费力,聚集了大量技术出身的专家、管理人员和创业者,已经成长为一个以「为开发者全职业生涯赋能」为使命的科创媒体,全网流量超过百万,具有全球影响力。当前小红花的主要业务包括开发者活动(茶话会、沙龙和峰会等)、会员俱乐部(CTO和CIO的业务桥梁)、小红花·文摘(优质内容分发平台)和办公地产(写字楼、众创空间)等。

继续滑动看下一个
小红花技术领袖
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存