2023.10-2024.1 商用LLM API进展简评 V3
文章版本修订说明:
V3:更新截止到2024.2.4的信息。
更新讯飞V3.5的信息
更新阿里千问的信息
更新Claude 2.1的信息
更新OpenAI API 0125版本信息
更新DeepSeek API的信息
更新智谱GLM-4的信息
更新Moonshot的信息
更新序列猴子的信息
V2:更新截止到2024.1.17的信息。
V1:2024.1.8发布
本文接续【2023.9】LLM商用API及feature快报 ,汇总一下从2023.10月开始的商用LLM API进展,以实际开放API的能力为准。
0、前言
我认为应用层生态一直低估了国内商用LLM API的进展和对国内应用层的影响,所以才会写这个系列,希望能给应用层只顾鼓捣开源LLM模型的人一些提醒。
我之前就预测过2023年下半年会是国内商用LLM API的爆发期,现在来看预测的没问题。虽然说API的使用量并非爆发,但各家的API能力在下半年有了明显的提升,新增玩家也不少。
目前来看,2024年上半年国内商用LLM API会继续快速发展。
本文主要讨论商用LLM API,并同时顺带谈一下开源的LLM。本文不讨论的内容:多模态API和模型,非自己独立训练的模型、某些影响力很小的厂家和模型。
1、厂家列表
1.1、百度 千帆
API文档
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t
百度在10月发布了ERNIE-Bot 4.0,模型参数和基础能力宣称是较强的,对标GPT4。百度整体在商用LLM方面进展和更新频率都比较快,API文档常看常新,很难得。
模型梯队比较完善,大中小都有覆盖。
除turbo版本模型外标配的功能:function calling,system prompt,支持实时搜索(带citation),json mode。
ERNIE-Bot(3.5)限制8k字符输入(这里单位不是token),另有一个8k特化模型
ERNIE-Bot 4.0似乎是~8k context
支持商用模型微调
1.2、智谱 ChatGLM
API文档 https://open.bigmodel.cn/dev/api#language
智谱在10月底发布了ChatGLM3系列,1.16发布了GLM-4,效果对标GPT-4。
模型梯队是GLM-3-Turbo、GLM-4
Function calling、RAG、web search插件
System prompt
GLM-4支持128k context window,输出目前最多只支持4k(2024.1.27验证)
GLM-3-Turbo也是128k context window,(信息来自 https://www.bilibili.com/video/BV1zZ4y1n7UD/ )
在GLM-4之前,智谱的API上的扩展能力并不多,但随着GLM-4的发布有了大幅改善,是国内第一个集齐三件套的商用API(三件套含义见第2节)。
GLM-4一代目前没有更新开源模型,降低了各家在开源模型上的竞争烈度,进而导致各家在开源模型上的投入减少,已有的开源模型大家且用且珍惜。
1.3、Minimax abab
API文档
https://api.minimax.chat/document/guides/chat-model/pro/api?id=6569c85948bc7b684b30377e
Minimax在LLM方面起步也很早,1.16号刚发布了abab6,MoE类架构。
abab的API功能堪称是全球LLM API中提供的各种细节功能最多的,本节不会一一列举。
标配功能:system prompt,角色扮演的细节指定,8k context window,function calling,支持实时搜索,json mode,知识库检索。
V6是32k context window
类似OpenAI的Assistants API
支持商用模型微调
Minimax是从特化角色扮演类需求切入的,跟其他家还略有不同,但整体上应该会殊途同归。
1.4、讯飞 星火
API文档 https://www.xfyun.cn/doc/spark/Web.html
讯飞在10月发布了星火大模型V3.0版本,对标gpt-3.5-turbo,V3.5版本在1.30发布。对标gpt-4级别的版本计划在2024年上半年发布。
模型随着能力更新有一个自然的能力梯队,V1.5、V3.0、V3.5,但价格上V3.0-V3.5定价是一样的。
V2.0-V3.5:8k context window,支持一些固定种类的实时信息插件
V3.0新增支持function calling(但官方文档建议在3.5版本上使用function calling)
V3.5新增支持system prompt
支持商用模型微调
在2024年1月发现,V2.0版本已经无法购买token,可以视为已经从模型梯队中剔除。从V2.0的生命周期与V3.5与V3.0的定价相同来看,V3.0版本应该也会被废弃,模型梯队上的V3.0的位置由V3.5替代。
讯飞是整个列表里国资背景最重的玩家。讯飞由于其自身关系,主要面对的市场和客户跟其他公司有所不同,所以也不能以评价其他玩家的标准来评价。
1.5、百川智能 Baichuan
https://platform.baichuan-ai.com/docs/api
百川智能在9月底发布了Baichuan2-53B,并提供API。10月底发布了Baichuan2-Turbo-192k长上下文特化版本,在1.9发布了角色大模型的Baichuan-character-*系列的API。在1.29发布了Baichuan3,但截至目前没看到Baichuan3的API放出。
模型梯队:Baichuan2-Turbo、Baichuan2-53B。长上下文特化版本Baichuan2-Turbo-192k
标配功能:支持实时搜索,知识库检索(带citation)
Baichuan2-Turbo的context window能力语焉不详
通过特化的Baichuan-character-*模型支持角色扮演
虽然说百川智能在模型能力上一直被人质疑,但光从提供的API来看,并没有遮遮掩掩。
1.6、Moonshot
API文档 https://platform.moonshot.cn/docs
Moonshot在10月首发,主打长上下文。Moonshot本身是定位于直接做2C产品的,但难得也开放API,但内测了很久,终于在2024.2.2公开了API。
模型梯队:v1的8k、32k、128k版本
支持system prompt和文件RAG
三件套中还缺function calling。Moonshot自从10月之后就没有其他动作,只看到一些运营推广。
此外,字节火山引擎提供了Moonshot API的接入,API文档 https://www.volcengine.com/docs/82379/1168049
1.7、阿里巴巴 通义千问
https://help.aliyun.com/zh/dashscope/developer-reference/api-details
通义模型虽然挺早就有开源,但在API上一直没有动作,直到最近我才发现已经提供了商用模型的API,具体时间未知。在12月已经发布了~100B级别的qwen-max-1201模型API。
模型梯队:qwen-turbo、qwen-plus、qwen-max
标配功能:支持实时搜索,json mode,system prompt
默认是6k context window,并提供30-32k左右的长上下文特化版本。
支持商用模型微调(qwen-turbo)
此外通义千问系列还提供图文输入大模型的API:qwen-vl-plus。
1.8、字节跳动 Skylark
https://www.volcengine.com/docs/82379/1133189
在火山引擎的文档上,Skylark的地位跟别的外部模型/API的地位一样,能力介绍也语焉不详,受限于火山引擎默认API的参数配置,也没有什么特色功能。
模型梯队:Skylark-lite、plus、pro、chat,此外还有一个Skylark2-pro-4k似乎是第二代,都没有什么介绍。
支持商用模型微调
1.9、腾讯 混元
https://cloud.tencent.com/document/product/1729/101837
从文档发布历史来看,混元API在11月底发布。目前的API能力十分单薄,跟Skylark一样都是最简配置。
模型梯队:ChatStd、ChatPro
16k context window,但文档只推荐使用4k的范围。
应该说跟百度、阿里相比聊胜于无吧,好歹上了牌桌。
1.10、幻方 DeepSeek
API文档 https://platform.deepseek.com/docs
DeepSeek也是一个跨界过来的玩家,幻方主业是做量化交易的,事先意外的屯了大量的计算卡。
从其开源模型工作来看是靠谱的,后续动作和战略也有待观察。目前API提供的模型:
deepseek-chat、deepseek-code
16k context window
1.11、昆仑万维 天工
https://model-platform.tiangong.cn/api-reference
昆仑万维也是一个跨界过来的玩家。
API文档较为简略,context window能力不详,也跟Skylark一样在功能上都是最简配置。从其API playground来看,context window为:
SkyChat-MegaVerse:8k
SkyChat-MightyText:2k
1.12、出门问问 序列猴子
API文档
https://openapi.mobvoi.com/document?name=%E6%96%87%E6%9C%AC%E7%94%9F%E6%88%90
序列猴子在2023年4月的时候就发布了,但后续一直低调。目前API已经放出,放出时间我目前还不清楚。
从API功能上来说没有什么亮点。最近半年也看不到序列猴子系列的更新消息,该系列是否仍然更新是存疑的。
1.13、零一万物 Yi(目前仅开源)
零一万物是在11月才发布的开源模型,在国内基座模型方面是来的最迟的,后续动作和战略还有待观察。
官网 https://www.lingyiwanwu.com/
1.X、其他
剩下还有面壁智能、商汤的商量大模型。但我目前看不到他们在商用模型API方面的计划,所以不再讨论。
我估计随着算力成本的降低,后续可能断断续续还有其他后入局者进入。
1.A、海外情况
OpenAI
OpenAI仍然在持续更新,虽然增速有所放缓,但也只是增速慢了,增量还是挺大的。从gpt-4-1106-preview开始几乎已经坐上了全能力最强LLM的宝座。OpenAI在1月底又更新了gpt-4-0125-preview和gpt-3.5-turbo-0125,gpt-3.5-turbo又进一步降价了。
Anthropic
API文档
https://docs.anthropic.com/claude/reference/messages_post
关于Claude 2.1function calling能力的说明 https://docs.anthropic.com/claude/docs/claude-2p1-guide
Anthropic的Claude系列模型今年进展不算快,Claude 2.1版本在11月也集成了扩展能力三件套,不过function calling能力未出现在API的参数说明文档上,可能仍在内测。
API文档 https://ai.google.dev/models/gemini?hl=zh-cn
Google又搬出了新模型系列Gemini,特点是原生多模态的架构,32k context window,Gemini Ultra目前还没公开可用,还得坐等。公开的Gemini Pro看起来也不算惊艳,但目前免费使用就比较香了。
2、功能维度总结
2.1、LLM扩展能力三件套
从应用层需求来说,LLM有三个基础能力项是必点的:
Function calling
Long context (>=100k)
System prompt/角色扮演
System prompt这个具体形式虽然还有点争议,不少厂家在做角色扮演特化版本,但这类功能是需要的。
全球范围内,OpenAI在2023.11.6发布的gpt-4-1106-preview版本首先集齐这三件套,智谱在2024.1.16发布的GLM-4第二个集齐。Claude目前缺function calling,Gemini目前只有32k context。
2.1.1、Long Context
足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。
目前100k级别只有gpt-4-turbo、claude、GLM-4、moonshot、baichuan2-turbo-192k可用,再叠加应用场景的具体限制后能选择的不多了。
16-32k级别稍微好一点,但也只多了gpt-3.5-turbo、Gemini、minimax abab、qwen四个选项。
2024上半年这个方面的供应商丰富度应该会显著改善。
2.1.2、Function Calling
Function calling虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持function calling的模型或至少支持json mode输出的模型。
这方面现在有OpenAI、百度、讯飞、minimax、智谱,其他几家想做也不算太难,就是要投入。坐等各供应商补齐这方面和优化效果。
2.1.3、角色扮演
角色扮演的需求肯定是存在的,但是否要“同时角色扮演且还要提供一些复杂的智能”这个我仍然没有想清楚。
目前做好system prompt和其他功能的LLM还并不多,特别是不少厂家开始为角色扮演做特化模型,这些模型可能在其他方面并没有那么完善。从应用的角度来说,可以也先用强能力的模型构建回答,然后再用角色扮演模型来重新措辞表达。虽然说仍然这种方式无法正确模仿角色的回答思路,但再打一些补丁之后大概可以凑合用用吧。
2.2、推理能力和学习能力
推理能力和自主提问能力目前从API功能上无法了解,需要根据具体场景和具体prompt来测。可以参考一些第三方榜单,但也只是参考。
学习/记忆能力目前都还遥遥无期,连自动微调服务都还不普及。不过国内已经在增加实时检索结果集成与知识库召回集成功能,能够适当满足一些简单需求。
2.3、托管的自动微调服务
目前支持自动微调服务的LLM供应商还不多,而且集成度还较差。
长期来看,我认为平台提供“可学习的智能函数”这个形态是必要的,当然这里也有不少细节,本文先不展开。
甚至进一步来说,在我看来只有LLM供应商(有继续的LLM预训练能力的团队)才是目前能实现知识持续积累和融合的平台。
2.4、Prompt Hacking防护
目前暂未看到哪家LLM供应商开始做这个方面,但很明显这个功能是需要的。
现在国内各家LLM供应商都开始去做实时检索结果接入了,总之都不是一次完成LLM调用,再加一个Prompt Hacking检测也没有什么不自然。
2.5、流式增量计算
针对流式输入场景下大参数量LLM的延迟较大的问题的优化延迟方案。目前也没有哪家LLM供应商在做这个方面。
详细可以参考展望LLM的流式输入增量计算能力 V2【2024Q1】
2.6、进一步向应用层蚕食
以Assistant API和国内的知识库检索集成能力为代表,各家LLM供应商都开始向上层应用层侵蚀。可以切入的具体方式也有不少,本文也先不展开。
上层可靠的、有较大普适性的、实现成本可控的方案都可以被LLM供应商吃掉,反而是那些LLM供应商不抄的方案和噱头值得我们警惕。
3、总结
国内的LLM API供应商虽然有12家了,但这里面不少并不积极,战略层看起来像是躺平的玩家并不算少,(虽然他们的执行层压力巨大)。从用户的角度上来说,我希望能有至少20家。
由于LLM训练巨大的成本,各家的本质能力进展也不算太快,我说“国内商用LLM API会继续快速发展”,是说从总体的第一梯队角度来说的,单就具体的一家来看,则没有那么乐观。“跟随策略”的气息在不断的弥漫和加强,严格来说各家团队的底层成员都是拼尽全力才能维持看起来还没被行业平均水平甩下,而来自上层的大投入赌方向则可能越来越少。这个事情从商业上来说是难免的,风险高到一定程度就会这样。
还是让我们去给AMD和华为、LLAMA3烧香吧。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。
希望留言可以到知乎对应文章下留言。
本文于2024.1.8首发于微信公众号与知乎,V2版本发布于2024.1.17,V2版本发布于2024.2.4。
知乎链接 https://zhuanlan.zhihu.com/p/676655366