【2023Q4】商用LLM API进展简评
本文接续【2023.9】LLM商用API及feature快报 ,汇总一下2023年Q4的商用LLM API进展,以实际开放API的能力为准。
0、前言
我认为应用层生态一直低估了国内商用LLM API的进展和对国内应用层的影响,所以才会写这个系列,希望能给应用层只顾鼓捣开源LLM模型的人一些提醒。
我之前就预测过2023年下半年会是国内商用LLM API的爆发期,现在来看预测的没问题。虽然说API的使用量并非爆发,但各家的API能力在下半年有了明显的提升,新增玩家也不少。
目前来看,2024年上半年国内商用LLM API会继续快速发展。
本文主要讨论商用LLM API,并同时顺带谈一下开源的LLM。本文不讨论的内容:多模态API和模型,非自己独立训练的模型、某些影响力很小的厂家和模型。
1、厂家列表
1.1、百度 千帆
API文档
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t
百度在10月发布了ERNIE-Bot 4.0,模型参数和基础能力宣称是较强的,对标GPT4。不过API文档上来看,相对于百度的其他模型亮点不多。
百度整体在商用LLM方面进展和更新频率都比较快,API文档常看常新,很难得。
模型梯队比较完善,大中小都有覆盖。
除turbo版本模型外标配的功能:function calling,system prompt,支持实时搜索(带citation),json mode。
Context window默认是2k水平,有一个8k特化模型
支持商用模型微调
1.2、讯飞 星火
API文档 https://www.xfyun.cn/doc/spark/Web.html (API的文档和client方面一言难尽,毕竟不是互联网公司的基因。)
讯飞是整个列表里国资背景最重的玩家,讯飞在这里算是做的不错的,没有给国资丢脸。
讯飞在10月发布了星火大模型V3.0版本,对标gpt-3.5-turbo。对标gpt-4级别的版本在明年Q1左右发布。整体上到目前为止是比较务实的。
模型随着能力更新有一个自然的能力梯队,V1.5、V2.0、V3.0,但价格上没有形成合理的梯队。
V2.0和V3.0:8k context window,支持一些固定种类的实时信息插件
V3.0支持function calling
讯飞由于其自身关系,主要面对的市场和客户跟其他公司有所不同,所以也不能以评价其他玩家的标准来评价。但就公开能看到的API和2C产品来说,讯飞做的不错。
1.3、Minimax abab
https://api.minimax.chat/document/guides/chat-model/pro?id=64b79fa3e74cddc5215939f4
Minimax在LLM方面起步很早,但abab-5.5之后就已经没有什么动作了,直到最近开启了abab6内测。由于不进abab6的内测不知道它更新了什么,所以本文也无法涉及。
abab-5.5的功能堪称是全球LLM API中提供的各种细节功能最多的,本节不会一一列举。
标配功能:system prompt,角色扮演的细节指定,知识库检索,6k context window。
V5.5支持:function calling,支持实时搜索,json mode,16k context window
类似OpenAI的Assistants API
Minimax是从特化角色扮演类需求切入的,跟其他家还略有不同,但整体上应该会殊途同归。
1.4、智谱 ChatGLM
https://open.bigmodel.cn/dev/api#language
智谱在10月底发布了ChatGLM3系列。
智谱在LLM开源生态的作用和影响力无需多言,但在API方面就感觉不太认真。特别是我发现它下线了除Turbo版本外的其他模型API,看起来似乎要放弃API市场,不清楚具体是怎么样的规划。
Turbo模型的能力和ChatGLM下线的其他模型的基础特性也没有太多亮点,这里从略。
1.5、百川智能 Baichuan
https://platform.baichuan-ai.com/docs/api
百川智能在9月底发布了Baichuan2-53B,并提供API,虽然说还没有完全敞开卖。
虽然说百川智能在模型能力上一直被人质疑,但光从API来看,算是做的相对完善的。
10月底发布了Baichuan2-Turbo-192k长上下文特化版本,在我不知道的时间还新增了角色扮演的Baichuan-character-*系列的API。
标配功能:支持实时搜索,知识库检索(带citation)
通过特化的Baichuan-character-*模型支持角色扮演
Baichuan2-Turbo的context window能力语焉不详,根据开源模型推测可能是4k
长上下文特化版本Baichuan2-Turbo-192k
1.6、Moonshot
API文档在内测墙内,我目前没看到。
Moonshot在10月首发,主打长上下文。Moonshot本身是定位于直接做2C产品的,但难得也开放API,目前在内测阶段。不过它的API内测放量真的是非常缓慢。
字节火山引擎提供了Moonshot API的接入,API文档
https://www.volcengine.com/docs/82379/1168049
由于字节火山引擎的代理API对于原始LLM API的特色参数几乎不暴露,所以无法由此推断Moonshot API的能力,只能看到模型分成 8k、32k、128k三种context window版本。
1.7、阿里巴巴 通义千问
https://help.aliyun.com/zh/dashscope/developer-reference/api-details
阿里是一个巨型集团,而且并不像百度那样大模型是顶层战略,虽然目前只有通义放出,但很难说未来就只有通义大模型这一个,可能会出现有资源的BG每个自己搞一个的情况。
通义模型虽然挺早就有开源,但在API上一直没有动作,直到最近我才发现已经提供了商用模型的API,具体时间未知。在12月已经发布了~100B级别的qwen-max-1201模型API。
模型梯队:qwen-turbo、qwen-plus、qwen-max
标配功能:支持实时搜索,json mode。
默认是6k context window,并提供30-32k左右的长上下文特化版本。
此外通义千问系列还提供图文输入大模型的API:qwen-vl-plus。
1.8、字节跳动 Skylark
https://www.volcengine.com/docs/82379/1133189
跟阿里类似,Skylark可能并非是字节会发布的唯一一个LLM。
在火山引擎的文档上,Skylark的地位跟别的外部模型/API的地位一样,能力介绍也语焉不详,受限于火山引擎默认API的参数配置,也没有什么特色功能。只能看到分为Skylark-lite、plus、pro、chat几个版本,此外还有一个Skylark2-pro-4k似乎是第二代,依旧没有什么介绍。
支持商用模型微调
1.9、腾讯 混元
https://cloud.tencent.com/document/product/1729/101837
跟阿里类似,混元可能并非是腾讯会发布的唯一一个LLM。
从文档发布历史来看,混元API在11月底发布。目前的API能力十分单薄,跟Skylark一样都是最简配置。
模型梯队:ChatStd、ChatPro
16k context window,但文档只推荐使用4k的范围。
应该说是聊胜于无吧,好歹上了牌桌。
1.10、昆仑万维 天工
https://model-platform.tiangong.cn/api-reference
在不少人看来“昆仑万维是个跨界过来的玩家,到底有没有想要长期认真来做存疑”,不过从目前的产出来看,天工大模型系列的工作还是靠谱的。
API文档较为简略,context window能力不详,也跟Skylark一样在功能上都是最简配置。从其API playground来看,context window为:
SkyChat-MegaVerse:8k
SkyChat-MightyText:2k
1.11、零一万物 Yi(目前仅开源)
零一万物是在11月才发布的开源模型,在国内基座模型方面是来的最迟的,后续动作和战略还有待观察。
官网 https://www.lingyiwanwu.com/
1.12、幻方 DeepSeek(目前仅开源)
DeepSeek也是一个跨界过来的玩家,幻方主业是做量化交易的,事先意外的屯了大量的计算卡。
从其开源模型工作来看是靠谱的,后续动作和战略也有待观察。
它网站上有一个内测入口,没有公开的文档,我没有去注册探索了。
官网 https://www.deepseek.com/
1.X、其他
剩下还有面壁智能(没有一个固定的模型产品名)、商汤的商量大模型。但他们近期在大模型上几乎没有进度(从公开发布信息来看),API方面影响力也很小,所以不再讨论。
1.A、海外情况
OpenAI仍然在持续更新,虽然增速有所放缓,但也只是增速慢了,增量还是挺大的。gpt-4-turbo-1106几乎已经坐上了全能力最强LLM的宝座。
Anthropic的Claude系列模型今年也是进展缓慢,2.1版本感觉像是被gpt-4-turbo-1106逼出来的,虽然名义context window还是领先的。
Google又搬出了新模型系列Gemini,特点是原生多模态的架构,32k context window,Gemini Ultra目前还没公开可用,还得坐等。公开的Gemini Pro看起来也不算惊艳,但目前免费使用就比较香了。API文档
https://ai.google.dev/models/gemini?hl=zh-cn
2、功能维度总结
从应用层需求来说,LLM有三个基础能力项是必点的:
Function calling
Long context (>100k)
System prompt/角色扮演
System prompt这个具体形式虽然还有点争议,不少厂家在做角色扮演特化版本,但这类功能是需要的。
全球只有OpenAI一家都达到了,剩下都还在追赶。Claude目前缺function calling,Gemini目前只有32k context。
国内最接近这一状态的是Moonshot、百川、百度、minimax,实际使用要看能申请到哪个,以及与应用场景具体需求有关。
推理能力和自主提问能力目前从API功能上无法了解,需要根据具体场景来测。
学习/记忆能力目前都还遥遥无期,不过国内已经在增加实时检索结果集成与知识库召回集成功能,能够适当满足一些简单需求。
2.1、Long Context
足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。
目前100k级别只有gpt-4-turbo、claude、moonshot、baichuan2-turbo-192k可用,再叠加其他限制,基本不能挑选了。
16-32k级别稍微好一点,但也只多了Gemini、minimax abab5.5、qwen三个选项。
2024上半年这个方面的供应商丰富度应该会显著改善。
2.2、Function Calling
Function calling虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持function calling的模型或至少支持json mode输出的模型。
这方面现在只有OpenAI、百度、讯飞、minimax,其他几家想做也不算太难,就是要投入。坐等各供应商补齐这方面和优化效果。
2.3、角色扮演
角色扮演的需求肯定是存在的,但是否要同时角色扮演且还要提供一些功能这个我仍然没有想清楚。
目前做好system prompt和其他功能的LLM还并不多,特别是不少厂家开始为角色扮演做特化模型,这些模型可能在其他方面并没有那么完善。从应用的角度来说,可以先用强能力的模型构建回答,然后再用角色扮演模型来重新措辞表达。虽然说仍然这种方式无法正确模仿角色的回答思路,但再打一些补丁之后大概可以凑合用用吧。
2.4、Prompt Hacking防护
目前暂未看到哪家LLM供应商开始做这个方面,但很明显这个功能是需要的。
现在国内各家LLM供应商都开始去做实时检索结果接入了,总之都不是一次完成LLM调用,再加一个Prompt Hacking检测也没有什么不自然。
2.5、托管的自动微调服务
目前支持自动微调服务的LLM供应商还不多,而且集成度还较差。
长期来看,我认为平台提供“可学习的智能函数”这个形态是必要的,当然这里也有不少细节,本文先不展开。
甚至进一步来说,在我看来只有LLM供应商(有继续的LLM预训练能力的团队)才是目前能实现知识持续积累和融合的平台。
2.6、进一步向应用层蚕食
以Assistant API和国内的知识库检索集成能力为代表,各家LLM供应商都开始向上层应用层侵蚀。可以切入的具体方式也有不少,本文也先不展开。
上层可靠的、有较大普适性的、实现成本可控的方案都可以被LLM供应商吃掉,反而是那些LLM供应商不抄的方案和噱头值得我们警惕。
3、总结
国内的LLM API供应商虽然有10家了,但这里面不少并不积极,战略层看起来像是躺平的玩家并不算少,(虽然他们的执行层压力巨大)。从用户的角度上来说,我希望能有至少30家。
由于LLM训练巨大的成本,各家的本质能力进展也不算太快,我说“国内商用LLM API会继续快速发展”,是说从总体的第一梯队角度来说的,单就具体的一家来看,则没有那么乐观。“跟随策略”的气息在不断的弥漫和加强,严格来说各家团队的底层成员都是拼尽全力才能维持看起来还没被行业平均水平甩下,而来自上层的大投入赌方向则可能越来越少。这个事情从商业上来说是难免的,风险高到一定程度就会这样。
还是让我们去给AMD烧香吧。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。
希望留言可以到知乎对应文章下留言。
本文于2024.1.8首发于微信公众号与知乎。
知乎链接 https://zhuanlan.zhihu.com/p/676655366