查看原文
其他

2024Q1商用LLM API进展简评【2024.4 W1】

孔某人 孔某人的低维认知
2024-08-22

0、前言

本期已经是“商用LLM API进展扫描”系列的第3篇了,前序文章:

本期主要讨论从2024.2.1-2024.4.5的商用LLM API的进展,以实际开放API的能力为准。由于国内的不少玩家目前并不活跃,所以本次会忽略一些玩家。

本系列的目的是为了让已经不关注商用LLM API进展的人能够了解目前进展。在我看来商用LLM API生态的进展对于GenAI生态来说是很重要的事情,而这目前是很多人所忽略的。

从本期开始,会把VL模型和语音相关的模型纳入汇总范围。

1、总评

2024年Q1的商用LLM API进展可谓争奇斗艳,尤其是海外,各家都有重量级的新模型推出。

本系列之前的文章并不涉及模型能力的评价,更多是从API提供的功能来评价的。但我逐渐发现很多人对于这方面的关注太少,所以面对目前的各种厂家API,连推荐尝试的顺序都没有头绪。所以本节会给一个我个人目前的主观分级

海外第一梯队:

  • OpenAI的GPT-4系列

  • Anthropic的Claude 3 Opus

  • Google的Gemini Pro 1.5

  • Mistral的Mistral Large


国内第一梯队:

第一梯队的效果已经和GPT-4有可比较性了。

  • 智谱的GLM-4

  • 阿里巴巴的qwen-max系列

  • 百度的ERNIE-4.0(ERNIE-4.0系列最近已经不活跃)


国内近期活跃的玩家:

  • Minimax的abab6

  • Moonshot的moonshot-v1

  • 阶跃星辰的Step-1(Step-2尚未开放)

  • 字节的Skylark2(信息不足)

  • 讯飞的星火 3.5

  • 百川智能的Baichuan2/3

  • 零一万物的yi-34b-chat

  • DeepSeek


超长上下文(>500k token)赛道:

该赛道的各家起步都是至少1M token,但目前都没有大量开放使用,不知道谁会是第一家开放的。

  • Google 的 Gemini 1.5 Pro(尚未公开 long context 的API)

  • Anthropic 的 Claude 3(尚未公开 long context 的API)

  • Moonshot (尚未公开 long context 的API)


2、海外第一梯队

目前即使排除OpenAI,海外第一梯队生态的综合力量也是强于国内的,所以本文首先介绍海外玩家。

2.1、OpenAI

https://platform.openai.com/docs/models

https://platform.openai.com/docs/api-reference/

OpenAI在2月之后没有明显的更新,仍然是1月发布的:gpt-4-0125-preview和gpt-3.5-turbo-0125。

API特性简述:

  • 模型梯队:gpt-3.5-turbo、gpt-4-turbo

  • VL模型:gpt-4-vision

  • 语音识别模型:whisper-1;语音合成模型:tts-1、tts-1-hd。

  • Function calling、system prompt、json mode、logit_bias、logprobs

  • gpt-4-turbo是128k context,gpt-3.5-turbo是16k context

  • 微调API:提供gpt-3.5-turbo的微调

  • Assistants API  https://platform.openai.com/docs/api-reference/assistants

传闻中的GPT-4.5仍然难产,更别说GPT-5。

2.2、Anthropic

https://docs.anthropic.com/claude/reference/messages_post

https://www.anthropic.com/news/claude-3-family

Anthropic在3月发布的Claude 3系列非常亮眼,无论是Claude 3 Opus疑似已经略微超过GPT-4的表现,以及Haiku、Sonnet的不错性价比,再加上全线模型未来都会支持1M token context,而且API也已经敞开可用。让人明显改观。

API特性简述:

  • 模型梯队:claude-3-haiku、claude-3-sonnet、claude-3-opus

  • VL模型:claude-3-sonnet、claude-3-opus支持图像输入

  • Function calling、system prompt、(通过function calling模拟json mode)

  • claude-3系列目前提供200k context,输出最大4k,未来会扩展到1M context

最小规模的claude-3-haiku有明显为简单任务进行特化,我对此评价很高。

2.3、Google

https://ai.google.dev/models/gemini

Google自从Gemini 1.0 Pro发布之后,终于感觉是上道了。不过Gemini Ultra迟迟没有公开。

API特性简述:

  • 模型梯队:gemini-1.0-pro、gemini-1.5-pro(preview中)

  • VL模型:gemini-1.0-pro-vision

  • Function calling

  • gemini-1.0-pro提供30k+2k输出 context、gemini-1.5-pro提供1M+8k输出 context

  • 微调API:提供gemini-1.0-pro的微调

  • 知识库API:Corpus https://ai.google.dev/api/rest/v1beta/corpora

Google的Gemini 1.5 Pro是全球最早发布1M context能力的厂家之一。

从Gemini 1.0开始,Google的LLM发布速度明显变快了,不过Gemini Ultra发布难产的阴霾仍然存在。

2.4、Mistral

https://docs.mistral.ai/api/

Mistral凭借着SMoE模型的开源,以及Mistral Large模型,成功进入第一梯队。

API特性简述:

  • 模型梯队:mistral-small、mistral-medium、mistral-large

  • Function calling https://docs.mistral.ai/guides/function-calling/

3、国内第一梯队

3.1、智谱 GLM

https://open.bigmodel.cn/dev/api#language

1月发布的GLM-4是目前国内比较接近于GPT-4能力的模型了,并且对于OpenAI在文本模态各方面的跟进是目前国内最全面和最快的。

API特性简述:

  • 模型梯队:GLM-3-Turbo、GLM-4

  • VL模型:GLM-4V

  • Function calling、RAG、web search插件、System prompt

  • GLM-4支持128k context,输出4k,GLM-3-Turbo也是128k context

3.2、阿里巴巴 通义千问

https://help.aliyun.com/zh/dashscope/developer-reference/api-details

阿里的qwen系列的开源模型是国内目前最活跃的,而且各方对其开源模型的效果都比较认可,qwen-72B是国内开源模型中唯一获得OpenAI对标认可的模型。qwen的闭源模型也是很活跃的。

API特性简述:

  • 模型梯队:qwen-turbo、qwen-plus、qwen-max

  • VL模型:qwen-vl-plus、qwen-vl-max

  • 语音识别模型:qwen-audio-turbo

  • Function calling、支持实时搜索,json mode,system prompt

  • 默认是6k+1.5k输出 context,并提供30-32k左右的长上下文特化版本。

  • 微调API:提供qwen-turbo和一些开源模型的微调

3.3、百度 ERNIE

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t

自从百度在2023年10月发布了ERNIE 4.0之后,是国内最早宣称对标GPT4的,就再无大的动静。从文档上来看还有新的ERNIE Speed系列模型推出,也实现了128k context,但宣传上再无大的动静。让人感觉已经在逐步掉队。

API特性简述:

  • 模型梯队:ERNIE 3.5、ERNIE 4.0、ERNIE Speed、ERNIE Lite、ERNIE Tiny等,定位上感觉有些混乱。

  • ERNIE 4.0支持:function calling,system prompt,支持实时搜索(带citation),json mode。

  • ERNIE 4.0支持5k+2k输出 context,ERNIE Speed-128k特化版支持128k context

  • 微调API:提供ERNIE-Speed、ERNIE-Lite、ERNIE-Tiny系列和一些开源模型的微调


4、国内剩余的活跃的玩家

4.1、Minimax abab

https://api.minimax.chat/document/guides/chat-model/pro/api?id=6569c85948bc7b684b30377e

Minimax在1.16号刚发布了abab6

  • 模型梯队:abab5.5s-chat、abab5.5-chat、abab6-chat

  • 语音合成:T2A、T2A Pro、T2A Large、T2A Stream

  • system prompt,角色扮演的细节指定,function calling,支持实时搜索,json mode,知识库检索、raw_glyph 输出格式控制。

  • abab5.5s-chat支持8k context,abab5.5-chat支持16k context,abab6-chat支持32k context

  • 类似OpenAI的Assistants API

  • 微调API:似乎只支持abab5.5s-chat

Minimax是从特化角色扮演类需求切入的。

4.2、Moonshot

https://platform.moonshot.cn/docs

Moonshot在10月首发,内测了很久后终于在2024.2公开了API。在3月发布了1M context的chatbot内测,没有发布到API的时间消息。

  • 模型梯队:v1

  • 支持system prompt和文件RAG

4.3、字节跳动 Skylark

https://www.volcengine.com/docs/82379/1133189

字节在基座LLM上一直都没有什么宣传,不过在产品方面还是比较活跃的。

  • 模型梯队:Skylark2-lite、Skylark2-pro-turbo、Skylark2-pro、Skylark2-pro-character。

  • Skylark2-pro有32k context特化版本,其他一般是4k-8k。

  • 火山引擎上有独立的语音合成和语音识别服务。https://www.volcengine.com/docs/6561/0

  • 微调API:skylark lite/plus/pro

Skylark系列各模型的效果很少看到有人测试,具体不详。

4.4、讯飞 星火

https://www.xfyun.cn/doc/spark/Web.html

距离本系列上期更新没有变化。

讯飞在1.30发布了V3.5版本。

  • 模型梯队,V1.5、V3.0、V3.5,但价格上V3.0-V3.5定价是一样的。

  • VL模型:疑似V3.0及以后的模型都支持图像输入。

  • V2.0-V3.5:8k context window,支持一些固定种类的实时信息插件

  • V3.0开始支持function calling(但官方文档建议在3.5版本上使用function calling)

  • V3.5支持system prompt

  • 微调API:V1.5和V3.0

V2.0版本看起来已经从模型梯队中剔除,V3.0版本应该也会被废弃。

4.5、阶跃星辰

https://platform.stepfun.com/docs/Chat/chat-completion-create

阶跃星辰之前一直蛰伏,直到2024年3月才开始公开宣传。Step1对标超过gpt-3.5-turbo

  • 模型梯队:step-1-200k

  • VL模型:Step-1V(尚未接入API)

  • 200k context


4.6、百川智能 Baichuan

https://platform.baichuan-ai.com/docs/api

距离本系列上期更新没有变化。

百川智能在1.29发布了Baichuan3,但截至目前没看到Baichuan3的API放出。百川没有开放对个人的API。

  • 模型梯队:Baichuan2-Turbo、Baichuan2-53B。长上下文特化版本Baichuan2-Turbo-192k

  • 支持实时搜索,知识库检索(带citation)

  • Baichuan2-Turbo的context window能力语焉不详

  • 通过特化的Baichuan-character-*模型支持角色扮演

百川目前似乎已经进入蛰伏状态,再加上API方面没有敞开,在逐渐从API用户的视野中消失。

4.7、零一万物 Yi

https://platform.lingyiwanwu.com/

零一万物在2024年3月才开放API。

  • 模型梯队:yi-34b-chat、yi-34b-chat-200k

  • VL模型:yi-vl-plus

4.8、幻方 DeepSeek

https://platform.deepseek.com/docs

距离本系列上期更新没有变化。

  • 模型梯队:deepseek-chat

  • 16k context

5、功能维度总结

5.1、Function Calling

Function calling虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持function calling的模型或至少支持json mode输出的模型。

目前来看,全球范围内第一梯队的各家都已经标配该功能,该功能的必要性已经是共识。

5.2、Long Context

足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。

从各家情况来看,实现至少100k context的能力是未来留在第一梯队的特征之一。

有一些玩家已经开启了超长context能力的竞争(>1M token),这方面的应用价值和成本还有待观察。

5.3、多步推理和决策能力的改进

目前在各家LLM供应商侧还看不到任何征兆。LLM API之上的Agent框架中,也没有任何有希望落地的方案。

总体而言就是还不要指望。

5.4、追上GPT4成为第一梯队的标准

目前来看,想要能够保持在第一梯队中,至少要实现在效果上接近GPT4目前的能力。

6、本期总结

对比上一篇,已经有一些供应商已经被我列入不在活跃的范围。虽然旧玩家在逐步退出,但仍然有令人激动的新玩家带着它们的优秀作品入场。

不过整个生态还并没有成熟,我一直强调的function calling功能,直到本次整理才算是大家基本补齐。

突然会有这么多玩家开始打1M token context的牌是让我有些意外的,不过这条线离使用还有一些问题需要解决。

Sam Altman过去吹过的牛已经足够多了,从现在开始已经可以说不能轻信Altman了,我们怀念Ilya还在发声的日子。GPT-4.5的难产也说明了OpenAI并没有我们幻想的那么强。

不知道LLAMA3会从哪个方面进行突破,让我很好奇。

本期没有做太多展望性的讨论,因为这计划在另外的文章中进行,本文只是更新信息。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

希望留言可以知乎对应文章下留言

本文于2024.4.6首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/690945294

个人观点,仅供参考
继续滑动看下一个
孔某人的低维认知
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存