其他
DeepSeek API 创新采用硬盘缓存,价格再降一个数量级
在大模型 API 的使用场景中,用户的输入有相当比例是重复的。举例说,用户的 prompt 往往有一些重复引用的部分;再举例说,多轮对话中,每一轮都要将前几轮的内容重复输入。
如何使用 DeepSeek API 的缓存服务
硬盘缓存服务已经全面上线,用户无需修改代码,无需更换接口,硬盘缓存服务将自动运行,系统自动按照实际命中情况计费。
数据分析:后续具有相同前缀的请求会命中上下文缓存
多种应用能从上下文硬盘缓存中受益:
具有长预设提示词的问答助手类应用
具有长角色设定与多轮对话的角色扮演类应用
针对固定文本集合进行频繁询问的数据分析类应用
代码仓库级别的代码分析与排障工具
...
如何查询缓存命中情况
prompt_cache_hit_tokens:本次请求的输入中,缓存命中的 tokens 数( 0.1 元 / 百万 tokens) prompt_cache_miss_tokens:本次请求的输入中,缓存未命中的 tokens 数(1 元 / 百万 tokens)
降低服务延迟
举个极端的例子,对 128K 输入且大部分重复的请求,实测首 token 延迟从 13 秒降低到 500 毫秒。
降低整体费用
缓存没有其它额外的费用,只有0.1 元每百万 tokens。缓存占用存储无需付费。
缓存的安全性问题
长时间不用的缓存会自动清空,不会长期保留,且不会用于其他用途。
为何 DeepSeek API 能率先采用硬盘缓存
这得益于 DeepSeek V2 提出的 MLA 结构,在提高模型效果的同时,大大压缩了上下文 KV Cache 的大小,使得存储所需要的传输带宽和存储容量均大幅减少,因此可以缓存到低成本的硬盘上。
DeepSeek API 的并发和限流
DeepSeek API 服务按照每天 1 万亿的容量进行设计。对所有用户均不限流、不限并发、同时保证服务质量。请放心加大并发使用。