LLM 低成本 GPU 部署方案 lmdeploy 开源！

Original 白牛 OpenMMLab 2024-04-23

今天要介绍的是 lmdeploy，一个服务端场景下、transformer 结构 LLM 部署工具。

https://github.com/InternLM/lmdeploy

你可能要问，现在 LLM 周边工具这么多，为什么要用 lmdeploy 呢？

专注场景

lmdeploy 实现了 GPU 服务端部署，它有如下特点：

支持 Tensor Parallel：眼下 7B 精度是“按下葫芦起了瓢”，终究要运行更大模型。买不到 A100 不用怕，可以把 65B 或更大的模型，切分到多个 3090 上运行。
多并发优化：后端服务必然考虑部署成本，lmdeploy 不止实现了多 batch，更完成了 kv cache 量化，有效降低单用户成本。

功能全面

不止是推理量化工具，lmdeploy 在服务化方面有更多特性：

模型转换：只要是 transformer 结构（InternLM/LLaMa/Vicuna），无论 HuggingFace 或 Meta 格式，都可以转成需要的 bin
交互推理：缓存历史会话的 cache feature，避免重复计算
接入方式：lmdeploy 内部是统一的 API 接口，对外提供了 WebUI、命令行和 gRPC 客户端接入

质量保障

lmdeploy 和队友 OpenCompass（大模型评测一站式平台）合作良好，使得 lmdeploy 的浮点、定点版本，都能高并发执行大量数据集验证，而非单一的 ppl 结果。只有充分测试，才能保障出优秀且稳定的对话体验。

欢迎使用 lmdeploy ！

lmdeploy：（文末点击阅读原文可直达）

https://github.com/InternLM/lmdeploy

OpenCompass：

https://github.com/InternLM/opencompass

RSPrompter：基于 SAM 大模型的实例分割研究

2023-07-10

手把手带你使用 MMPose 参加 MICCAI 2023 挑战赛

2023-07-08

继续滑动看下一个

OpenMMLab

向上滑动看下一个