查看原文
其他

LLM 低成本 GPU 部署方案 lmdeploy 开源!

白牛 OpenMMLab 2024-04-23

今天要介绍的是 lmdeploy,一个服务端场景下、transformer 结构 LLM 部署工具。

https://github.com/InternLM/lmdeploy

你可能要问,现在 LLM 周边工具这么多,为什么要用 lmdeploy 呢?


专注场景


lmdeploy 实现了 GPU 服务端部署,它有如下特点:

  • 速度有保障:这是 lmdeploy 吞吐量测试结果,已经超过一些常见框架。


  • 支持 Tensor Parallel:眼下 7B 精度是“按下葫芦起了瓢”,终究要运行更大模型。买不到 A100 不用怕,可以把 65B 或更大的模型,切分到多个 3090 上运行。

  • 多并发优化:后端服务必然考虑部署成本,lmdeploy 不止实现了多 batch,更完成了 kv cache 量化,有效降低单用户成本。


功能全面



不止是推理量化工具,lmdeploy 在服务化方面有更多特性:

  • 模型转换:只要是 transformer 结构(InternLM/LLaMa/Vicuna),无论 HuggingFace 或 Meta 格式,都可以转成需要的 bin

  • 交互推理:缓存历史会话的 cache feature,避免重复计算

  • 接入方式:lmdeploy 内部是统一的 API 接口,对外提供了 WebUI、命令行和 gRPC 客户端接入


质量保障



lmdeploy 和队友 OpenCompass(大模型评测一站式平台)合作良好,使得 lmdeploy 的浮点、定点版本,都能高并发执行大量数据集验证, 而非单一的 ppl 结果。只有充分测试,才能保障出优秀且稳定的对话体验。

欢迎使用 lmdeploy !



lmdeploy:(文末点击阅读原文可直达)

https://github.com/InternLM/lmdeploy


OpenCompass:

https://github.com/InternLM/opencompass


RSPrompter:基于 SAM 大模型的实例分割研究

2023-07-10

手把手带你使用 MMPose 参加 MICCAI 2023 挑战赛

2023-07-08

GPT4RoI:面向区域级图像理解的端到端多模态大模型

2023-07-07

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存