NeurIPS 2023 | 英特尔提出全新部署方法,在CPU上进行高效LLM推理
代码链接 :
https://github.com/intel/intel-extension-for-transformers
结果:结果显示,在第四代 Intel® Xeon® 可扩展处理器上,6B 到 20B 参数的 LLM 平均单个 Token 生成延迟为从 20ms 到 80ms,显著快于人类阅读速度(人类大约每 200ms 阅读一个 Token),同时准确性损失仅为 1%,接近 FP32 基线。
自动 INT4 量化流程:利用 Intel Neural Compressor 提供 INT4 量化支持,并自动生成 INT4 模型; 推出高效的 LLM runtime:为 CPU 设计专门的张量库,并支持所有主流指令集,如 AVX2、AVX512、AVX512_VNNI 和 AMX(Advanced Matrix Extensions)。结果显示,在第四代 Intel® Xeon® 可扩展处理器上,6B 到 20B 参数量 LLM 的平均 Token 生成延迟为从 20ms 到 80ms,显著快于人类阅读速度(人类大约每 200ms 阅读一个 Token),同时准确性损失仅为 1%,接近 FP32 基线。
1.2 自动 INT4 量化流程
自动 INT4 量化流程在整个过程中起到关键作用,流程支持对权重自动化 INT4 量化,量化算法基于英特尔神经压缩器(Intel Neural Compressor)开发,该工具支持主流 INT4 量化配置,如 GPTQ、SignRound、AWQ、TEQ 和 RTN(round-to-nearest),自动量化流程允许在不同的量化配置、不同的粒度(按通道或按组)、不同的组大小(32、64、128 ... 1024)上进行配置调整。每个配置生成用于评估的 INT4 模型。当 INT4 模型达到精度目标后,该模型将被送到到 LLM runtime以进行性能评估。
1.2 高效的LLM runtime
绿色组件(CPU Tensor 和 LLM Optimizations)为针对 LLM 推理专门设计 蓝色组件(memory management, thread scheduler, operator optimization and fusion)为 runtime 中的通用组件
LLM 优化:大多数 LLM 通常是 Decoder-Only 的 Transformer模型。鉴于生成 next Token 的独特特性,KV 缓存的优化对 LLM 推理性能至关重要。图 3 展示了 KV 缓存的优化。左图(a)显示的是默认的 KV 缓存,新 Token 的生成需要为所有 Token(示例中为 5)重新分配内存;右图(b)显示的是带有预分配 KV 内存的优化 KV 缓存,每次只需更新新 Token 即可。
结果
2.1 实验设置
实验选择参数规模从 7B 到 20B 的流行 LLM 架构。使用开源数据集 lm-evaluation-harness 评估 FP32 和 INT4 模型准确性,数据集包括 lambada、hellaswag、winogrande、piqa 和 wikitext。性能评价指标为,在第四代 Intel® Xeon® 可扩展处理器上测量 LLM 生成下一个 Token 的延迟。
2.2 准确性
在上述数据集上评估准确性,并在表 2 中显示平均准确率。从表中可以看出,INT4 模型的准确率与 FP32 模型的准确率几乎相当,相对于 FP32 基线仅损失不到 1%。
2.3 性能
尽管 LLM runtime 展示了比 ggml 方案更好的性能优势,但通过额外的性能调优 LLM runtime 仍有可能进一步提高性能,提升方向如 LLM runtime 中的线程调度器、CPU 张量库中的阻塞策略等。
总结
文章提出的方案不论是量化模型的准确性,还是推理速度,都实现了 SOTA,对于期望在 PC 端部署 LLM 的研究者,该方案具有很强的工程实用性。毕竟 Intel 对自家的 CPU 更了解!
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧