其他
京东广告稀疏大模型训练与推理 GPU 优化实践
导读 本次分享主要针对京东广告的业务场景,讨论我们在 GPU 吞吐和低延时优化方面的实践工作。
主要内容包括四大部分:1. 京东广告场景介绍
2. 京东广告训练场景 GPU 优化实践
3. 京东广告推理场景 GPU 优化实践
4. 总结
分享嘉宾|李健 京东 算法应用工程师
编辑整理|王甲君
内容校对|李瑶
出品社区|DataFun
京东广告场景介绍
CTR 模型的高稀疏性特点容易导致 I/O 瓶颈。 超大规模稀疏参数模型容易超出显存承载上限。 推荐场景的特征计算占用大量 CPU 资源,导致 CPU 与 GPU 资源调度争抢,使得整体利用率释放不充分。
京东广告训练场景 GPU 优化实践
1. 存储挑战
2. 计算挑战
3. I/O 挑战
京东广告推理场景 GPU 优化实践
广告商品排序队列长度不一,较短的请求队列会拉低整体 GPU 利用率。 在线低延时高并发场景需要新的方法最大化利用 GPU 计算资源。 推荐领域的用户行为序列建模方案多样,针对不同的行为(如点击、加购、购买)分别建模能提升模型效果,但也导致模型结构复杂,包含上千个算子,难以友好调度 GPU。
扩展 TensorFlow 底层的 stream group,通过多次 Cuda Stream 实现并发计算。 为每个 device 构建多个 Cuda Context,增强 GPU 资源调度的并发能力。 基于英伟达的 MPS 工具,减少引入多 Cuda Context 后的上下文切换损耗,最终实现多个请求间算子并行的效果。
总结
分享嘉宾
INTRODUCTION
李健
京东
算法应用工程师
17 年加入京东广告研发部,在算法架构方向深耕 7 年,先后参与了两代京东广告模型系统的架构建设。主导了大规模稀疏模型训练&推理等能力建设,助力多项算法创新落地,并多次获得京东零售级别奖项。目前作为广告算法架构方向架构师,带领团队建设新一代广告异构算法架构体系。
活动推荐
往期推荐
好的数据治理怎么做?
销售易基于 Lakehouse 的实时分析提升用户数据体验实践分享
Velox内存管理深度解析:从基础到高级特性
Apache Hudi 从零到一:全面解读写入索引(四)
Apache Hudi 从零到一:理解写入流程和操作(三)
用最酷的RAG,训最猛的大模型!
Apache Spark SQL 原理
Data+LLM:数据治理新范式探索
多模态手机智能体 Mobile-Agent
大模型推荐系统:进展与未来
点个在看你最好看
SPRING HAS ARRIVED