查看原文
其他

百度飞桨亮相GTC 2023,助力AI大模型高效生产及应用

百度AI 2023-06-15


NVIDIA GTC 是人工智能领域的全球 AI 开发者盛会,2023年度春季大会于3月20-23日在线上举办。NVIDIA  创始人兼 CEO 黄仁勋指出,AI 的 iPhone 时刻来临。AI 行业已经到达了像 iPhone 横空出世时为手机行业带来的革命性颠覆的时间点。


百度 AI 技术生态总经理马艳军,百度主任架构师、MEG 商业模型中台技术负责人焦学武在 GTC 中国特别活动 China AI Day 上,就飞桨深度学习平台如何高效支持大模型生产及应用,基于 GPU 的超大规模图模型训练技术等进行分享。百度技术专家还在 GTC 上带来大模型开发套件 PaddleFleetX 和 AI 部署工具 FastDeploy 的详细介绍。全球数十万开发者注册观看。


长期以来,飞桨与 NVIDIA 密切合作,联合发布了基于 NVIDIA GPU 定制优化的飞桨容器 NGC,同时在深度学习培训中心和深度学习模型示例方面开展深入合作。NVIDIA 也是最早加入飞桨“硬件生态共创计划”的伙伴。该计划截至目前,已包括 NVIDIA、Intel、瑞芯微、Arm、Imagination 等29家生态伙伴。飞桨还联合 NVIDIA 在内的13家合作伙伴共同发布了飞桨生态发行版,实现软硬件协同深度优化。


 飞桨助力大模型高效生产及应用,

 降低AI落地门槛 


马艳军在主题演讲中首先介绍了大模型的发展趋势和面临的挑战,以及在此趋势和挑战之下飞桨深度学习平台和文心大模型的发展现状,随后具体分享了飞桨框架的训练和推理技术,最后通过 ERNIE 3.0(知识增强千亿大模型)、ERNIE-ViLG 2.0(知识增强跨模态大模型)、VIMER-UFO 2.0(视觉多任务大模型)和 HelixFold(蛋白结构预测模型)四个大模型案例,展示了飞桨如何高效支持大模型训练和推理的应用实践。



他讲到,不同类型的大模型需要不同的分布式策略来实现高效训练。飞桨同时支持去中心化的集合通信和中心化的参数服务器训练架构。飞桨结合应用持续创新,先后发布了 4D 混合并行训练、端到端自适应分布式训练、超大规模图训练引擎等核心技术。而大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨提供了灵活、高性能的部署工具链,支持模型压缩、自适应多 GPU 分布式推理和服务化部署。飞桨推理引擎可以同时考虑内存、带宽和算力等硬件特性,自动将模型跨设备分区,并且支持灵活配置。


基于飞桨,百度自主研发的产业级知识增强大模型“文心”,通过引入知识图谱,将数据与知识融合,提升了学习效率和可解释性,目前涵盖基础、任务、行业三级体系共36个大模型,包括在能源、金融、制造等领域与相关头部企业联合发布11个行业大模型,全面满足产业应用需求、降低应用门槛。



 业界首个同时支持 

 复杂算法+超大图+超大离散模型的 

 图模型训练技术PGLBox 


焦学武分享了图模型训练技术 PGLBox 相关内容。百度基于飞桨平台完成了图神经网络架构的全新升级,为业界带来了超大规模图学习训练技术 PGLBox。PGLBox 是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD 三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模。



工业场景中现阶段普遍采用分布式 CPU 主引擎去做图模型训练,但该方案存在算力较弱、稳定性差,很难通过增加节点来提升训练效率等诸多现实局限。为解决这些挑战,百度首先构建分布式的 GPU 图学习训练框架解决性能问题,并创新性地采用了多级存储体系,将图规模提升一个数量级。百度还利用 PGLBox 提供的 GPU 算力和大规模存储能力,将跨模态的各种信息进行统一表达,传统的 CPU 则无法做类似处理。


在 PGLBox 的支持下,百度的 R-UniMP 模型赢得了 NeurIPS 2022 大型 GNN 挑战赛冠军。PGLBox 为百度业务创新提供了广阔的空间,目前已经在信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。


 端到端大模型开发套件PaddleFleetX,

 一站式搞定大模型 


百度资深工程师敖玉龙介绍了针对大模型的端到端开发套件 PaddleFleetX。PaddleFleetX 依托于飞桨深度学习平台,旨在提供高性能、易于使用和可扩展的组件,支持环境构建、预训练、模型微调、模型压缩,以及基于工业实践的推理部署。



PaddleFleetX 的核心技术包括全场景分布式并行策略、极致的分布式训练优化技术、丰富多样的模型小型化能力和高效的大模型分布式推理与部署方案。该开发套件中的关键组件可支持大模型开发与部署的端到端工作流,其中模型并行组件涵盖了各种各样的并行策略,分布式训练组件可以高效地扩展到数千台设备,模型压缩组件可实现无损压缩,分布式推理组件能通过硬件感知来实现低延迟。


 全场景高性能AI部署工具,

 加速打通AI落地“最后一公里” 


百度飞桨高级产品经理雷青介绍了一个全场景、高性能、简单易用的 AI 部署工具 FastDeploy。FastDeploy 可为产业实践中需要推理部署的开发者提供最优解。



为解决开发者部署 AI 时面临的复杂环境问题,FastDeploy 将飞桨和生态 AI 部署引擎 API 统一起来,开发者可通过一行命令灵活地切换多个推理引擎后端,并适用于云端、移动端和边缘端。


FastDeploy 为不同语言设计了统一部署 API,只需要三行核心代码就可以实现高性能的AI部署,并可以通过160多个先进的模型演示完成工业AI部署。会上分享了一些使用 FastDeploy 和 NVIDIA 硬件落地的案例,如在智慧油田场景实现了油气田作业智能防护系统,有效降低企业事故发生率。



扫描下方二维码或点击阅读原文即可观看百度演讲精彩回顾~




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存