本文整理自 2023 年 9 月 5 日百度云智大会 - 智能计算&大模型技术分论坛,百度副总裁谢广军的主题演讲《大模型时代的 AI 原生云》。观看视频回放请点击「阅读原文」。
全文中部段落附有演讲中 2 个产品演示视频的完整版,大模型赋能产品智能体验,精彩不容错过。
随着大模型越来越广泛的在各个产业落地,我们观察到市场对 AI 原生云的后续建设提出了 2 个要求。首先是面向大模型的训练、推理加速,以及 AI 原生应用架构的升级,其次就是利用大模型赋能产品,提供更智能的产品体验。
为了更好地服务于社会经济的智能化升级,我们进一步升级了 AI 原生云的各项产品能力,并提供了完善的产品矩阵,覆盖了数据中心、云基础设施、工程平台、AI 应用开发平台等,这其中就包括了最新发布的百度智能云千帆大模型平台 2.0。
1 更适合跑 AI 的云
首先,针对各类 AI 场景,百度太行·计算对云上通用算力和异构算力进行了全面升级。
第六代弹性裸金属实例 L6 搭载了 Intel 最新一代的 Sapphire
Rapids 处理器,综合性能较上一代提升 70%,同时支持 200 Gbps 的网络吞吐,进一步提升网络通信性能。与此同时,我们的搭载同代 CPU 的第六代云服务器虚拟机实例也已全面开放售卖。针对大模型训练场景,我们全新发布搭载了 NVIDIA H800
GPU 的弹性高性能计算实例 LGN6T,该实例同样配备了 Intel 的 Sapphire
Rapids CPU,在算力进一步增强的同时也提供了高达 3.2 T 的 RDMA 高速网络互联。LGN6T 实例在大模型训练场景下,综合性能较上一代实例提升 2.3 倍以上。针对大模型推理场景,我们的昆仑芯弹性裸金属实例也迎来了升级,全新的 NKL5 实例搭载了昆仑芯 R300 加速处理器,实例显存较上一代提升 4 倍,该实例在大模型推理场景下的综合性能较业界主流加速卡实例提升可达 50%。
在大规模集群运行过程中设备出现故障是一个常态,单点的故障可能造成整个 AI 任务的失败。我们从诊断预防、故障感知、故障恢复三个环节全流程保障稳定性:
首先,我们提供了自助诊断助手可以一键检查 GPU、高速存储、高速网络和系统环境等多个方面的系统健康度,提前发现系统隐患。
其次,在 AI 任务执行过程中,我们针对 9 大类 1000 余种报错信息精准侦测,实时告警。同时,基于已经定位的故障,我们提供了自动容错能力,可以分钟级拉起故障任务。通过这些能力的建设和实际的客户实践,可以实现万卡级别的大规模分布式训练月级不中断。大模型的落地不仅需要超大规模的算力支持,还需要全流程的存储加速用以提升算力效率。百度沧海·存储围绕大模型落地的设计了全流程存储加速方案,覆盖数据上云,数据处理、模型训练和推理,以及到最后的应用等各个阶段。
数据上云阶段,支持百度网盘的数据 100 Gbps 高速上传到对象存储 BOS。数据处理阶段,对象存储 BOS 重点进行了小文件读取加速优化和数据压缩解压的问题。训练和推理阶段,并行文件存储 PFS 极速型支持高达 8 PB 单文件系统,以及单文件TBps 的吞吐。应用落地阶段,块存储的新型号支持百万级别的单盘的 IOPS,能满足业务的极端性能诉求。作为检索分析引擎,BES (Baidu Elasticsearch)在大模型时代全面升级了向量能力,为大模型提供知识和记忆,在提升业务表现的同时,也能有效保护企业私域数据安全。在业务场景方面,BES 在传统多模态信息检索方面已经得到广泛应用,可以有效支撑文本、音视频、文件等信息的检索与推荐。为应对大模型业务需求,BES 强化了多源异构知识的向量化存储能力,并基于 LangChain 等框架,为大模型提供外挂知识库,支持智能问答或更自定义的大模型编排任务,下图左侧就是一个典型的业务流程示例。在技术指标方面,BES 单索引可以支持十亿规模向量、百万级 QPS、毫秒级查询延时;通过灵活扩展,可稳定支持百亿级向量规模,满足绝大多数企业的业务需求;为了降低开发和使用成本,我们还内置了 HNSW 等索引算法和多种相似度算法,可实现开箱即用。在持续提升单项产品性能,更好地支持大模型场景的同时,百度智能云也在通过各类资源交付形式,包括本地计算集群 LCC、边缘计算节点 BEC、专有云 ABC Stack 等,构建起分布式云,让智能算力无处不在。本地计算集群 LCC,能够为用户在本地交付公有云能力。LCC 当前内置的云产品种类较之前更加丰富,现在已经完成了智算和超算场景的相关产品集成,支持异构算力、高速网络和高性能存储等,并且通过百度百舸 AI 异构计算平台和 CHPC 云高性能计算平台来调度和管理智算超算任务。此外,LCC 可支持的部署和运营模式也进一步扩展,支持在百度 IDC 和用户 IDC 多地快速部署并可通过百度智能云虚拟云商平台快速构建客户专属资源池的运营和分发界面。为了让智能计算能够摆脱地域的限制,我们进一步扩大了边缘计算节点 BEC 资源的布局。在国内,我们新增了 80+ 边缘节点,覆盖了多个国家和地区。
同时,为了满足大模型场景在边缘落地,我们在边缘节点中部署了智算能力,包括异构算力、智算存储、智算网络等。此外,为了让各个节点的资源能够高效利用,我们探索构建算力调度网络,实现了分布式资源的统一调度,为客户提供随时随地随需的边缘算力。同时,为了满足用户能够在私有云环境获得更加强大的大模型落地能力,我们将全栈 AI 基础设施通过专有云 ABC Stack 进行输出。在 ABC Stack 中实现了四层架构的全面融合,提供端到端的「云智一体」的全栈 AI 基础设施,并对计算、存储、网络等各项能力的全面升级。同时推出了 AI 智算集群管理平台,提供全方位智能化运维能力,保障业务稳定运行。前面提到的都是关于「适合跑 AI 的云」方面的能力,接下来介绍一下利用大模型赋能云产品,提升使用体验的内容。
今天全新发布一款云服务器智能管理终端工具 SmartTerm。我们通过集成基于文心大模型的 AI 助手来帮助用户管理和运维云服务器。SmartTerm 不仅能帮助我们便捷登录和管理我们的云服务器,在运维命令查询、复杂命令和脚本生成、命令报错处理等工作上,都能得到快速解答和支持,AI 让云服务器运维管理变得更简单。
AI4DB 是工业界一直研究的话题,现在大模型让 AI4DB 真正走进实用时代。利用大模型的能力,百度智能云数据库发布新服务:数据库智能驾驶舱。数据库智能驾驶舱利用大模型能力实现数据库智能化的洞察、评估和优化。相比传统的机器学习的算法,在洞察、评估和 SQL 优化方面都获得了极大的提升。数据库故障洞察相比传统的人工定位提升 80%;智能评估相比传统的方法提前 1 个月发现数据库的容量瓶颈,规避相应的风险。SQL 优化也带来 40% 以上的提升。大模型给产品带来的新能力,让 AI4DB 走向真正的实用时代,数据库自感知,自修复、自优化、自运维成为现实。在大数据平台方面,我们持续推进数智一体化平台建设,将最新的 AI 能力引入到数据治理、开发和应用流程中。
- 在数据应用层,我们基于生成 AI,在 Sugar BI 中建设了智能问数功能,支持对话式数据探索,自动生成数据图表、结论,并能一键应用至报表和大屏中,让普通业务人员也能轻松进行数据洞察,显著降低使用门槛。
- 在数据开发层,我们基于生成式 AI 所提供的代码生成能力,在 DAMP、EasyDAP 的数据作业、数据预览阶段帮助自动生成脚本和代码,数据开发者的效率将得到显著提升。
- 在数据治理层,我们融合了基于传统机器学习的判别式 AI 和基于大模型的生成式 AI,实现异常数据的自动识别与修复,并进行潜在数据规则挖掘,减少对于人工规则的依赖,让治理更智能。
传统的制作流程,从需求沟通确认、创意和脚本的编写,到素材的拍摄采集、成片的制作、审核发布,流程非常长,重复性工作多,且依靠多种角色,人力成本高,制作效率低,无法批量化生成。现在,大模型支持下的各类 AIGC 工具的诞生将很大程度地解放生产力,因此,我们的百文阅影智能创作平台也应运而生。在创意阶段,依托于文心一言,只需输入几个关键词即可智能生成多种营销文案,激发策划师的创意灵感,并能自动生成带场镜次的详细分镜脚本。在拍摄阶段,借助 NBOX 的硬件盒子可以边拍边传,实时在远端预览管理素材。在视频剪辑视效阶段,借助大模型能力,可以实现 AI 成片,批量生成不同类型的视频。我们通过流程和工具的双重提效,将产能提升 10 倍,同时更多更快更丰富的投放内容,帮助提升曝光机会,从而帮助广告主获得更高的 ROI。在行业视频应用中,百度智能云 EVS 和 ECS 将大模型融入其产品能力中,实现在边缘侧采集数据、在中心训练升级大模型。将用户的项目落地时间大幅缩短,模型的高效迭代促进了用户业务效率大幅提升,并辅助用户科学决策。在低代码领域,结合大模型的能力,我们实现了仅用一句话就可以零门槛 AI 速搭行业应用。
爱速搭基于大模型提供了智能助手,帮助开发者在应用开发环节提速并降低使用门槛:- 应用生成能力:包括完整应用生成、领域模型、页面等生成能力,加速开发。
- 物料生成能力:不再受版权限制,快速生成行业物料,如图片、图标、组件等。
- - - - - - - - - - END - - - - - - - - - - 点击阅读原文,了解 2023 百度云智大会更多内容大模型驱动云计算创新变革
大模型时代的异构计算平台
大规模 AI 高性能网络的设计与实践
打造高性能 IaaS 计算架构,百度智能云 DPU 落地实践
面向大模型的存储加速方案设计和实践
构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景
向量检索在大模型应用场景的技术和实践
Sugar BI:大模型时代的智能 BI
智能感知编码优化与落地实践
低代码平台的流程引擎设计指南