大模型重构云计算
本文整理自 12 月 20 日举办的「2023 百度云智大会·智算大会」主论坛,百度集团副总裁侯震宇的主题演讲《大模型重构云计算》。观看视频回放请点击「阅读原文」。
欢迎大家来到 2023 百度云智大会·智算大会的现场,一起探讨大模型时代下,云计算产业的发展趋势与未来。
今天我给大家分享的主题是:大模型重构云计算。
毋庸置疑,以生成式 AI 为代表大模型是今年行业的热点,百度在 3 月 16 日发布了文心一言,3 月 27 日百度智能云也基于文心一言推出了面向企业客户的百度智能云千帆大模型平台。
自 8 月 31 日全面开放以后,得益于众多客户的支持,近 4 个月以来,目前千帆平台上大模型的日调用量增长了 10 倍,帮助众多行业客户实现了基于大模型能力的业务创新与升级。
同时,百度智能云自身以大模型为驱动,以云智一体为战略,持续高速发展,据 IDC 报告显示,在 AI Cloud 市场占有率评估中,百度智能云连续 8 次实现占比第一。
我们已经知道:以生成式 AI 为代表的大模型实现了 AI 从感知到认知的技术突破,是人工智能发展史上最大的一次技术跃迁。
特别需要注意的是,大模型不同于以往的 AI 技术迭代,它同时驱动了底层 IT 基础设施的重构,也带来了上层应用开发模式的颠覆。
2010 年左右,深度学习开始替代传统统计学的机器学习方法,逐步成为人工智能的主流算法。在移动应用上,深度学习大放异彩,算法模型能力成为很多移动互联网企业的核心竞争力。但是,深度学习仅停留在赋能应用上,并没有从实质上改变应用的研发编程范式。
2006 年 AWS 正式发布了首批云产品(S3 和 EC2),开启了经典云计算时代。虚拟化和网络技术使算力成为一种公共服务,数字化基础设施的格局被改变。云原生催生了新的应用架构和开发方式,大幅提升了移动应用的开发迭代效率,一定程度助力了移动应用市场的繁荣。
我们可以发现,移动应用、深度学习和云计算三个时代重叠,移动应用市场的蓬勃也受益于深度学习和云计算的发展,但是从应用、AI 技术和 IT 基础设施层面仍然是三条平行线独立演进。
在大模型开启的 AI 原生时代,这三条平行线终于迎来了交汇:在应用层,大模型理解、生成、逻辑、记忆的独特能力会催生 AI 原生应用研发新范式,整个应用技术栈、数据流和业务流都将被改变。
与此同时,大模型会成为通用的服务能力,也就是 MaaS,大幅降低 AI 落地的门槛、实现真正的 AI 普惠。
MaaS 终将成为新的基础服务,其依赖的新型 IT 基础设施也将进一步颠覆现有的云计算市场格局。
在这个背景下,百度智能云一直以来,以云智一体为核心战略,对云计算产品与技术体系进行全面重构,进而通过整个百度智能云反馈的能力,加速 AI 原生应用生态的繁荣,我们认为只有在行业客户的实际场景中落地,有更多的 AI 原生应用,才能构建出真正的应用生态,才能让大模型的价值得到充分的发挥。
繁荣的 AI 原生应用生态构建需要,大模型、智能计算、AI 原生应用的研发新范式三个要素相辅相成。
大模型是 AI 原生应用的大脑,让它有别于传统应用的使用体验。
智能计算则为 AI 原生应用的运行提供坚实支撑,使应用能够更快地响应客户需求,迭代模型效果。
而 AI 原生应用研发的新范式,则帮助开发者更加高效地基于大模型的能力开发出应用。
同时数据飞轮是开发AI原生应用的充分必要条件,有了数据飞轮,大模型的能力才能够更加高速地迭代,产品体验持续进步,因此数据飞轮将极大地加速 AI 原生应用生态的繁荣。
百度智能云也是以此为理念,为客户提供全面的产品和解决方案。我们提供更好效果的大模型,更高资源效能的智算基础设施,更优效率的 AI 原生应用开发平台,同时,提供系统的数据飞轮构建方法论和最佳实践。
下面我也将分别从这三个维度,进一步介绍百度智能云的业务思考和产品迭代。
首先在大模型层面,百度智能云提供业界领先的 MaaS 服务平台,百度智能云千帆大模型平台,加速大模型产业落地。
百度智能云千帆大模型平台提供了丰富好用的基础大模型,可以支持不同的场景和客户进行选择使用。包括文心系列、Llama 系列、Baichuan 等行业开源模型。
其次,百度智能云千帆大模型平台提供了完整易用的大模型工具链,在大模型的具体场景落地时,往往基础大模型不一定完全满足需求,此时就需要基于场景数据,对通用的基础大模型进行精调、压缩等,为此百度智能云千帆大模型平台提供了包含了模型评估、模型有监督精调、持续预训练(Post-Pretrain)RLHF、模型压缩等全流程的工具链。
最后,为了帮助客户基于大模型构建数据飞轮,百度智能云千帆大模型平台提供了数智一体的数据飞轮工具链,包括了数据管理的全生命周期工具,包括数据采集、标注、清洗、增强、回流等。
后面我的同事忻舟也会进一步对于百度智能云千帆大模型平台的更多迭代升级进行细致解读。
在 AI 原生时代基础设施领域,面向大模型的基础设施体系也将全面重构,让计算更智能,这也是去年智算大会的主题,今天也在这里分享一下在基础设施层面中的全新的思考和进展。
首先我们看一下在 AI 原生时代的一个典型的系统架构,它将至少包含三部分,模型、数据和 AI 原生应用。
在模型部分,包含训练和推理两个阶段,在训练阶段,基于不同的数据,将会训练基础大模型、行业大模型和场景大模型,然后进入推理服务环节,提供 API 服务来响应应用系统的需求。
在数据部分,需要对通用数据、行业数据和场景数据进行很好的存储,管理和分析工作,以支撑模型和 AI 应用的数据需求。
在应用部分,则面向具体场景,以大模型为核心,构建高性能、高可扩展、安全的业务系统,一般包含业务前端模块,后端模块以及面向大模型使用的任务编排和领域知识检索等模块。
以上三个部分还需要形成一个有机的整体,帮助应用系统实现高效的数据闭环。
在以上的典型架构下,就需要对于三个维度的基础设施服务,包括面向模型的智算基础设施,面向数据的数据基础设施以及面向应用的云原生基础设施进行全面重构,以更好的支撑 AI 原生应用的系统落地。
- 百度智能云在智算基础设施的重构层面,发布了百度百舸·AI 异构计算平台,提供了面向大模型训推的多芯、高速互联、高性能存储以及加速能力。
在云基础设施的重构层面,百度太行·计算、网络、容器引擎 CCE 等产品也进行了全面的重构升级,更加弹性,高性能,并具备智能化运维能力。
在数据基础设施的重构层面,百度沧海·存储,以及云原生数据库 GaiaDB 等面向大模型时代知识的管理和存储全面升级了向量能力。在大数据分析平台层面,也基于大模型能力进行产品体验的升级,支持更加智能化的数据分析和洞察。
下面我将为大家带来百度智能云在基础设施层面百度智能云全新的产品与能力升级。
首先,为大家带来面向大模型专项优化的智算平台 —— 百舸 3.0。
百舸 3.0,核心面向大模型的训推进行了全面的升级优化。
大模型的训练和推理对于集群的规模,性能都提出了很高的要求,同时异构 AI 芯片的投资也是很大的,也需要提升资源利用率以降低业务成本。百舸 3.0 通过在各个层面的优化,在各种维度的指标上做到了业界领先水平,我们的训练吞吐和推理吞吐相比开源版本分别最高提升了 30% 和 60%。在资源利用率层面,机器的有效训练时长达到 98%,带宽的有效利用率可以达到 95%。在规模上可以支持万卡级别超大规模 AI 计算,同时提供了丰富的运维和可观测工具以及容错保障能力,以提升大规模集群长期运行的稳定性,降低由于资源故障导致训推任务异常终止的概率,减少业务损失。
在 AI 原生时代,智能算力在业界整体的供给平衡也是个很重要的问题,一方面需要解决部分企业的算力需求鸿沟,另一方面有些政企构建的智算中心又面临资源利用率不足的情况,基于此我们正式发布智算网络运营平台,以打造开放的算力生态,满足业务场景需求,提升行业的整体资源利用率。
百度的智算网络在底层物理层,除了基于百度自建的智算中心,也支持接入第三方智算中心,传统的 IDC 资源,边缘算力资源。这些多种形态的资源,通过标准 API,云原生接口统一接入管理。往上也提供了算网数据层和算网编排层,提供智能化的调度能力,包括算力感知、调度、路由和监控能力。同时也面向不同的应用场景打造端到端的解决方案。
基于百度的智算网络,在算力需求端可以更好地满足客户的弹性,高性价比的算力需求。在算力供给端,帮助客户提升资源利用率,有更多渠道的业务增长。
更多我们在基础设施领域重构产品的进展,下面也会有我的同事谢广军做进一步的介绍。
以生成式 AI 为代表的大模型,让 AI 技术的落地产生了新的范式,以前的辨别式 AI 技术往往针对每个细分场景都要独立地准备数据、训练模型、开发 AI 应用,导致了模型的碎片化,落地效率低的问题。而在生成式 AI 大模型阶段,客户可以基于基础大模型,直接通过 Prompt 的方式进行场景适配,也可以按需准备少量的场景数据进行模型精调即可取得很好的效果,极大地降低了 AI 技术落地的门槛。
进一步,我们可以看到以生成式 AI 为代表的,大模型驱动的 AI 原生应用的研发新范式,有如下几个新的变化:
第一:新场景。生成式大语言模型,在生成,理解,推理,记忆等多个维度具有超出预期的能力,出现了智能涌现,基于此也催生了很多新的可落地业务场景应用,例如个人助理,智能文案创作,生成式 BI-GBI,编码助手等。
第二:新架构。在这些新的场景大模型具体落地过程中,也产生了很多新的系统架构,例如 Assistant,检索增强 RAG 架构,智能体 Agent 架构,相信大家都不陌生。
第三:新开发生态。以大模型为核心,开发者工具层也有一些新的工具,包括编排工具 LangChain、PromptFlow、RAG 工具 LlamaIndex 等。
这些领域的技术也在发生日新月异的变化,因此想要开发一款 AI 原生应用其实非常复杂,开发者往往需要做很多工作。比如做技术选型、选模型、找各种工具。
这给企业和个人开发者带来新的挑战。如快速学习理解相关新技术,在自己的业务场景实现快速落地,都是现实的问题。针对这些情况,百度智能云也推出了相关的产品解决方案。
10 月 17 日的百度世界大会上,为了助力 AI 原生应用的繁荣与高效开发,沈抖博士发布了 AI 原生应用开发工作台。现在我宣布,AI 原生应用开发工作台 —— 百度智能云千帆 AppBuilder 即日起全面开放。
AppBuilder 将基于大模型开发各种应用的常见模式、工具、流程,沉淀成一个工作台,能够让每一个开发者聚焦在自己的业务诉求上,不再为研发过程发愁。
我们主要提供两个层面的服务,一个是应用组件,一个是应用框架。
应用组件就是对一些云和 AI 的能力进行组件化封装,让每个组件完成一个特定的功能。AppBuilder 不仅提供长文总结、NL2SQL 等基于大语言模型的能力组件,同时提供像文生图、语音识别等多模态的能力组件,以及向量数据库等基础云和软硬一体能力组件。
当然直接去用这些组件还是有一些门槛的。所以我们又把这些组件串联、组合起来、让它们可以比较完整地完成一个特定场景的任务,这就是应用框架。现在 AppBuilder 提供检索增强生成-RAG、Agent、智能数据分析-GBI 三个常见的应用框架。
我们提供了两种产品形态。
其一是低代码态,在 AppBuilder 中通过简单点选,即可获取对话应用。
开发者还可以通过代码的方式,进行更深层次的应用开发。我们提供面向程序开发者的开发套件,包括 SDK、开发环境和调试工具。应用示例代码和开发应用所需要的各种应用组件,开发者可以在 AppBuilder 一站式获取。
不仅仅是大模型,也不仅仅是 AI。我们致力于帮助开发者在百度智能云千帆 AppBuilder 一站式获取 AI 原生应用的全套开发资源。满足更灵活、多样的 AI 原生应用开发需求。
稍后,我们的孙珂博士也会带大家来直接来感受下,基于工作台搭建一个应用有多简单。
百度智能云的战略是云智一体,深入产业,生态繁荣,AI 普惠。在这个 AI 原生的时代,我们也将持续努力,推出有竞争力的产品方案,让 AI 技术普惠可得,和生态伙伴一起,持续深入客户场景,帮助客户实现数智化升级,有更多的 AI 原生应用创新涌现。
以上是今天分享的全部内容。
- - - - - - - - - - END - - - - - - - - - -
点击阅读原文
了解智算大会更多信息
传送门