英特尔:基于Xeon CPU的AI解决方案
主题:英特尔Xeon CPU上部署AI,特别是推理。
综合考虑时间、地点、推理能力、灵活性以及巨型AI模型、硬件和软件选择等多个方面,需全面权衡总体拥有成本。同时,结合实际案例,基于现实情况进行分析,以避免盲目跟风现象。 尽管深度学习训练常需加速器支持,但在部署阶段,通过CPU和加速器的混合使用可实现高效处理。CPU尤其适合处理混合通用和AI工作负载,不仅部署便利,还有助于降低TCO。 在客户实际应用的模型中,AI部署主要分为两种类型:一是针对大规模专用AI任务,可能需借助加速器;二是处理通用和AI任务混合的工作负载,此时CPU表现优势。为此,设定了模型大小的阈值,建议对参数不超过200亿的模型采用CPU处理,而更大规模的模型则推荐使用加速器。客户实例充分展示了在CPU上部署AI技术对混合工作负载的优越性,如实时转录和语音翻译等增强AI功能的视频会议应用。 生成式AI和大型语言模型的应用场景中,CPU能满足约200亿参数模型的延迟要求。 特定模型的性能数据揭示了“下一个token”的延迟在确定特定任务适合使用CPU还是加速器时的重要性。 在软件方面,优化Upstream至诸如PyTorch和TensorFlow等标准工具至关重要。同时,英特尔特定工具如OpenVINO和神经压缩器能进一步提升性能。Xeon系列间的顺畅过渡以及英特尔广泛的生态系统为AI技术在各领域的部署提供了更多可能性。
-----
在英特尔,每当提及AI,我们总是将其置于一个完整的流程中来讨论,从捕获数据、汇集所需数据集以训练模型,再到部署模型服务并扩展解决方案以进行推理。
尽管我们常常讨论整个流程,但鉴于今天的对话主题,我想特别聚焦于推理环节。
一般而言,数据步骤极度依赖CPU,用于收集数据和创建数据集。然而,在深度学习训练领域,大规模模型的训练通常需要借助加速器来完成。但在部署环节,我们观察到CPU与加速器(如GPU等)之间存在大量的混合使用。因此,今天我想从CPU的角度出发,探讨我们在CPU上进行推理的机遇,以及我们不断听到的关于客户为何选择在CPU上部署的关键原因。我们致力于满足客户的核心需求,实现部署的便捷性,并为混合通用和AI工作负载带来显著的TCO收益。这些内容我将在后续的幻灯片中详细阐述。
当考虑在Xeon上部署AI时,我们观察到客户使用的模型呈现出不同的特点。
有专门用于AI的大规模周期,这类周期在深度学习训练中通常非常AI中心化,几乎不涉及通用周期。以大规模推理为例,如推理一个万亿参数的GPT-4模型,OpenAI和Anthropic等公司正在部署这些大规模模型,其中大部分周期都是AI周期,使用加速器是合情合理的。
在其它场景中,许多成熟的公司已经开发出产品并投放市场,这些产品中并没有AI。但随着AI新能力的出现,他们正考虑将其融入应用中,这就是通用目的和AI周期混合的地方。此时,客户表示在CPU上部署他们的解决方案提供了巨大价值。
观众:这是神经网络节点数量的区别吗?例如,一般用途和大规模的区别在于,超过200亿个节点的属于加速器,而少于50亿个节点的则是...
稍后我会详细讨论这一点,当然会有多个标准需要考虑,特别是当我们谈论大型语言模型时,模型大小、应用程序及其要求都是重要因素。通常,涉及大型语言模型时,延迟问题变得尤为关键。例如,在代码生成与聊天机器人方面,会有不同的延迟要求,这也会影响选择。接下来,我将通过幻灯片展示一些我们在CPU上的大型语言模型数据,特别是在推理AI方面,我们认为CPU的潜力有多大。
当我们观察右侧的场景时,一个关键点是AI周期以及与AI周期相关的数量。
这些在很大程度上取决于我们在CPU上运行这些AI周期的速度。为了更好地说明,我们选取了一个被众多行业客户使用的较旧模型或等效模型大小作为案例。在生成式AI迅猛发展的时代来临之前,大多数模型的参数数量都少于十亿。当我们开始度量AI工作负载的性能时,回溯到Broadwell时代,那时我们的帧率是每秒400帧。然而,到了我们当前一代的CPU,帧率已经飞跃至每秒19,000帧。因此,当你考虑到这每秒19,000帧的惊人速度,即使支持数百个摄像头也不在话下。你无需将整个CPU插槽用于部署AI推理,只需利用几个核心即可完成AI任务,同时剩余的核心还能轻松应对通用目的的应用程序。
举个例子,这是一个视频会议客户的成功案例,很好地诠释了我所提到的通用目的和AI的混合应用。请看左侧,这里展示的是通用周期与实时视频、音频、以太网群聊、屏幕共享、录制等功能的关联。这些功能都部署在通用数据中心CPU上,客户需要全球部署以支持全球范围内的会议。他们特别需要实时转录功能,因此提出了一系列要求,包括实时转录的延迟要求以及每个vCPU实例所能支持的会议数量。我们的CPU能够轻松满足这些要求。从IT基础设施的角度来看,客户已经有服务器在处理这些通用周期,他们只需增加少量服务器,因为只需几个核心就能支持数十个会议。这简化了代码管理和部署工作,为客户带来了实实在在的TCCO收益。
此外,他们还实现了语音翻译功能,同样获得了显著的好处。我们也看到了这种技术在客户端的延伸。对于这位客户而言,视频流的处理部分可以在笔记本电脑上完成,部分则可以在云端完成。这种混合应用方式使他们能够充分利用所有CPU的出色性能。希望这能让你更深入地理解我所说的混合通用和AI工作负载的含义。
观众:在客户端方面,有一个问题,在聊天中,我们无法确定谁会使用或使用哪种电脑,因此我对客户端的具体含义有些困惑。我不清楚那里的工作负载是否基于Transformer模型。
实际上,它们通常不是基于Transformer的,因为目前的CPU还无法实时处理大型语言模型。我预计在未来的几代产品中,随着CPU功能的不断增强,我们可能会看到更实时的处理能力。但目前,它们确实利用了我们核心中的嵌入式AI技术。这家公司能够充分利用这一技术,在其代码库中提升会议效率,即使在实现这些应用程序时,也能降低CPU功耗,使配备核心CPU的笔记本电脑更加节能。
观众:你们是否观察到了客户层面的实际使用案例,这些案例是否推动了公司在客户端选择使用Xeon?
是的,绝对有。当然,我并非指的是桌面应用,但在客户端领域,确实有很多我们的企业客户仍然选择在本地部署。他们通过单个设备、机架或一组服务器来解决应用程序问题。下一个话题很可能是关于在本地部署一组服务器,以解决客户希望解决的一些问题和关键挑战。
观众:上一张幻灯片有一个图表,旁边有一个关于功耗的视角,我试图理解如何解读它。比如,最新一代的每秒19,000帧,对应的功耗大约是多少瓦特?我应该这样理解吗?
不,抱歉,我忘记去掉右侧的轴了。实际上,功耗变得更加高效了,所以虽然性能提升了,但相对功率并没有以相同的速率增加。我只是疏忽了,忘记去掉右边的轴。
观众:关于客户端问题,你谈到了不同的服务器节点在本地扮演客户端角色。但我认为问题可能是关于这些工作负载是否会转移到客户端平台,以及你是否在核心上集成了与Xeon相同的加速技术。或者,这些核心在这些应用程序中是否足够好?
随着每一代核心的推出,我们都在加入新技术。我想说的是,我们在核心中嵌入的技术越多,在Xeon中嵌入的技术也就越多,就能够在CPU上部署AI。一般来说,目标会发生转变,如果看看生成式AI的出现,现在我们在谈的是数百亿到数万亿的参数,而在过去,即使在Broadwell时代部署ResNet在Xeon上时,这看起来是合理的,但仍然无法击败竞争对手。但如今,在两到三个核心上,你可以实现每秒数百帧,甚至每秒数千帧的ResNet-50,因此,使用专用加速器的理由已经不复存在了。
总的来说,我们和市场都在不断提高标准。关于他们想要实现的目标,加速器也在不断提升标准。当你看到广泛的市场部署时,期望是,今天难以实现的模型明天将很容易在CPU上部署。所以,我们不断在我们的CPU中增加新技术,以应对市场上出现的各种模型。
观众:在那种情况下,使用的模型是量化模型。我的意思是,刚才提到的BF16(Brain Float16)之类的东西,而不是特定的精度值,例如64位或 32位?
总的来说,我们看到经典机器学习在很大程度上仍然保持在FP32精度上。当我们看深度学习工作负载时,我们看到的是一种混合情况,一些客户仍然坚持使用FP32精度,而许多客户会降到BFloat16、FP16或其它数据类型,所以这是一个很大的混合。最棒的一点是,我们已经添加了技术,因此在Xeon上我们添加了这个AMX(Advanced Matrix Extensions)技术,所以在每个核心中都有一个矩阵乘法,我们支持多种精度和必要的软件来将其量化到这种精度上。
观众:刚才你提到的视频会议示例中,你展示了一个蓝色和黄色的图表,并解释了他们的做法,但我还有些不太明白他们为什么要这么做,以及他们是如何评估这一点的,与在云端使用专用加速器相比。
确实,他们没有透露关于竞争产品的具体结果。通常,他们只是从IT基础设施的角度来谈。你看蓝色部分,他们在全球拥有大量服务器,所以如果只是增加几台服务器,从管理的角度来看会变得更简单。因为只需少量核心就能完成推理任务,他们很容易集成,也能保持尽可能低的延迟,不必将工作负载转移到其它地方。
第二点是,他们告诉我们,我们有一系列要求,而Xeon很容易就能满足或超越这些要求。第三点是,从代码的角度看,现在他们只需管理一个代码库,无需担心加速或部署加速器的问题。所以,我认为使用加速器的阈值是有意义的,但这个阈值会因客户而异。他们确实提到我们的性能与GPU测试相当接近,但由于无法进行软件到软件的直接比较,所以很难确定其它方面的优劣。
观众:但从他们的角度看,他们显然已经进行了自我评估,并且在大规模运作中取得了不错的效果。
说到生成式AI,这无疑是当前热议的话题。我们在市场上看到了一种分化,虽然这更多是个人的主观观点。总的来说,我们看到的是巨型AI模型或巨型大型语言模型的创建,这些模型具有数百亿到数万亿的参数。一般来说,我们看到的是超大规模数据中心作为第一方使用案例向全世界提供服务,或者我们看到像Anthropic和OpenAI这样的初创公司构建这些超万亿参数模型。另一方面,我们也看到了许多灵活的AI模型或小语言模型的创建,参数数量在一个亿到数千亿之间。这是大多数企业或我们预计大多数企业最终会选择的方向,主要是因为部署千亿级以上参数的模型成本高昂,而且通过利用检索增强生成或微调等能力,可以更好地完善应用程序或用例,使模型更适应具体需求。因此,我们看到许多客户和模型更多地在灵活的AI模型领域进行开发,这也是Xeon能够发挥重要作用的地方。
总的来说,Xeon确实能够满足一些大型语言模型在关键延迟方面的要求,特别是在参数不超过200亿的情况下。当然,具体的延迟情况还取决于用例。我会在接下来的幻灯片中给大家展示一些实例。但如果模型的参数超过了200亿,那么使用加速器会更为合适,因为这时Xeon可能就无法满足关键延迟的要求了。
举个例子,GPT-J模型拥有60亿参数,对于这种规模的模型,关键要求之一就是下一个token的延迟,这关系到下一个单词的生成速度。如果能在聊天机器人中实现100毫秒内的单词生成,那么基本上就超过了人的阅读速度。因此,我们的目标就是达到或超越这一速度。GPT-J就是一个很好的例子,我们能够轻松实现约30毫秒的延迟。然而,当参数规模达到130亿的LLaMA模型时,延迟就开始接近60毫秒,即接近那个100毫秒的阈值。
有些客户对100毫秒的延迟有更高的要求,即使模型参数小于200亿,他们也会选择使用加速器。这并不是说在所有情况下,只要参数小于200亿就应该使用CPU,但200亿确实是我们能够满足客户关键需求的一个分界点。现在的问题是我们是否能满足你的关键需求,并实现我之前在几张幻灯片中提到的部署和集成的便利性。
观众:请澄清一下,这基本上是使用所有的核心,而不仅仅是一个单独的核心?
这是使用所有的核心。可以开始使用更少的核心并将其推向100毫秒的阈值,而且会很好,但是就像在20亿参数时所说的那样,很可能正在使用所有的核心,并且将满足100毫秒的延迟要求,但是它将使用整个芯片,这就是我说的在这一点上使用CPU可能没有意义的临界点。
观众:你谈到了在应用程序级别的需求,但是对于CPU本身来说,这意味着什么呢?我是说,你是更关注更多的核心、更多的内存、更快的内存、新的指令集等,路线图上的重点是什么?
确实,在大型语言模型的应用中,我们主要关注两个方面:一是首个token的延迟,这通常是计算密集型的;二是后续token的延迟,这往往是内存密集型的。因此,更多的核心将有助于提升计算性能,而更大的内存带宽则有助于优化内存访问。在我们即将推出的第六代Xeon中,我们将进一步增强内存功能,并增加更多的核心,从而显著提升性能。事实上,在推出第五代Xeon时,我们已经展示了其性能相比前代有了3倍的提升,这主要得益于更强的内存功能和计算能力。
观众:我还想强调的是,英特尔在整个产品升级过程中都保持着领先地位。我对其它演讲者提到的从一代产品过渡到下一代的工作流程和体验也非常感兴趣,尤其是这种过渡需要多少努力。比如,对于用户来说,从物理上更换第三、四、五代Xeon到第六代,这样的工作流程是怎样的?在云端或利用这些平台的服务中又是如何进行的?我对这些方面的整体努力程度非常关注。
接下来,我想在软件部分进一步讨论这个问题。我准备了两张关于软件的幻灯片。如果有任何我未涉及的内容,请随时提醒我。
观众:关于软件的测试是如何进行的?是在单个用户上进行的吗?我们如何利用所有的核心来扩展测试?这些数据是如何生成的?是基于一定数量的并发用户还是只是一个人使用内容生成?
我们目前主要在单个用户上进行研究,但我们正在积极探索扩展至多个用户的可能性。我们相信在单一服务器上,我们可以支持8到16个同时用户运行大型语言模型。对于拥有130亿参数的模型,我们已经进行了测试,并成功支持了16个用户同时运行。
观众:没有性能下降吗?
不,没有性能下降,这取决于,我们仍然满足100毫秒的延迟要求,仍然满足这一关键阈值,我们能够同时处理多个用户,这个数据是显示一个同时用户,所以期望是这也会对我们的客户有什么样的性能期望起到一定作用,但一般来说,你所选择的模型越小,延迟就越低,如果你的延迟阈值是100毫秒,那么你可以开始增加并发用户,所以我们最近有一个数据点是130亿参数模型上的8个同时用户,我们仍然保持在100毫秒以下的延迟...
观众:我不确定你是否已经回答了这个问题,但我认为我预期这个图表是像第一个token还是下一个token?
这都是下一个token,因为大部分时间都是下一个token,所以这是我们通常展示的关键延迟。
观众:你有这些数据吗?
是的,有的,我可以在之后与你分享。
好的,接下来我们谈谈软件部分。对我们而言,重要的是不仅提供卓越的性能。我们已经看到了我们今天的CPU在性能上所达到的水平,但对于下一代产品,我们期望至少能够实现2.5倍的性能增长,这至关重要。
随着我们从一代产品发展到下一代,这些大型语言模型,特别是参数规模在10到200亿之间的模型,将能够支持更多的并发用户。最终,我们将达到一个点,在这个点上,处理10到200亿参数的模型将变得与我们在ResNet-50上今天所能做到的类似,也就是说,你只需使用两到四个核心,就可以轻松部署你的大型语言模型。
总的来说,重要的不仅仅是提供性能,英特尔的观点是,我们还需要让这一切变得简单。我们的主要目标一直是持续改进(Upstream)。大多数客户在构建和部署深度学习模型时使用的是PyTorch或TensorFlow,而在部署时,他们则倾向于使用TensorFlow Serving或PyTorch Serving。我们的目标一直是让我们的所有优化措施都能融入这些标准工具中。所以,当你从第三代产品过渡到第四代再到第五代时,只需获取最新版本的PyTorch或TensorFlow,你就能够立即享受到最佳性能。
目前,我们正与各大基金会合作,推动这些优化提交到Upstream,但有时候,将这些优化措施整合到Upstream确实需要一些时间。这就是为什么我们提供了扩展工具,例如英特尔扩展的PyTorch。在某些情况下,使用这些扩展工具通常能够带来更好的性能,但这也取决于行业中正在发生的趋势。
为了让你更好地了解,我们拥有大型语言模型,这是我们正在探索的一个新领域。因此,我们投入大量精力进行优化工作,并努力将这些优化整合到Upstream中。但目前,许多优化措施都集中在我们的英特尔PyTorch扩展中。随着我们在Upstream工作的不断推进,我们将努力缩小你在使用PyTorch与添加该扩展之间的性能差距,并在某些情况下提供额外的性能提升。
从历史上看,当我们发现市场上存在某些差距,或与我们的产品相关的市场需求时,我们会针对性地开发工具。例如,我们的英特尔神经压缩器(Neural Compressor)就是围绕量化功能设计的。尽管TensorFlow和PyTorch都具备量化能力,但我们发现利用我们的CPU可以提供更加优化的量化机会。因此,我们开发了这一工具,并通过OpenVINO提供了许多优化措施。这些只是我们开发的一些工具的例子,但从根本上说,关键在于Upstream,因为那是大多数客户所在的地方,也是我们的目标所在,即通过Upstream为客户提供服务。
观众:对于不熟悉OpenVINO的人来说,它是一个强大的工具。你只需将现有的模型导入其中,它就能对模型进行量化处理。
是的,OpenVINO是一个模型服务工具,你可以在PyTorch或TensorFlow中训练模型,然后通过OpenVINO进行转换,之后你就可以开始使用OpenVINO进行模型服务了。
总的来说,我们在整个流程中提供了多个工具,这些工具都是我们与生态系统合作伙伴共同开发的,旨在提供关键的能力。但从推断的角度来看,今天的关键工具是PyTorch、TensorFlow和OpenVINO。关键在于当我们推出新一代的Xeon处理器时,客户只需在芯片发布时获取最新版本的PyTorch,因为我们会将许多优化措施整合到这些框架中。这样,客户只需更新到最新版本即可。
希望这能让你更好地了解我们在硬件和软件方面所做的努力。我们不仅仅满足于这些,在英特尔,我们专注于超越硬件和软件,拥有强大的基础设施能力基础,支持整个业界,这是我们与市场互动的桥梁。
客户不仅仅购买CPU,他们购买的是来自Dell的服务器,使用GCP获取实例,在VMware等虚拟化环境中设置,还会利用Kamiwaza等ISV的服务。因此,我们的目标是确保能够在客户所在的地方提供服务。
我对今天即将分享的一些案例充满期待,因为我相信它们能很好地展示齐恩在整个AI流程中的定位,特别是其在推理方面的突出表现。但更重要的是,我希望它们能证明英特尔在整个生态系统中无处不在的基础能力,使得客户能够轻松地在任何地方部署AI。
观众:我对这个阵容确实很感兴趣。在我们继续之前,我有个问题想请教你。最近我经常听到关于AI初创公司正在研发推理加速器芯片的消息,它们似乎都瞄准了英特尔所说的CPU作为理想选择的市场。那么,你如何看待英特尔对这一领域众多VC投资和初创公司参与的态度?如果CPU真的足够用,我们又该如何看待这种现象呢?
其实我想说,CPU并不是万能的。在某些情况下,CPU确实足够应对需求,但在很多情况下,它可能无法满足。比如那些拥有万亿参数的模型,或者像GPT-4这样拥有1750亿参数的模型,齐恩目前还无法在这个领域发挥重要作用。也许在五年后,我们会讨论到10万亿参数的模型,那时CPU或许能够轻松处理一万亿参数,但就目前而言,CPU能够应对的阈值其实相对较低。在参数规模不到200亿的情况下,CPU仍然是一个不错的选择。但当需求超过某个点时,我们就需要转向GPU或其它加速器了。因此,我认为CPU并不是推理的唯一解决方案,但它确实是一个能够满足大部分市场需求的解决方案。这些VC投资是有其道理的,因为一旦需求超过了CPU的处理能力,我们就需要寻找其它的加速器。
观众:我认为面临的挑战在于,我发现这些加速目标似乎覆盖了整个需求范围,即使在较小的LLM空间中也是如此。所以我想问的是,为什么你认为它们在处理较小规模需求时会趋势下降呢?
我认为这个市场潜力巨大,充满了众多机遇,同时竞争也相当激烈。事实上,AI在行业中代表着巨大的收入机遇。因此,随着这个巨大的收入机遇的出现,自然会有竞争对手前来争夺CPU能够满足需求的各种领域。这些公司中的大多数,根据应用程序的不同,可能正在直接与客户接触并提供价值。我并非想说CPU能够解决所有问题,但正如你所指出的,有很多产品正在开发中,试图抓住这一收入的大部分,因此竞争会相当激烈,特别是在AI行业快速变化、收入机遇巨大的背景下。
观众:我认为我甚至可以提出一个观点,ARM将成为英特尔晶圆厂中最重要的客户。因此,随着ARM在某些用例中变得更加引人注目。显然,它没有与AI相关的最佳表现数字(hero number),与x86的主要竞争对手相比。我绝对可以看到其它加速器与ARM结合的用例,我不知道今天是否已经实现了这个情况。从路线图的角度来看,正如我们在昨天的活动中讨论过的,AI在边缘的用例可能无法从功耗的角度来看满足Xeon处理器的需求。我看到那里有一个利基市场,我不知道是否已经有一个完整的需求场景,但我绝对可以看到一些在Xeon处理器范围内发挥作用的加速器的潜力,你可能会问,为什么我只会选择Xeon处理器,必须有一个原因,它可能是ARM或其它一些低功耗处理器平台。
观众:我认为另一个值得关注的点是易用性,以及你之前提到的利用其它核心进行其它工作的能力,这无疑是Xeon的一个潜在价值所在。但这同时也引发了一个问题,我相信随着我们进入2024年,这些公司不断成熟,我们将越来越多地讨论这个问题。
-----[总结]-----
在今天的演讲中,我们一同探讨了多个AI部署的案例,特别是那些聚焦于CPU推理的部署情况。为何客户会选择在CPU上进行部署呢?这其中涉及了多方面的考量。
Nature Fresh Farms
Nature Fresh Farms是一个生动的实例,展现了客户在现实世界中遭遇的日常挑战。面对这些挑战,你自然明白如何部署才能满足他们的核心需求。他们有一个严格的时间要求,那就是必须在30分钟内完成任务,而CPU恰好能够满足这一需求。对他们而言,考虑其它方案似乎并不实际,因此我们选择在CPU上满足他们关键的TCO需求。他们并未看到转换的必要性,这也是为何我们的客户会一再选择使用我们的关键领域之一。
这也归功于部署的便捷性。当你开始为你的系统添加新产品时,无疑会面临一些基础设施方面的挑战。但通过采用CPU,他们无需为此担忧。他们已习惯使用CPU,并深知如何管理它。他们只需将AI工作负载添加到他们的应用程序中即可。
VMware
VMware的演讲让我颇为兴奋,尽管有时觉得有些幽默。但话糙理不糙,能用CPU时就尽量用CPU,必须用到GPU时才选择GPU。他们在展示推理十亿参数模型的演示时,展示了在同一系统上进行的三次并行推理,以及在8个核心上实现的图像跟踪算法。这再次证明,当涉及一些较小的推理场景时,CPU完全可以胜任,甚至可以说是首选。当然,有时我们可能不得不转向GPU,但关键在于了解这个转换的临界点在哪里,而这会因不同的客户而有所差异。
GCP
GCP方面,我们所观察到的一个有趣现象是,目前大部分的推理工作都是在CPU实例上完成的。这更多地反映在广大企业客户群体中。这不禁让我想起了之前演示中提到的一句话,那就是当面对大规模的训练或推理场景时,我们应该考虑转向使用加速器。不知你是否还记得,Brandon曾经说过,这些需要大量系统资源的大规模场景,最终都会转向GPU和TPU。然而,对于大多数部署更实时、规模较小的模型的企业客户而言,他们更倾向于选择在CPU上进行部署。这在今天讨论的所有内容中显得尤为突出,也为我们提供了深刻的启示。
Kamiwaza
最后是Kamiwaza,当你们开始构建并部署这些AI系统时,面临的挑战可谓不小。整个流程充满曲折,需要深厚的专业知识才能顺利穿越。因此,寻找简化这一过程的方法至关重要。好在VMware和谷歌云正在这方面进行大量的努力,而像Kamiwaza这样的关键合作伙伴也扮演着不可或缺的角色,他们为客户整合所有内容,使流程更为简洁。我们有众多这样的合作伙伴,他们真正擅长简化整个流程,能迅速让第五代Xeon运转起来,这实在令人赞叹。他们只需短暂的时间就能使其投入运行。现在,Azure中的私有实例也提供了这一功能,我相信他们能获得访问权限并顺利运行,同时还能够展现出卓越的性能。
因此,部署的便捷性成为了关键。客户熟悉如何使用CPU,并能在其上迅速完成部署。在展示的例子中,CPU的表现确实令人瞩目。对我而言,回顾整个历程,我深感收获颇丰。在很多情况下,尤其是在进行模型训练时,特别是深度学习模型训练,我们确实需要加速器来助力。但当我们开始考虑部署时,CPU的作用就凸显出来了。特别是在推理解决方案时,如果使用的模型参数少于200亿,CPU往往能胜任。我希望你们能从我们的合作伙伴和客户那里听到,他们选择我们的原因,正是因为我们能够满足客户的需求,提供便捷的部署方式,并为那些混合通用和AI工作负载的客户带来TCO收益。
-----
观众:我还想补充一点,因为我深觉AI的变化之大令人惊叹。现在我们正处于数字化转型的初期阶段,明显能感受到它的来临。现在关于AI的炒作实在是太多了,以至于很难单纯地称赞它,而不去探讨它实际上是如何运作的。因此,我非常感激能更深入地了解Xeon芯片,以及它们是如何开始应用于大型语言模型的。它们与整个私有数据中心的硬件非常匹配,因此与我们所熟悉的许多基础设施事务都有关联。我认为我们需要更多这样的内容,帮助人们开始掌握正确提问的词汇,开始问出关于实际操作的正确问题,而不仅仅是停留在理论层面。
是的,绝对正确,这是一个快速变化的领域。就在几个月前,我们还在讨论大型语言模型,然后突然间我们开始谈论基础模型,你可以对其进行微调,接着我们又突然开始谈论检索增强生成(RAG),而这一切都发生在几个月的时间里。每种模型都有不同的构建和部署方式,你说得对,这是一个不断变化的领域,人们需要不断适应,并学会相关的专业术语,以便理解哪些产品最适合特定情况。
观众:也许你会想到一个问题,我不知道在座的人中甚至是否有一半是我们或者基础设施方面的人,但是我知道很长一段时间以来,作为一个产品营销人员,我有一个产品营销机构,做了很长时间的产品营销,很长一段时间以来,与团队合作真的是一大挑战,我会问团队:“你确定你的目标是开发者吗?”显而易见现在你知道平台团队和那种概念,这不是一个新词,但它确实让人放松了一些,不再只是关注开发者,但我觉得你提出的很多东西,特别是针对基础设施方面的人,帮助我们理解为什么我们现在构建的东西如此重要,正在变得更加清晰,所以我的意思是你是否也看到了同样的情况,你的受众是谁,你们正在与哪些受众交流?
这个问题问得真好。其实,我们的受众相当广泛,从各个公司到不同的决策者,比如CEO、CTO、数据科学家,还有IT基础设施团队。当我们观察这四个主要方向时,不难发现每个人在选择或推动选择时,其背后的原因都是各不相同的。对于IT基础设施团队来说,仅仅是维护基础设施本身就已经是一个不小的挑战了,如果再增加更多的复杂性,那无疑会带来更多的风险,同时也会加大扩展和维护这样复杂系统的难度。因此,我们确实需要向他们传达相关的信息。
而对于数据科学家,甚至是应用工程师来说,就拿我提供的视频会议客户的例子来说,他们有自己的应用程序需要部署,所以他们有一个完整的应用团队在负责这个解决方案,这个团队与AI是独立的。但现在,这个团队加入了AI的元素,于是两个团队需要与IT基础设施团队携手合作,共同解决问题。所以,我们必须要向这些人群传达信息,并与他们合作,才能成功地将AI应用程序大规模地部署出去。
观众:我很希望我能给你一个更为清晰的答案,但目前情况确实有些复杂。
观众:市场确实处于一个较为混乱的阶段。
观众:关于这个问题,我有两点看法。首先,当人们看待英特尔和硬件时,我认为他们也应该看到英特尔背后的软件实力,因为软件对于充分发挥硬件性能至关重要。其次,在人工智能领域,人们经常谈论CPU和加速器。其实,CPU本身也是一种加速器。从术语的角度来看,人们应该意识到CPU是一个有效的选择,并应该将其视为一种加速器。当人们在讨论中使用“加速器”这个词时,这一点尤为重要。
你说得对,这确实是一个很好的观点。有时候,我们很容易忽视CPU的重要性,因为它在我们的基础设施中扮演了太多的角色,以至于我们可能并不会把它看作是一个独特或潜在的加速器。我特别喜欢这种观念。
观众:尤其是当看到最新一代的Xeon时。我注意到英特尔正在直接在CPU上添加许多针对AI的加速器功能,这也是第五代Xeon比第四代更快的原因之一,因为它在CPU中集成了特定的加速器功能。
是的,随着每一代的更迭,我们都在努力挑战极限,确保我们能够带来新的功能。你说得没错,从第三代到第四代,再到现在的第五代,我们的进步确实是巨大的。
观众:其中也包含了一些挑战,就像AMX这样的技术,其实客户并不太关心这些具体的技术名词,他们只想要速度更快。他们期待的不仅仅是速度的提升,更希望每次升级都能带来惊喜,无论升级的程度如何。在我负责管理的环境里,2020年还有人在买全新的Itanium服务器,这并不是因为它性能多么出色,而是因为内部从一个平台迁移到另一个平台的决策过程非常复杂。所以,当你决定升级到更新的平台时,你期望的是商业级别的变革。
观众:从实际应用的角度来看,比如在Kamiwaza的例子中,提到了这一点,Nature Fresh Farms也谈到了类似的情况。当他们的业务优先级不高时,他们会选择将业务迁移到旧的Xeon平台;而当他们需要更高的性能时,就会迁移到更新的集群。他们并不关心具体的技术功能,只是说当需要更好的性能时,就迁移到更新的平台上。因此,在某种程度上,这已经成为一种内在的期望:如果我升级到更高级的处理器,我就能获得更好的性能。但正如Frederick指出的,我们需要开始将这些技术视为加速器。当我在考虑架构并决定是否需要加速器时,我会考虑平台能提供哪些功能?这是CPU上的加速器,还是外部的加速器?
观众:我认为在市场推广速度方面有一个非常引人注目的故事,那就是首先采用CPU,Kevin来自Nature Fresh Farm的故事真的很鼓舞人心。我认为我们昨晚谈论过的其中一件事,我想看到的或许更多地涉及到你所提到的市场定位方面,这对开发者体验来说有点更多的意义。就我个人而言,作为一个应用集成商,我熟悉一些产品,比如LlamaIndex,可以在本地运行模型,我可以在Apple silicon和英特尔芯片上做到这一点,但我不知道他是如何找到与CPU相关的前进道路的。所以我觉得也许有一个机会,或者也许我可以从你们那里学到一些东西,比如软件方面,我该如何开始使用这个工具链,并抓住这个机会,打败我的竞争对手,率先上市。
观众:我觉得VMware的演示非常出色,特别是关于那部分的内容。如果你刚买了一台配备Xeon芯片的服务器,那你就已经具备了相应的能力。接下来,你只需要确保其它硬件都达到标准水平,固件、软件和OS也都没问题,再加上为Intel准备的开发工具,你就可以开始工作了,对吧?
没错,通常在没有AI的情况下,CPU在各种部署中都能正常工作,大多数IT基础设施团队也都知道如何大规模部署CPU。但一旦涉及到AI方面的内容,事情确实会变得复杂很多。比如,我们有不同的框架可以选择,像PyTorch和TensorFlow,但根据你们的观点,如果正在实施基于RAG的流程,其中包含LlamaIndex或Haystack,它们能否直接使用呢?一般来说,是可以直接在CPU上使用的。不过,我们一直在努力将事情扩展到更多的框架方案中,以便大家能获得最佳性能,这确实需要一些时间。为了能在早期提供最佳性能,我们还开发了自己的扩展。但总的来说,我同意你们的看法,我们确实需要加大教育力度,展示在CPU上完成这些任务是多么容易。
有时确实需要像Kamiwaza的人说的“嘿,这个RAG之旅其实不简单,它涉及到很多复杂的东西,我们来帮你们简化它。”不管你用的是CPU、GPU还是其它类型的加速器,有时候都需要另一种工具来帮忙解决问题。这就是为什么会有这么多工具和框架出现,因为它们都是为了弥补这个巨大的差距,让事情变得更简单。
关于英特尔,有一点确实很不错。正如Frederick之前提到的,我们拥有成千上万名软件工程师在不懈地努力,确保我们的产品在各种使用场景下都能正常工作。如果您在使用虚拟化环境,其中包含了容器和AI,就像VMware所提到的那样,CPU在这种环境中依然能发挥它的作用。这些都是我们一直在努力确保可以直接使用的功能。
观众:有一件事情我觉得有点模糊,那就是我们缺乏具体的性能数据。就像我们刚才尝试讨论的那样,有很多关于需要多少CPU、GPU是否适合的问题。我认为目前存在一个很大的问题,那就是缺乏针对不同类型CPU和模型的基准测试数据,这样我们就无法实际展现出CPU可以提供多快的性能。如果能够有一系列不断更新、展示CPU推理速度的论文或文章,那就太棒了。这样,当人们看到这些数据时,他们可能会说:“嗯,这个符合我的需求,我甚至不需要考虑GPU。”因为现在的情况似乎有点反向,GPU几乎成了首选。如果我们有这些数据来支持CPU,那么人们可能就不会首选GPU,而是像Nature Fresh Farms那样,只是因为他们有那样的资源,所以选择了那样的方案。
观众:如果能在几周后的一次会议之前,这些都准备就绪,那就真的太棒了。
观众:如果有一个第三方独立的公司或团体来进行某种形式的基准测试,就像MLPerf那样的,Intel会参与进来吗?
是的,我们确实参与了MLPerf以及其它标准的基准测试联盟,目的就是为了让大家能够清楚地看到性能对比,看到CPU在性能方面能够提供什么。通常情况下,特别是涉及到推理部署时,我们观察到一个现象:当大家考虑使用CPU时,并不是说一定要用某个特定的CPU来部署AI解决方案。大多数IT基础设施团队已经选定了一款CPU,他们只是想增加相同的SKU。因为,如果有很多不同的SKU,从IT基础设施管理的角度来看,情况会变得相当复杂。
所以,通过将AI功能融入CPU中,我们得以进一步探讨。您可以告诉我们,您的场景是什么,工作负载是怎样的,以及您打算使用哪种基础设施来处理通用工作负载。有了AMX引擎,您将获得出色的AI性能。而且,您还可以使用标准工具,无需对基础设施做太多甚至任何改动。只需添加更多节点,就能轻松应对。这也是我们的关键优势之一。我们确实公开了性能数据,无论是通过MLPerf,还是直接在我们的网页上,我们有一个专门的性能展示页面,可以与您分享。那里展示了各类模型的基准测试结果,以及我们能实现的性能水平。
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)